ЭТО ОЧЕНЬ ВАЖНО! Как скачать интернет: инструкция по выживанию в автономном Рунете

Перейти вниз

ЭТО ОЧЕНЬ ВАЖНО! Как скачать интернет: инструкция по выживанию в автономном Рунете Empty ЭТО ОЧЕНЬ ВАЖНО! Как скачать интернет: инструкция по выживанию в автономном Рунете

Сообщение автор Ирина Анисимова в Сб Май 25, 2019 10:30 am

Осенью 2019 года в силу должен вступить закон об автономном Рунете. Если он будет воплощен в жизнь, власти при желании смогут найти угрозу российскому сегменту интернета и (под предлогом защиты) полностью изолировать его от глобального. Россияне могут остаться без доступа к находящимся за рубежом сервисам и сайтам — никакие VPN уже не помогут. Но до тех пор можно успеть сохранить наиболее важные для вас веб-страницы и сайты — просто скачать про запас. Вот как это сделать.

Скачивайте отдельные страницы вручную

Проект Internet Archive (archive.org) разработал специальный формат WARC для архивирования веб-страниц и веб-сайтов. Он сейчас принят в качестве международного стандарта ISO 28500. Такие архивы представляют собой файлы с расширением .warc или .warc.gz, где в исходном или сжатом виде хранятся как сами данные (html-код, картинки, аудио, видео и так далее), так и метаданные (ссылки, даты архивирования, контрольные суммы и прочие). Каждый архив может хранить от одной веб-страницы до множества целых веб-сайтов. Соответственно, он может занимать и пару десятков килобайт, и сотни терабайт.

К сожалению, ни один современный браузер не умеет сохранять страницы в виде warc-архивов. Но в 2016 году появился сайт Webrecorder, который предоставляет, наверное, самый простой способ создания warc-архивов для обычного пользователя:

Вводите в специальное поле ссылку, которую вы хотите сохранить.
Нажимаете кнопку и ждете, пока страница целиком загрузится.
Если на странице есть встроенные аудио- или видеоролики, запускаете их.
Повторите эту процедуру для других ссылок, которые вы собираетесь скачать. Затем перейдите в менеджер сохраненных страниц (коллекций) и через выпадающее меню загрузите эту коллекцию. В итоге вы получите warc-файл со всеми страницами, которые открывали на сайте Webrecorder.



Инструкция по пользованию Webrecorder

Либо сразу целые сайты
Существуют программы, которые умеют сохранять в виде warc-архивов целые сайты. Они работают как поисковые роботы: открывают главную страницу, ищут на ней ссылки и последовательно переходят по ним. Некоторые из таких программ (wget) хорошо работают только со старыми сайтами со статичными html-страницами, другие (wpull, grab-site, brozzler) способны обрабатывать динамичные страницы и скачивать встроенные медиафайлы.

Сохраняйте сайты автоматически, пока ходите по ним
Для этого вам надо сначала установить специальный прокси-сервер warcprox. А затем поменять настройки браузера или операционной системы, чтобы пропустить через него весь трафик своего браузера. Прокси будет отлавливать веб-страницы и сохранять их в warc-файл на вашем компьютере. Теоретически это очень удобно — у вас остается копия всех страниц, которые вы посетили. Можно не бояться, что некоторые из них могут внезапно исчезнуть (или будут заблокированы). Но на практике постоянно использовать этот прокси может быть неудобно и даже небезопасно.

Этот прокси умеет сохранять обычный и зашифрованный веб-трафик. Во втором случае, когда ему приходится иметь дело с протоколом HTTPS, он подменяет сертификаты сайта. Фактически прокси организует атаку «человек посередине» (man-in-the-middle), потому что иначе ему не справиться с шифрованием. Из-за этого современные браузеры будут предупреждать вас о небезопасном соединении. Вы сможете игнорировать такие предупреждения. Но некоторые сайты, например meduza.io, для защиты от mitm-атак используют механизм HSTS (HTTP Strict Transport Security). В таких случаях проигнорировать предупреждение браузера и загрузить страницу без специальных ухищрений не получится. В случае необходимости можно установить браузер, который не поддерживает HSTS (например, старые версии Chrome или Firefox).

Осторожно! С warcprox вы не можете контролировать безопасность соединений с сайтами, использующими протокол HTTPS.

ПОЧЕМУ ОТКЛЮЧЕНИЕ РОССИИ ОТ ИНТЕРНЕТА — ЭТО ОЧЕНЬ ПЛОХО

Власти готовятся к изоляции Рунета. Какое место Россия сейчас занимает в мировом интернете — в одной картинке

ЭТО ОЧЕНЬ ВАЖНО! Как скачать интернет: инструкция по выживанию в автономном Рунете BAUWjZtPxTWeTqcrIHb61w

Если Рунет будет изолирован от внешнего мира, то внутри России останется лишь небольшая часть глобальной Сети. В российских доменных зонах .ru и .рф зарегистрированы около шести миллионов сайтов — менее 2% от общего количества доменных имен. Аудитория Рунета составляет 90 миллионов человек, а всего в мире почти четыре миллиарда пользователей интернета. По данным Cisco, в 2017 году на Россию приходилось лишь 3% сетевого трафика от общемирового.

Создавайте архив из списка сайтов, которые вы посетили ранее
Для этого существует, например, программа ArchiveBox, которую нужно запускать через командную строку. Откройте журнал посещений или менеджер закладок в вашем браузере и через экспорт сохраните ссылки в виде html-страницы. Откройте терминал, запустите программу и «скормите» ей этот html-файл:

./archive bookmarks.html

ArchiveBox умеет сохранять ссылки не только в виде warc-архивов, но в других форматах: html-страницах, pdf-файлах и png-скриншотах.

Чтобы посмотреть сохраненное, установите плеер
Например, программу Webrecorder Player. С ее помощью можно открыть warc-файл, найти внутри нужную страницу (по ссылке или дате) и посмотреть ее.

А если интернет не отключат? Что мне делать с этими архивами?
Вы можете поделиться ими со всем миром. Будет особенно здорово, если вам удалось сохранить сайт, который уже успел бесследно исчезнуть. Передайте ваш архив волонтерам из проекта Archive Team:

Зарегистрируйтесь на сайте archive.org и загрузите туда свой warc-архив (вручную или через специальное API).
Пометьте архив ключевым словом   archiveteam.
Сообщите о нем участникам проекта по электронной почте или через IRC-чат.
Через некоторое время сохраненный вами сайт может оказаться в Wayback Machine — знаменитом архиве Всемирной паутины.

Денис Дмитриев

https://meduza.io/feature/2019/05/21/kak-skachat-internet-instruktsiya-po-vyzhivaniyu-v-avtonomnom-runete?fbclid=IwAR0zQL7xRppp2LJlmaL3na20Ybg-DI3OpEKeyIShlg3Gap2lVyJKDhTpo6c
Ирина Анисимова
Ирина Анисимова
Admin

Сообщения : 9598
Дата регистрации : 2013-07-15
Откуда : Москва

http://silver-voice.narod.ru

Вернуться к началу Перейти вниз

Вернуться к началу


 
Права доступа к этому форуму:
Вы не можете отвечать на сообщения