Увеличитель энтропии Вселенной #136 (exsstas) wrote,
Увеличитель энтропии Вселенной #136
exsstas

Скачивание книг с Google books

Как вы знаете (а может и нет), у Гугла существует проект «Google книги», который, видимо является самым крупным хранилищем отсканированных книг (по крайней мере по англоязычной литературе точно). Книги, вышедшие давно выложены там для свободного качества, но всё самое вкусное, как всегда, защищено. Защиты бывает двух видов (по договору с правообладателем):
1. Предоставлен некий фиксированный фрагмент для просмотра. В этом случае, кроме таокго фрагмента ничего просмотреть нельзя, поэтому нас такой вариант не устраивает.
2. Выложена почти вся книга (как правило, не хватает в ней 5-10% страниц, что некритично), но просмотреть можно только обложку, содержание и какой-то процент страниц. Таких книг большинство и, если чуть-чуть запариться, то можно обойти ограничения.


вариант1 (ручной): заходим в книгу, увеличиваем страницу на столько, на сколько нам нужно, постепенно перелистываем, дожидаясь загрузки. Когда Google выдает "Вы достигли ограничения на просмотр данной книги" — заходим в кэш браузера и оттуда копируем куда-нибудь все картинки, которые там скопятся (как раз эти самые просмотренные страницы). Далее очишаем кэш, очишаем cookies, находим список бесплатных прокси (например этот). Выбираем первый попавшийся прокси, заходим через него в книгу, начинаем её просматривать с той страницы, на которой остановились. И т.д. Пока не скачаете всё, что есть. NB: в некоторых книгах для IP разных стран доступно разное количество страниц для просмотра, так что советую проверять прокси разных стран — вдргу что-то ещё откопаете. По меньшей мере, всегда проверяйте книгу через какой-нибудь USA-прокси.
После того, как скачаете всю книгу, останется переименовать все файлы (назвать их по номеру страницы) для удоства просмотра. ну а лучше их потом ещё сщить в один PDF и оставить пустые страницы на месте нескачанных.

вариант1 (улучшенный): всё то же самое, только вместо обычного браузера скачиваем Paranoia Browser. Через него быстрее и проще работать с прокси и очищать куки/кэш. Файлы будут лежать в папке с кэшем InternetExplorer.

вариант 2 (огнелисаманам): Если вы любите FireFox, то можно скачать и установить сначала Greasemonkey, затем на него скрипт Google Book Downloader и ещё FlashGot для удобства передачи списка файлов в менеджер закачки. Если у вас в качестве менеджера закачек стоит FlashGet, так ещё и файлы переименовывать будет просто.
По сути плагин умеет скачивать только те страницы, которые доступны вам для просмотра, поэтому нужно будет так же, как и в первом варианте, очищать кэш, куки и заходить на books.google из под разных прокси. Среди кучи дополнений для FireFox я не нашел ни одного, с помощью которого было бы удобно работать со списком прокси и быстро их тасовать. Ещё и куки он очищает как-то плохо — часто Google меня в Огнелисе запомниает, независимо от проставленного прокси. Но это мои кривые руки, наверное.
Скрипт скачивает книги с масштабом 800 пикселей по ширине, что мне кажется маловато, поэтому рекомендую скрипт скачать, сохранить на компе, открыть блокнотом и строку «pageWidth : 800,» заменить на «pageWidth : 1600,» (к примеру), а уже потом устанавливать в Greasemonkey.

вариант 3 (оптимальный) Существует прекрасная программка Google Book Downloader, которая автоматизирует весь процесс. Но с ней тоже не все так гладко. В феврале 2009 вышла версия GBD-0.1.0.alpha8, которая вскоре перестала рабоатть, но в начале августа автор вернулся и сейчас активно работает над новыми версиями. Однако, новые версии хуже. Например, для этой книги новая версия скачивает на 5 страниц меньше, чем страя, притом работает она намного дольше.
Поэтому я рекомендую скачать старую версию установить её в папку c:\mgbd\ (именно в неё!), затем заменить exe-шку вот на эту. Периодически прога будет выдавать ошибки, но тем не менее она будет работать. Пользоваться ей так: в Tools-Options задать желаемую ширину изображения, а в Available web proxies добавить список прокси. (Проще будет сгенерировать его какой-нибудь программой для поиска прокси, например Proxy Finder. Затем в основном окне в строчку Books code скопировать код книги из URL в библиотеке Гугла; нажать «Check», дождаться пока не станет доступна кнопка «Download all» и нажать её, на периодически всплывающих ошибки жать «продолжить»; после того, как станет доступна кнопка «save entire book as…», нажать её и сохранить PDF-файл.
Проблемы две:
1. Некоторые книги прога скачивать не хочет. Вот эту, например. Решение: использовать пункты 1-2 или скачать её с помщью новой версии, выписать номера страниц, которых не хватате и попробовать найти/скачать их с помощью п. 1-2
2. В конце PDF-файлы куча пустых страниц, вперемежку с некоторыми страницами, выдранными из середины книги. Это те страницы, которые было слоэно найти (или которые не нашлись вовсе). Решение: поставить редактор PDF и в нём правильно расположить страницы. Другой вариант — использовать свежую версию программы — страниц скачается чуть меньше, но у нас есть п.1-2 :) Но я всё равно рекомендую pdf потом подправить, вставитв пустые страницы на места тех, которые отсутствуют. Так читать удобней.


Вот, собственно, и всё. И качайте книги быстрее, пока Google все эти дыры не прикрыл :)
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 34 comments
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →