Pull to refresh
0
0
Send message

Мини web-краулер. Качаем книгу из интернета

Reading time5 min
Views9.1K
Поскольку большинство книг я читаю с наладонника, книги для чтения нужно где-то брать. Как правило, интересующие меня книги я нахожу в сетевых библиотеках в текстовом формате (txt, html, fb2). Вместе с тем, бывают случаи, когда хочется прочитать книгу, которая выложена на сайте, где скачивание в принципе не предусмотрено, да ещё и разделена на несколько html-страниц (как эта, например). В таком случае можно сохранить каждую html страницу вручную, но такой способ имеет два важных недостатка. Во-первых, если книга разделена на 15-20 страниц, сохранение вручную займёт много времени и будет раздражать. Во-вторых, вместе с текстом книги мы получим кучу всякого мусора — текст, не относящийся к книге, таблицы, скрипты, ссылки на другие сайты и прочую муть.

Чтобы упростить себе жизнь, мы напишем программу, которая скачает книгу для нас. Из сказанного выше следует, что нам нужна программа, которая: а) скачает в нужном порядке все страницы, по которым разбросана книга; б) с каждой страницы возьмёт только тест и ничего лишнего и в) сохранит весь текст книги в одном html-файле.

В качестве примера мы возьмём книгу Владимира Плунгяна «Почему языки такие разные. Популярная лингвистика». Я нашёл только одну сетевую бибилотеку, где её можно скачать в текстовом формате, да и там требуется регистрация, поэтому мы скачаем её по указанной ссылке с помощью программы, о которой речь пойдёт дальше. Для написания программы мы используем язык программирования Python. Я использовал Python версии 2.6. Эту или более новую версию можно скачать бесплатно на официальном сайте.
Читать дальше →
Total votes 23: ↑13 and ↓10+3
Comments22

Всех дам — с 8 марта!

Reading time1 min
Views457
С новым годом всех поздравляли, чем 23-е и 8-е хуже?

Дамы, присутствующие на Хабре, и дамы, просто читающие Хабр, и даже дамы, постоянно зудящие «Хорош уже читать хабр!» своим парням — с праздником вас всех!

Продолжайте радовать нас своими улыбками, и спасибо, что терпите IT-шников рядом с собой, это совсем непросто.

Ура!

upd. Чертовы пророческие теги.
Total votes 224: ↑135 and ↓89+46
Comments28

Практические советы по составлению портфолио для тестировщиков

Reading time5 min
Views38K
Когда я решила попробовать себя в удаленном тестировании, зарегистрировалась на нескольких freelance-биржах и не получила ни одного предложения о работе, то задумалась о том, что же со мной не так. Немного подумав, я поняла, что для полного счастья мне не хватает портфолио. Я прочитала определенное количество статей, содержащих советы для новичков в этом деле. Некоторые из них были довольно неплохими, как, например "Фриланс — практика", но ни одна из них так и не помогла мне в составлении портфолио тестировщика.
Читать дальше →
Total votes 11: ↑6 and ↓5+1
Comments7

Information

Rating
Does not participate
Location
Николаев, Николаевская обл., Украина
Registered
Activity