Comments / Profile of asibiryakov / Habr

Сибиряков Александр @asibiryakov

Архитектор, разработчик

Profile Publications 1Comments 9Bookmarks

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

asibiryakov Mar 30 2017 at 14:51

Пришлите конкретные поля/запросы, мы посмотрим со своей стороны.

Look

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

asibiryakov Mar 30 2017 at 12:21

Использование Scrapy не является обязательным при построении роботов на Fronter'е. Но если Вы берете воркер стратегии, разрабатываете под него стратегию обхода, то должны будете считаться с тем, как во Fronter'е реализован менеджмент состояний, очередь и обмен данными между компонентами.

Look

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

asibiryakov Mar 30 2017 at 12:12

Статья про фреймворк, а не про конкретный робот. Есть два способа обрабатывать robots.txt в рамках Fronter'ы и Scrapy. Самое простое, это использовать RobotsTxtMiddleware в Scrapy. Перед обработкой URL запрашивается robots.txt с домена, кешируется, и все запросы к домену проверяются если допустимы в рамках robots.txt домена.
Второй способ, это интегрировать обработку robots.txt в стратегию обхода, и попросту не планировать URL, которые запрещены в robots.txt.

Look

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

asibiryakov Mar 29 2017 at 17:56

Скорее наоборот, это понимание у них не появится пока они не возьмут и не попробуют. А вот с этим у нас не все хорошо.

Look

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

asibiryakov Mar 29 2017 at 17:55

Это тоже верно. Просто по мере разработки мы поняли, что стратегия обхода отдельно от хранилища и от других компонент, отвечающих за обмен данными не представляет большой пользы. В результате мы разработали эти компоненты и приняли решение, что Фронтера будет навязывать архитектуру всего робота. При этом мы старались сделать её максимально расширяемой.

Look

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

asibiryakov Mar 29 2017 at 16:31

Пока что только применительно к конкретному веб-сайту. У нас есть своя разработка https://github.com/scrapinghub/splash

Look

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

asibiryakov Mar 29 2017 at 16:29

Этот фреймворк скачивает документы из сети. Скачанный контент может использоваться для построения поисковика.

Look

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

asibiryakov Mar 29 2017 at 16:24

В HBase он уже есть встроенный.