Недавно на Хабре прошла
дискуссия, где обсуждалась политика обхода сайтов и
инцидент с роботом Яндекса у серверов uaprom.net и ruprom.net.
Спасибо всем за последовавшие советы, мы постараемся их учесть. Что касается случая с uaprom/ruprom, то данные о безобразном поведении нашего робота правдивые, но не отражают полной картины.
1. Робот Яндекса выкачал 19238 страниц с 8506 (восьми тысяч пятисот шести) поддоменов uaprom.net и с 6896 (шести тысяч восьмисот девяноста шести) поддоменов ruprom.net, а не с двух хостов, как может показаться из заметок.
2. На каждый хост (из ~ 15000) делалось не более одного обращения в 1,1 или 2 секунды (в зависимости от размера хоста).
Сейчас
uaprom.net/robots.txt и
ruprom.net/robots.txt установили Crawl-Delay в 0,5, благодаря чему увеличили нагрузку на своих хосты (по умолчанию Crawl-Delay 1,1 или 2 секунды).
3. Все поддомены ruprom.net и uaprom.net лежат на двух IP. Автоматические алгоритмы Яндекса определили ruprom.net и uaprom.net как хостинги (они и позиционируют себя как надежные хостинги, см.
ruprom.net/tour-4 и
uaprom.net/tour-4).
Для надежного хостинга, на серверах которого находится много сайтов, мы создавали нагрузку, не превышающую 12 запросов в секунду на IP.
4. User-Agent отдавался «YandexSomething» и это наша вина. Это был не новостной, а один из поисковых роботов, у которого мы забыли изменить дефолтное представление. Ошибку исправили, спасибо, робота поставили в угол.
Резюме: нагрузка создаваемая на IP хостингов ruprom.net и uaprom.net не превышала лимиты, допустимые при обходе большинства хостингов. Мы понимаем, что она может быть избыточной для небольших хостингов и постараемся лучше дифференцировать нагрузку на большие и малые хостинги. Надеемся, что сервера рунета будут встречать перевоспитанного робота благосклонно.
комментарии (36)
А YandexSomething надо ограничивать на всякий случай :).
Это смотря в какой промежуток времени: робот ходит постоянно, а хабраэффект волной накатывает и отпускает )
Так по тому топику яндекс не прояснил ситуацию, ни одного их комментария не было.
Верю и в то, что сайты не изменились принципиально, а вот позиция у тех, кто решал проблему изменилась, а скорее всего все сделано было через головы этих редакторов.
Я далек от мысли, что после моего поста в Яндекс-каталог Вы попали… но все равно все это наложило на Вашу историю неприятный оттенок обиды… я так думаю.
Ваши роботы ещё и просканенный контент читать умеют?!
Роботы используют революционный алгоритм, в основе которого лежит постулат «Любая таблица с плюсами, минусами и звездочками является тарифной сеткой». Далее используется факт N1: «uaprom.net имеет 8506 поддоменов». На основании этого делается вывод о хостинге. Количественная оценка поддоменов служит критерием для определения надежности.
Александр, спасибо за детальный ответ, нам очень приятно, что компания Яндекс конструктивно отвечает на конструктивные пожелания.
Я описывал ниже суть проблемы из которой было ясно что поддоменов много. Мы действительно пока не всегда готовы к нагрузке 12 запросов в секунду, так как у нас нормальной является нагрузка 2-3 запроса в пике, эту проблему мы постараемся решить с помощью nginx и ограничении количества запросов с одного IP в секунду. Стоит отметить что количество страниц в индексе (сумарно менее 200 000 страниц) не требует индексации со скоростью 12 запросов в секунду, тем более учитвая что есть актуальный sitemap с коректными last-modified датами для всех поддоменов. Google индексирует нас со скоростью 1-2 запроса в секунду сумарно и мы очень довольны качеством и актуальностью его индекса.
В связи с этим, особенно хотелось бы пожелать Вам исполнить последние два пожелания, это был бы качественный шаг.
Надеюсь, что выпадние из индекса из-за блокирования 7 дней YandexSomething временно и скоро разрешится, хотя пока за 5 дней прогрес только в том что скачались sitemap и главная.
Александ Садовский, конечно, молодец, но чувствую, они там в Яндексе крутят у виска от мысли, что есть хостинги, падающие от 12 запросов в секунду. Причём настолько непрофессиональные хостинги, что даже директивы robots.txt для админов — терра инкогнита.
Я бы писал в саппорт, чтоб не позориться. Тут знаете ли, не «Яндекс провинился», а "*prom опозорилсо, а Яндекс у себя мелкий баг поправил".
1. Мы не хостинг в классическом понимании, мы скорее система создания сайтов, нечто подобное ucoz.ru или narod.ru но узко заточеное под сайты визитки компаний. Графа надежность хостинга (соглашусь с коментариями, что это странное оправдание, так как врядли бот парсил нашу таблицу) в uaprom.net/tour-4 означает только что у нах нормальное оборудование, хороший up-time и хорошая скорость отдачи (в случае обычных нагрузок). У нас и есть подобие IPS, но Яндекс бот был включен в список ботов которым наша IPS доверяет, поэтому он не был отсечен.
2. Для поддоменов вроде company.uaprom.net/robots.txt Crawl-delay Яндексу стоит в 5 сек, но даже это не поможет учитывая то, что их 15 000 (формально можно делать 3 000 запросов в секунду). Очевидно что тут нужно учитывать не субъективную надежность хостинга, а иметь обратную связь между скоростью индексации (на один IP) адреса и временем ответа, не смотря на Crawl-delay. Так как эти параметры объективно связаны, то это раз и навсегда избавит Яндекс от претензий вроде той что была предъявлена.
3. Нам очень хотелось чтобы также Яндекс позволил отдельно блокировать разные роботы, как это делают многие другие системы. Чтобы вполне логичное блокирование YandexSomething в случае некоректного его поведения не приводило к выпаданию сайта из индекса. Также хотелось бы услышать временную оценку того, когда наши сайты будут восстановлены в индексе из-за этой ошибки (до прежних значений количества страниц основных доменов).
4. Еще раз спасибо за публичный ответ, я думаю что несмотря на довольно негативный фон, из этой дискусии все стороны (и Яндекс и вебмастеры) могут извлечь выгоду если будут сделаны правильные выводы. Стоит отметить, что мы очень хорошо относимся к сервисам Яндекса и всячески интегрируемся с ними (Карты, Директ, РСЯ) так как они, по нашему мнению, действительно лучше аналогов.