Яндекс

индекс
194,91

Пожелания Яндексу

За более чем год работы наших сайтов, у нас появились следующие пожелания Яндексу, которые могут сделать работу этой поисковой системы более дружелюбной к интернет-сайтам которые она индексирует.
За каждым из этих пожеланий стоит отдельная история, которая аргументирует его важность, кроме того, многие из этих пожеланий довольно просто выполнить.

Используйте достаточно большой Сrawl-delay «по умолчанию»
Однажды у нас упал сайт, как оказалось робот YandexSomething скачивал до 12 страниц в секунду. Да у нас не было сrawl-delay, но это не должно разрешать роботу поисковой системы делать так много запросов в секунду, установка этого параметра по умолчанию хотя бы в 1 секунду позволила бы избежать таких проблем, те кто хотят быстрее могут настроить этот параметр, но сайты не знающие о существовании YandexSomething не должны страдать от этого.

Разделяйте User-agent:YandexSomething и Yandex/1.01.001
Нашей реакцией на DoS атаку робота было запретить его в robots.txt, тем более что поискав мы обнаружили что это какой-то новостной бот. Это было логично, но как оказалось очень глупо. Итак (кстати об этом косвенно указано в документации) это привело к тому, что нас перестал посещать и Yandex/1.01.001 (Yandex/1.03.003 ходил исправно). Об этом мы узнали через неделю от наших пользователей, в результате сайт был выкинут из Яндекса. Трафик начал падать с задержкой в 5-6 дней и поэтому мы не могли обнаружить данную оплошность. Стоит отметить что служба поддержки признала нелогичность данного поведения и обещали исправиться. Кроме того gray в твиттере подсказал, что правильнее поставить crawl-delay, что я и сделал.

Учитывайте время отдачи контента, даже если стоит crawl-delay
У нас на сайте помимо главного домена example.net используются поддомены вида компания.example.net, даже установив Сrawl-delay мы не обезопасимся от DoS атаки роботов так как robots.txt и соответственно Сrawl-delay будет разным для всех поддоменов (а их десятки тысяч в нашем случае) и, формально, робот имеет право положить сайт с любым значением задержки заходя на 10 000 сайтов одновременно. Сегодня ночью наш сайт несколько раз перезагрузился именно по этой причине, так как количество запросов в секунду втрое превышало Сrawl-delay. Не знаю как, но Google делает все корректно и мало того что не нагружает сильно сервер, так еще и скачивает страницы равномерно, мне кажется он учитывает время отдачи контента и не запрашивает паралельно много страниц с одного IP адреса, почему бы не попробовать делать это Яндексу?

Скачивайте страницы равномерно
В нашем случае, робот заходит на основной домен крайне неравномерно. Выглядит это так: робот заходит на основной домен, несколько часов очень активно индексирует и потом уходит на 10-30 часов обрабатывать поддомены. Так как на сайт постоянно добавляется информация, у нас есть специальные страницы с последними обновлениями, с которых есть ссылки на новый контент. Понятно что заходя раз в 10-30 часов робот пропускает много чего, и это приводит к жалобам пользователей, что их сайты порой не появляются в индексе Яндекса месяцами. Опять же таки Google за пару месяцев нашел эти страницы и регулярно их скачивает, как результат очень редко проходит больше 3-х дней до индексации. Понятно что месяц для того чтобы Яндекс поиндексировал сайт это не срок, но и с этим думаю можно бороться.

Будьте более лояльными и предсказуемыми по отношению к новым сайтам
Все когда-то начинали, и не на всех были сразу ссылки с топ сайтов, в нашем случае Яндексу потребовалось более 2-х месяцев чтобы начать индексировать основной домен, и это началось только после переписки с службой поддержки, судя по опыту коллег это обычное дело, даже не смотря на уникальный контент и наличие внешних ссылок. Опять таки и здесь Google ведет себя более дружелюбно, он добавлил нас почти сразу, и постепенно равномерно повышал количество страниц и скорость индексации, да мы были не высоко в поиске, но мы там были и все развивалось предсказуемо.

Целью этого списка было не показать что Яндекс плох а кто-то хорош. Яндекс — это лидер поиска в рунете, наверное наиболее технологичный и успешный проект и это многое значит, в том числе и то что многие считают его поиск хорошим, не говоря уже про то, что наличие альтернативы всегда лучше чем ее отсутствие. Просто хочется чтобы Яндекс стал еще лучше, и более ответственно относился к сайтам, существование которых во многом зависит от него. Тем более мне кажется это не очень сложно.

Я думаю у многих читателей есть что дополнить к этому списку. Возможно было бы неплохо, если бы Яндекс реализовал возможность посылать feature request с обсуждением и голосованием, лучше от этого стало бы всем. А пока это можно сделать в коментариях.

Заранее спасибо Яндексу, если что-либо из этого списка будет услышано и реализовано.
+67
22 июня 2009, 16:17
9

комментарии (112)

–62
bimcom #
Нытье какоето, для этого есть специализированные форумы и службы поддержки яндекса.
–31
lovermann #
Полностью поддерживаю.
+12
akzhan #
Яндекс отстаёт от Гугла на лет пять по качеству работы. Индексации иногда приходится ждать неделями, так что выручает их только брэнд.
+18
mickolka #
ну так давайте поможем ему стать лучше, другого пути нет, пользователи свой выбор сделали.
+4
SteelRat #
Выбор в пользу google? :)
0
akzhan #
Я сделал другой выбор: Вообще стараюсь не обращать особого внимания на Яндекс )))

Поставил Google Analytics и стараюсь, чтобы сайты мои были удобно доступны именно для Гугла (он находит мои сайты в тот же день, когда я их создаю). Яндекс же — по остаточному принципу.
0
mickolka #
повезло вам, но у нас совсем другой случай, по крайней мере в российской версии сайта, здесь без Яндекса мы никуда :(
+2
wolandino #
А я в этом смысле везучий.
Все мои сайты в разное время (чуть больше 10-ка) индексировались Яндексом сразу и на ура. После этого попадали в ТОПы по солидным запросам, и держались там достаточно долго.

То же самое и с нынешним проектом — удачно проиндексированы все страницы, в выдаче на хороших местах. Все хорошо :)

А вот с Google пока не так все радужно, но есть позитивные сдвиги
0
EvilSon #
>Вообще стараюсь не обращать особого внимания на Яндекс )))
Как забавно порой слышать подобные заявления. А какой выбор сделали посетители Вашего сайта?
+1
akzhan #
Вот не скажу… у меня нишевые сайты очень.

Но по GA — через поиск 8 из 10 пользователей, приходящих через поисковые системы, приходят через Гугл. 1 — через Яхо или Live, и 1 — через Яндекс etc.

Сайты русскоязычные.

P.S.: никакого SEO, кроме нормального построения ключевых слов и sitemaps, не делаю.
0
rg_software #
Вы ещё в соседней ветке объясните, что пользователи сделали свой выбор в пользу IE. Вместо этого там рекламируют Файрфокс :)
–2
sneg55 #
другие люди бы радовались что яндекс их сайт индексирует хорошо, а топикстартер жалуется ;)
0
UIRobot #
У Яндекса есть свои преимущества перед Гуглом. Вы про них забываете.
+2
akzhan #
Я их банально не знаю.

В своей реальной жизни я всегда ищу через Google.
0
Goodkat #
Яндекс лучше ищет русский текст. В остальном я тоже пользуюсь только Гуглом.
+1
akzhan #
Это заблуждение, факт устарел давно, Гугл давно уже нормально ищет по русскоязычным сайтам.
0
Goodkat #
Проверить сложно, русское радио я не слушаю. Раньше Яндекс точно лучше искал.

Сейчас на пробу задал фразу из песни, Гугл первой ссылкой выдал сайт группы с текстом песни, второй — текст песни на каком-то сайте текстов песен, третьей — цитату из песни в каком-то бложике, дальше фигню.
Яндекс выдал ссылки на разные сайты совсем не по теме, и только предпоследней ссылкой выдал заданную фразу (в ссылках до этого только отдельные слова), но не в тексте песни, а цитату, хотя и по теме.
+3
Mastyf #
«Сегодня ночью наш сайт несколько раз перезагрузился именно по этой причине»

некорректная фраза.
–7
oleg_alligator #
Вместо того, чтобы писать столько простыни, потрудились бы прочитать мануалы по работе с поисковыми роботами Яндекса. Многие ваши проблемы отпали сами собой.
0
mickolka #
Например? Возможно бы отпала вторая проблема, но нужно было бы читать довольно внимательно, кроме того думаю было бы правильно позволить запрещать отдельно YandexBlog или YandexSomething учитывая их, порою черезмерный аппетит.
НЛО прилетело и опубликовало эту надпись здесь
+20
xwild #
Всем домохозяйкам, которые сделали себе блоги на вордпрессе Вы тоже будете советовать читать мануалы яндекса?
Критика обоснована, боты должны корректно забирать информацию с подавляющей части сайтов.
0
JerryJJ #
Отдельно стоит отметить отзывчивость техподдержки. Единственный раз когда написал им получил ответ вида «мы не комментируем процесс индексирования сайтов». Впрочем, сайт и без Яндекса неплохо работал, так что обошлись без него.
НЛО прилетело и опубликовало эту надпись здесь
–2
sHinE #
В 3 из 5 пунктов упоминается Google. Может стоит кратенько сформулировать все пожелания — «Будьте как Google»?
+3
mickolka #
«Будьте как Google» это не конструктивно, просто приводился пример другой системы которая, на мой взгляд, более правильно отрабатывает некоторые моменты.
+2
sHinE #
Ах да, смайлик забыл в предыдущем комменте :)
Я лично как-то далек от проблем индексации сайтов, но полезые советы из вашего опыта лишними точно не будут.
0
Valery35 #
Чтобы все как у соседа! :)
Как концепция похожа на правду, но надеюсь, все таки в качестве прикола.

В офисе яндекса наблюдал работу в google аккаунте, причем развитом
В офисе google — работу в яндекс сервисах
В общем приколы еще те. Все совпадения имен и названий случайны, персонажи вымышлены, ни одно животное не пострадало.
–3
Valery35 #
Пожелание по качеству — просто сделайте наконец то нормальную индексацию.
Мои сайты-блоги он не индексирует напрочь, видимо из религиозных соображений :)

А вообще, конечно, хотелось бы, чтобы самый успешный и известный российский проект соответствовал своей рекламе. На сколько он от гуглей или яхи отстает — на 5 или 3 года — в общем то неважно. Были бы задачи поставлены и идеи сформулированы

Из пожеланий развития — больше сервисов для умных. Дураков больше, и работать с ними выгоднее, от умных обычно дохода никакого. Но… а впрочем сами придумывайте мотивацию :)
+2
nerezus #
> Да у нас не было сrawl-delay, но это не должно разрешать роботу поисковой системы делать так много запросов в секунду

12 запросов в секунду — это совсем не много. Поэтому если сайт падает от яндекса — то яндекс тут не виноват.
+6
recoilme #
Справедливости ради — 12 запросов в секунду не такое уж запредельное значение. Во всяком случае сайт не должен «ложиться». Посмотрите, например в сторону nginx, он позволяет гибко лимитировать количество запросов в секунду с одного айпи с возможностью временной блокировки айпи инициализировавшего избыточную нагрузку.
Ключевые слова: limit_zone, limit_req_zone
–1
mickolka #
12 в секунду, это скорость отдачи, сайт «ложился» от переполнения пула соединений с базой, так что видимо одновременно там было побольше запросов. Ну а по поводу должен/не должен. Сайт должен справляться с обычными нагрузками, с запасом, 12 запросов в секунду (не статика а динамический контент) это пока, к сожалению, для нас слишком ненормальная нагрузка, нормальная это 2-3.
В сторону limit_zone, limit_req_zone уже смотрим спасибо за совет.
НЛО прилетело и опубликовало эту надпись здесь
–2
mickolka #
нет ну я за вас рад, но нам не надо 4 тыс/секунду ну ни как, нет у нас столько пользователей пока что, а покупать дополнительно сервера, чтобы выдерживать атаки Яндекса это тупиковый ход, так как ресурсы Яндекса однозначно побольше наших.
НЛО прилетело и опубликовало эту надпись здесь
0
mickolka #
ну мы постоянно работаем над этим, просто решаем проблему по мере поступления, докупаем оборудование, оптимизируем код. Да и пользователей есть немало, просто не 12 запросов в секунду динамики а 2-3 в среднем в пике но тоже неплохо.
НЛО прилетело и опубликовало эту надпись здесь
0
mickolka #
пул есть но он не безразмерный (именно он и переполняется кстати), главную кешируем и основные трудозатратные запросы также. Просто с DoSом бороться невозможно, только административными мерами, вроде лимита соединений.
+1
akzhan #
Вот нафига им ради одного бота докупать оборудование, если у них пользователей в пике меньше на полпорядка?)
0
pushlan #
Полностью согласен, над сайтом работать и работать. 12 в секунду это вообще не нагрузка.
–8
egorinsk #
Если ваш сайт не выдерживает 12 запросов в секунду, то либо побейте программиста, либо не используйте при разработке сайтов Zend framework, Drupal, или RubyOnRails.
0
Zada #
Сервис написан на Python, и это не какой-то сайтик или еще что, а довольно таки большой и популярный проект UAprom.net (RUprom).
0
egorinsk #
Понятно. Тогда могу посоветовать как-нибудь прересмотреть архитектуру проекта, может там убрать тяжелые неиндексируемые запросы, или кеша добавтить, и повниматльнее помсмотреть конфигурацию сервера, так как 12 запросов в секунду это очень мало, и падать в такой ситуации сервер не имеет никакого права.
0
mickolka #
повторюсь, но мы решаем проблемы по мере их поступления, Яндекс генерировал тогда очень тяжелые запросы, кажется к sitemap.xml файлам (их 15 000 для всех поддоменов) которые генерируются раз в неделю динамически, и это их вина что они не учитывают время ответа.
+1
SkyCat #
А что вы против Друпала имеете? 5 тыс. уников в сутки, 20-22 тыс. просмотров страниц вообще не проблема. Уверен, что и 10 тыс. уников выдержит. Возможно, вы просто не умеете его готовить либо просто модные фразы говорить любите?
–1
grimskin #
маловато. 22 просмотра в сутки это один запрос в 4 секунды при равномерном распределении. если попытаться учесть неравномерность обращений в зависимости от времени суток и предположить что в пиковое время запросов в 10 раз больше, то все равно получим 2.5 запроса в секунду.
так что подобная статистика совсем не аргумент.
0
grimskin #
опечатался, естественно имелось ввиду «22 тысячи просмотров в сутки»
0
SkyCat #
ну так это на VDS, а не на выделенном сервере. Можно Drupal.ru привести в пример. Они тоже на VDS сидят.
0
egorinsk #
Много делает запросов к БД, перегруженный опциями интерфейс админки, в код смотрел, не понравилось.
–1
imil #
То есть, ваше требование к Яндексу — наделить поисковых роботов телепатическими способностями, чтобы они заранее знали, что ваш сайт упадет при 12 запросах в секунду, а вот соседний выдержит и сто.
0
mickolka #
ну Google же умеет, думаю там не надо быть телепатом просто оценивать время ответа и не создавать десятки соединений паралельно. Google индексирует страниц столько же, но их в индексе в 3 раза больше и делает это он регулярно а не набрасывается как бешеный и уходит.
–8
KJouflay #
Ради чего столько геморроя? Проще в гугле задать тот или иной вопрос, чем столько запар.
+8
JerryJJ #
Задать в Google вопрос по поводу настройки сайта под работу с Яндексом? :)
–14
psymax #
В топку яндекс!
Гугл — наше все!
+6
marc13 #
Яндекс локален :)
–7
psymax #
С тех пор как он локален у меня скорость до него, меньше чем, когда он не локален.
–1
marc13 #
Для меня важнее вопрос стоимости трафика, а не его скорости
+4
barbuza #
я бы предложил яндексу поднять скорость индексирования до 100 запросов в секунду — тогда некоторые лучше заботились бы о производительности своих сайтов.
+2
david_mz #
У Вас действительно сайты спокойно отдают по сто страниц динамики в секунду? Можно ссылки (для оценки масштаба явления)?
–1
barbuza #
приведу ссылки — скажут что хвастаюсь
–1
barbuza #
да и яндекс бот — это не пользователь, у которого есть персонализированная часть. страницы, общие для всех пользователей должны хорошо кэшироваться
0
david_mz #
Это верно, конечно… для не-юзеров многое можно упростить.
0
alfa #
Аналогично, есть проект который для гостей спокойно держит сотню запросов используя только кэширование запросов к СУБД, но если заюзать в nginx его ngx_http_memcached_module то можно вообще не доводить до php запросы, тогда там уже еще на порядок быстрее всё.
0
barbuza #
про это я и говорю
+1
zw0rk #
бедные пользователи шаред-хостинга…
0
Zada #
С чего это вы взяли, что речь идет о шаред-хостинге? Уверяю, что нет!
0
akzhan #
Типа яндекс-бот чует различие?)
0
Zada #
Причем здесь это?

Все сильно вцепились в фразу 12 запросов в секунду. Это ж не факт, что у них сервер падает при 12 запросах в секунду. Помимо яндекса туда еще и пользователи ходят.
0
aps #
И ввести это как дополнительную плату по двумя тарифами.
1) нагрузочное тестирование собственного сервера
2) нагрузочное тестирование сервера конкурента
+1
sCrasher #
Брр, автор, разделяйте поток сознания точками почаще.
По теме этой портянки: а почему тут, а не в саппорт Яндекса? Думаю, они бы вам ответили сразу. Возможно, одним из стандартных ответов, так как ничего особо полезного в тексте нет и наверняка это у них всё в текучке (сейчас ещё и Арзамас 1.1, им вообще не до этого, подозреваю).

Пишите в Яндекс, и будет вам счастье. Даже будут гарантии того, что это прочитали и ответили. Здесь это как-то ни о чём.
0
mickolka #
ну прочитает это рядовой работник службы поддержки, ну ответит что-то стандартное, что от этого глобально изменится, а так есть шанс что кто-то заметит и постарается что-то сделать для того чтобы подобные вещи исправить (да я наивный и верю в чудеса :)). По крайней мере, если бы о моем сервисе такое написали я был бы благодарен и сделал бы все возможное чтобы воплотить улучшения в жизнь
0
Javoronok #
Яндекс в упор не замечает новые сайты несколько месяцев. google давно индексирует, gogo от mail.ru индексирует, rambler индексирует, а яндекс «резвится» на таких бедолагах, как вышеупомянутый сайт. Почему он отправляет в песочницу?
+2
Crashus #
Вот можно в nginx добавить:

if ($http_user_agent ~ Yandex/* ) {
limit_rate 20k;
break;
}
0
mickolka #
не сработает для YandexBlog и YandexSomething (лучше $http_user_agent ~ Yandex*) но в целом идея.
Кстати, а помешает ли это ему создавать одновременно 100 соединений, каждый из которых приводит к соединению с базой, что приводит к смерти пула?
0
Crashus #
ух, ещё не проверял, но хиленький веб-сервачок отпустило очень хорошо, надеюсь поможет и вашему
НЛО прилетело и опубликовало эту надпись здесь
+2
mickolka #
ну это совсем просто :)

User-agent: Yandex
Disallow: /

только стоит ли

НЛО прилетело и опубликовало эту надпись здесь
+1
mickolka #
боюсь что кроме вас эта акция никому не интересна, интернет это бизнес.
+2
Valery35 #
Интернет еще и культура и политика и искусство…
Ажиотаж на деньги — скорее специфика сегодняшнего монетаризма
0
ainu #
Самый простой способ – поместить в robots.txt следующие строчки:
User-agent: *
Disallow: /
–1
mickolka #
ну это забанит вообще все роботы, лучше так не делать :)
–1
allx #
у меня такая проблема точнее у знакомого с выдачей яндекса адресов содержащих кириллицу

например вот проиндексировання страничка www.saloncardinal.ru/catalogue/countrie-Англия
а это она на выдаче яндексом yandex.ru/yandsearch?p=1&surl=saloncardinal.ru&text=*&clid=46510 (под номером 14)

так вот
в самой ссылке яндекс почему-то кириллицу кодирует в CP1251
а под ссылкой в UTF-8 (зеленым цветом строка)

на сайте тоже используется UTF-8, поэтому если кликать по ссылке яндекса то страничка открывается не корректно
пример
ссылка с яндекса — www.saloncardinal.ru/catalogue/countrie-%C0%ED%E3%EB%E8%FF (CP1251)
на сайте — www.saloncardinal.ru/catalogue/countrie-%D0%90%D0%BD%D0%B3%D0%BB%D0%B8%D1%8F (UTF-8)

я не особо силён в таких вещах
и не знаю с какой стороны косяк и как его исправить, факт в том что с гуглом таких проблем нет

… прошу прощения за активные ссылки, текстом не знаю как их тут сделать
–3
AntonShcherbinin #
В URI не может быть никакой кириллицы по определению (см. RFC 3986 `Uniform Resource Identifier (URI): Generic Syntax').
Вы пишете URI с кириллицей в Windows-1251? Хочете проблем — их есть у вас. При чем здесь Яндекс?
Гугль обрабатывает ваши некорректные URI так, как вы подразумевали, что их нужно обрабатывать? Вам не приходило в голову, что это просто совпадение?
–1
allx #
>>В URI не может быть никакой кириллицы по определению
не может? тогда ещё раз гляньте на то что я написал выше

допустим такой URL ".../countrie-Англия" Яндекс видит при индексации в виде "/countrie-%D0%90%D0%BD%D0%B3%D0%BB%D0%B8%D1%8F" — именно так выдаёт этот адрес веб-сервер и если воспользоваться декодером будет ясно что это юникод

так зачем же яндекс перекодирует этот юникод в CP1251?
0
allx #
я хорошо понимаю что URL с буквами кириллицы выдает сам браузер автоматом
0
w999d #
а не пробовали сразу правильную ссылку в коде указывать? чтобы поисковику не нужно было догадываться
0
allx #
правильную это какую?
0
Yarcher #
Я вот тоже не пойму почему они Сrawl-delay «по умолчанию» не могут сделать щадящим
+1
alfa #
Так как на сайт постоянно добавляется информация, у нас есть специальные страницы с последними обновлениями, с которых есть ссылки на новый контент. Понятно что заходя раз в 10-30 часов робот пропускает много чего, и это приводит к жалобам пользователей, что их сайты порой не появляются в индексе Яндекса месяцами.


Ипользуйте xml sitemap, помогает
0
mickolka #
sitemap есть, со всеми страничками, не помогает, может отдельно делать sitemap с недавним контентом?
0
alfa #
а вы сайтмап обычный от xmlшного отличаете? я про www.sitemaps.org/ru/
+1
mickolka #
аск :) uaprom.net/sitemap.xml более 130 000 адресов, 6 файлов
0
alfa #
Яндекс.Вебмастер что говорит? Что всё сожрал и ошибок нет?
0
mickolka #
да, правда ему месяца 3 потребовалось на то чтобы это сделать, мы даже вроде и не меняли ничего, я мудма это глюк Вебмасера, или он просто не хотел читать ссылки с файла.
+1
akzhan #
Не надо. Сайтмап содержит даты модификации. просто Яндекс тупой, как буратино…
+1
mickolka #
кстати, действительно, что им мешает отслеживать по дате модификации, которую мы правильно ставим? Можно прератить это в еще одно пожелание, наряду со скачиванием sitemap чаще чем раз в месяц.
НЛО прилетело и опубликовало эту надпись здесь
0
Noker #
Столкнулся с такой проблемой, связанной ЯндексАдресами. Любая фирма может зарегистрировать себя на сайте ЯндексАдреса, после чего в поиске будет показываться адрес фирмы и телефон, все это привязывается к карте и сайту компании. Вот так и случилось с моим продвинутым сайтом. Кто-то прописал свой адрес, к моему сайту и сейчас собирает клиентов. После письма в яндекс сказали, что нужно написать об ошибке на ЯндексАдресах. Как долго продлиться это удаление они не сказали, и даже если они удалят эти контакты, не поставят ли конкуренты снова на мой сайт свои контакты. Если кто-то сталкивался с таким, посоветуйте что делать? Заранее благодарен.
0
mickolka #
в случае Яндекса можно сделать валидацию сайта по аналогии как это сделано в инструментах вебмастера, без этого только писать в службу поддержки и надеться что им это надоест и они подкрутят функционал. Но вообще странно, легко ведь починить.
–3
vini #
Используйте достаточно большой Сrawl-delay «по умолчанию»
извините, у меня весьма стандартный хостинг и 100к страниц в индексе того же яндекса, может стоит взять хостинг по проще? а вообще гугло, ой, яндекс карта сайта решает эти проблемы

Разделяйте User-agent:YandexSomething и Yandex/1.01.001
а это зря, они там покурят и разберуться, а вам минус бот, а слить бота, ну не мне вас учить

короче забил, унылое говно, не хочу это читать, топик зла
з.ы. проблемы бывают у всех — важно что вы найдете решение для себя или нет, а проблемы то никуда не уйдут, вы не рес номер один в рунете
+3
tiaurus #
Я мало разбираюсь в терминологиях, но даже мне, такому бездырю, есть что сказать.
1. Яндекс просто отказывался индексировать один из моих блогов три месяца, хотя я каждую неделю добавлял его в форму регистрации новых сайтов. Более того, я установил их код, чтобы Яндекс знал, что это мой сайт. Три месяца — все бесполезно. И только переписка со службой поддержки дала маленький результат — ссылка на главную страницу появилась в Яндексе. В моем блоге сейчас около 500 постов, но Яндексом проиндексировано около 150, и это после 6 месяцев работы. Как минимум, странные алгоритмы работы поисковой системы.
2. Просматривая статистику посещений, вижу, что робот Яндекса создает жуткие напряги моему виртуальному серверу. Не понимаю, что он делает по 3 часа на сайте, если проиндексирована только его треть? Да за это время можно весь сайт от начала и до конца проиндексировать. Я бэкапы по FTP делаю быстрее (то есть переписываю ВСЕ файлы сайта на локальный компьютер).
3. Что это за странные ответы человека-робота Платона, что сайт не соответствует представлениям о том, каким он должен быть, и поэтому выкинут из индекса (не принят в индекс)? То есть, все эти дорвеи, сателлиты, говносайты, мирриады порно-источников, биллионы помоек, посвещенны смо и сео высерам, блоги беззастенчивых копипастеров, плохих рерайтеров, блоги, наполненные твоим бредом яндекс.весна с рекламными ссылками в конце и начале постов, все эти фекалоресурсы соответствуют представлениям Яндекса о том, каким должен быть сайт, а мой блог, который я писал от начала и до конца сам, где 100% текста — уникальный, авторский контент, где цитаты оформлены как цитаты (выделены соответствующим образом ссылкой на источник), где нет ни мата, ни порнухи, ни чернухи — не соответствует, и поэтому ему могут снизить всякие показатели, или вообще исключить из индексации.
Думаю, что если первые два пункта можно с натяжкой послать куда подальше вместе со мной, то под третим подпишется масса вебмастеров (блогеров), оказавшихся в такой же ситуации.
0
mickolka #
К сожалению, у вас классический случай, я слышал подобное от блогеров не раз. Почему так происходит, непонятно, ведь массу других блогов ничем не особо не лучше и не хуже Яндекс индексирует. Может здесь есть какая-то случайная величина, или рядом хостится дорвей, или не нравится домен? Ответ на это могут дать только специалисты писавшие алгоритм работы робота.
0
tiaurus #
А как это — рядом дорвей хостится? Если вы про мои дорвеи, то у меня отродясь никогда не было ни дорвеев, ни сателитов, ни прочей ерунды. Если про чужой, то ведь это виртуальное пространство, а не реальное, и отличме в одну цифру уже означает соверненно другое место. Думаю, что алгоритмы Яндекса давно уже требуют кардинального пересмотра, да видимимо никому это, кроме простых вебмастеров, навроде неас с вами, не нужно. У них бабло капает? Капает! Вот и все.
0
grimskin #
> А как это — рядом дорвей хостится?
на том же айпишнике или в той же подсети. или просто у любимого дорвейщиками хостера.
0
tiaurus #
Мой хостер — Хостинг-Центр РБК. Это любимый дорвейщиками хостер? Я не думаю, что Яндекс вообще пытается с дорвеями бороться. Иначе бы их не было столько в поисковой выдаче Яндекса. Что-то тут неправильное в самих алгоримах, потому как многие сайты приходится администрации включать в поиск чуть ли не ручным способом.
0
grimskin #
не только пытается но и борется :) просто и дорвейщики не спят. вы просто не представляете сколько дорвеев отфильтровывается, а те что таки попадают в выдаючи составляют доли процента от общего количества скармливаемых ему.

а чтобы что-то конкретное сказать о конкретном блоге, не попадавшем в выдачу, нужно уже смотреть именно на него, исходя из опыта работы с яндексом — это проблемы блога.
0
akzhan #
Рядом — смешно звучит…

Ограничивать можно только по IP де-факто… у виртуальных серверов они разные де факто.

У меня сайты на мастерхостовом ВПС, дорвеев рядом даже в подсетке нет.
сайты добавил в Яндекс Вебмастер Тулз.

два месяца не было индексации… потом написал в техсаппорт, через несколько дней проиндексировали.

Сравните с Гуглом — проиндексировали в тот же день, хотя даже кода GA не было ещё на сайтах.
0
mstarrr #
Путаница с названием бота — это простой баг в системе ботов яндекса.

Вот здесь www.webplanet.ru/news/security/2009/06/19/comments/yanddos.html на веб планете писали о проблеме, там в коментах подробно она разжевана.
+5
Sadovsky #
Спасибо за интересный тред и советы по политике обхода сайтов, мы постараемся их учесть. Данные о безобразном поведении нашего робота правдивые, но не отражают полной картины.

1. Робот Яндекса выкачал 19238 страниц с 8506 (восьми тысяч пятисот шести) поддоменов uaprom.net и с 6896 (шести тысяч восьмисот девяноста шести) поддоменов ruprom.net, а не с двух хостов, как может показаться из заметок.

2. На каждый хост (из ~ 15000) делалось не более одного обращения в 1,1 или 2 секунды (в зависимости от размера хоста).

Сейчас uaprom.net/robots.txt и ruprom.net/robots.txt установили Crawl-Delay в 0,5, благодаря чему увеличили нагрузку на своих хосты (по умолчанию Crawl-Delay 1,1 или 2 секунды).

3. Все поддомены ruprom.net и uaprom.net лежат на двух IP. Автоматические алгоритмы Яндекса определили ruprom.net и uaprom.net как хостинги (впрочем, сайты позиционируют себя как «надежный хостинг», см. ruprom.net/tour-4 и uaprom.net/tour-4).

Для надежного хостинга, на серверах которого находится много сайтов, мы создавали нагрузку, не превышающую 12 запросов в секунду на IP.

4. User-Agent отдавался «YandexSomething» и это наша вина. Это был не новостной, а один из поисковых роботов, у которого мы забыли изменить дефолтное представление. Ошибку исправили, спасибо, робота поставили в угол.

Резюме: нагрузка создаваемая на IP хостингов ruprom.net и uaprom.net не превышала лимиты, допустимые при обходе большинства хостингов. Мы понимаем, что она может быть избыточной для небольших хостингов и постараемся лучше дифференцировать нагрузку на большие и малые хостинги. Надеемся, что сервера рунета будут встречать перевоспитанного робота благосклонно.
0
mickolka #
Александр, спасибо за детальный отчет, нам очень приятно, что компания Яндекс конструктивно отвечает на конструктивные пожелания.

Я описывал ниже суть проблемы из которой было ясно что поддоменов много. Мы действительно пока не всегда готовы к нагрузке 12 запросов в секунду, так как у нас нормальной является нагрузка 2-3 запроса в пике, эту проблему мы постараемся решить с помощью nginx и ограничении количества запросов с одного IP в секунду. Стоит отметить что количество страниц в индексе (сумарно менее 200 000 страниц) не требует индексации со скоростью 12 запросов в секунду, тем более учитвая что есть актуальный sitemap с коректными last-modified датами для всех поддоменов. Google индексирует нас со скоростью 1-2 запроса в секунду сумарно и мы очень довольны качеством и актуальностью его индекса.

В связи с этим, особенно хотелось бы пожелать Вам исполнить последние два пожелания, это был бы качественный шаг.

Надеюсь, что выпадние из индекса из-за блокирования 7 дней YandexSomething временно и скоро разрешится, хотя пока за 5 дней прогрес только в том что скачались sitemap и главная.

0
akzhan #
Вам sitemap для галочки или мозг включаете?)

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.