TFStudio Jan 15 2016 at 16:54

Насколько важен API или сравниваем Яндекс.XML и реальную выдачу

2 min

13K

Всегда было интересно, существует ли разница между поисковой выдачей Яндекса и их API (xml.yandex.ru), решающим такие же задачи (официальная позиция: Яндекс.XML — возможность делать поисковые запросы к Яндексу и публиковать результаты поиска на своем сайте).

Известно, что данные в Яндекс.Вебмастер всегда сильно запаздывают и расходятся с реальностью: информация, которую можно получить через выдачу (количество проиндексированных страниц, ссылки и пр.) появляется в ЯВМ лишь через несколько суток.

Но поскольку в Яндексе выступает против непосредственного парсинга выдачи, они сделали альтернативу через получение данных по xml.

К слову, раньше к Я.XML все могли получить доступ, просто подтвердив телефонный номер в аккаунте (если не ошибаюсь, для неподтверждённых аккаунтов было ограничение в 1000 запросов), но примерно год или два назад в Яндексе отказались от этой политики и ввели свою метрику, которая сильно коррелирует с трафиком (а если быть точнее, то с «количество показов в выдаче»).

Вообще это очень интересная метрика (к примеру, чем чаще показывается сайт в выдаче, тем чаще антивирусный бот Яндекса проверяет страницу). В прошлом году я как раз её и получил, распарсив 3кк запросов из разных групп. Эти данные можно осудить в отдельной статье. А первый раз я этот термин услышал на Yet Another Conference 2013, в отделе безопасности.

Но вернемся к XML.

Суть эксперимента:

1. Было взято 2,778 запросов из 4 групп (коммерция, женская тематика, туризм, информационные запросы)
2. Почти одновременно был запущен парсинг поисковой выдачи (xml парсится дольше из-за внутренних ограничений)
3. Для доступа к Я.XML взяли собственные лимиты из Я.Вебмастера, для парсинга выдачи — закрытый прокси-сервис. Ради чистоты эксперимента был указан регион lr=1 (география IP прокси-сервиса — RU (по хуизу), в поле address указан Moscow).

Последний апдейт базы был 9 января, а данные собирали 13, так что шторма выдачи уже нет и данные можно считать достоверными.

Немного о минусах XML:

не отдает содержимое title, только сниппет
у сниппета есть разница со сниппетом из выдачи
не показывает, есть ли реклама в выдаче (так можно оценить конкурентов и степень коммерциализации запроса)
не показывает, есть ли сервисы Яндекса в выдаче

(Также я на другом своем проекте проверяю домены на показатели (индексация, тИЦ и прочее). При проверке индекса через XML очень часто Яндекс цифры меняет, это я давно заметил. Расхождение может достигать сотни страниц (плюс-минус), иногда в индексе якобы 0.)

Теперь выводы:

Большинство расхождений — плюс-минус 1 позиция.
Чуть меньше — плюс-минус 5 позиций
Совсем мало — другие сайты на позициях.

И в цифрах:

Совпадает позиций — 75%
Не совпадает — 25%

Буду рад указаниям на возможные ошибки и, особенно, сравнению с результатами аналогичных экспериментов.

Рандомная выборка с подсвеченными данными: yadi.sk/i/i4imHJ8qmvgTd
Все результаты в csv: yadi.sk/d/X5SYWxl7mvgUe
Дамп базы: yadi.sk/d/O5viMlrRmvgKD

Цифры в результатах — это частотность запросов по вордстату (общая и точная), они особо роли не играют, но просто есть

Tags:

Hubs: