Пользователь
0,0
рейтинг
23 января 2014 в 18:16

Разработка → Как работают «нессылочные» факторы ранжирования Яндекса — попытка анализа из песочницы

Дополнение от 23.01.14. Эта статья была написана 30-го декабря минувшего года. Выдача с тех пор изменилась, однако по большому счету приведенная информация актуальна. За прошедшее время появились еще кое-какие данные, однако их, с одной стороны, слишком много для того, чтобы расширить эту статью — и слишком мало для новой с другой. Если пост вызовет интерес сообщества, вполне вероятно, что после накопления информации будет продолжение, связанное с характерными особенностями не упомянутых тут факторов.

Введение

Предупреждение. Нижеследующее не следует воспринимать как точную информацию — это только догадка, подтвержденная эмпирически.
Предупреждение 2. Возможно, эта информация — новость только в моем «болоте», но поиск по сети не дал результатов, сколько-нибудь похожих на эти выводы.

Все, более-менее имеющие отношение к интернету, знают, какой хай поднялся, когда Яндекс заявил, что отказывается от ссылочного в НГ.

С одной стороны, жить станет легче — без поискового мусора мир будет немного чище, с другой — непонятно, как это реализуют и по кому это ударит (ну, кроме копирайтеров-оптимизаторов и прочей братии, конечно, но и фиг бы с ними).

Поскольку я занимаюсь, помимо прочего, и рекламой в Сети, я начал с напряжением поглядывать на позиции сайтов моих клиентов, а заодно и конкурентов. Результаты выдачи к праздникам становились все страньше и страньше. Очевидно, нессылочные факторы потихоньку усиливались — и потому выдача по некоторым запросам стала довольно необычной.

Я попытался понять логику алгоритма и, похоже, это частично удалось. Хотя, если мои предположения верны, многих, зависящих от продаж через сеть, прямо скажем, ждут тяжелые времена.

Да и пользователям будет не легче.

Тем, кто торопится: краткое резюме есть в конце статьи.

Остальным же предлагаю полностью проследить ход мысли и поправить ошибки, которые я, возможно, допустил.

Постановка задачи

Меня заинтересовал запрос «ремонт остекления», с которым связаны услуги некоторых фирм, с которыми я сотрудничаю.

Результаты по нему через анонимный заход такие:



Надо сказать, данные вызвали удивление. Поясняю. Обратите внимание на характер сайтов в выдаче. На первые 12 мест приходится 9 штук лоджий-балконов. При «старом режиме» за данный запрос как правило дрались крупные компании, занимающиеся корпоративными заказами типа ремонта остекления фасада здания. Так уж сложилось, что запрос этот был релевантен именно для b2b, и основная процентовка пользователей, судя по практике, была именно из этой области. Для частников этот запрос был не слишком характерен. Они обычно формулировали свой запрос более четко — ведь у них был конкретный балкон, а не «остекление»

Статистика запросов в директе такова (тут от анонимности пришлось отказаться — нужен логин):



Как вы можете видеть, у большинства фигурирует просто «остекление» как объект. Впрочем, когда я вглядывался в результаты, меня посетила…

Догадка

Обратите внимание: слово «остекление» может восприниматься в русском языке двояко. С одной стороны, это слово может обозначать объект. «Остекление» на профессиональном жаргоне строителей — это остекление всего здания в совокупности. С другой стороны, словосочетание «ремонт остекления» может восприниматься как незавершенная фраза.

А ведь задача поисковика — найти то, что хочет пользователь! Большинство уточнивших запрос захотело именно балконы/лоджии. Может, именно поэтому эта тематика вылезла наверх? Возможно ли, чтобы при поиске происходило «скрытое» уточнение запроса аналогичное строке подсказки популярных запросов?

То бишь, возможен ли такой механизм: яндекс достраивает запрос «в уме» и исходя из ожиданий строит выдачу?

Следовало проверить. Для этого мне понадобился такой же «неоконченный» запрос.

Проверка

Пусть это будет «купить шампанское». Директ сообщил следующее:



Обратите внимание — запросы от конечных потребителей задают тон — разбитые по маркам, однако желающие одного и того же. Но значительная часть (хотя и не большинство!) пользователей интересуется оптом.

Что у нас в поиске? А вот что:



4 и 12 места взял опт, несмотря на то, что большинству пользователей, судя по запросам, он малоинтересен, однако число уточняющих запросов велико.

Бинго?..

Облом

Однако тут же нашелся контраргумент: запрос «ремонт механизма».

Директ:



Выдача:



Отношение диванов к авто в первой дюжине выдаче: пять к пяти.

Если подсчитать ту мебельную тематику в директе, что не влезла в скриншот, диванов будет, конечно, побольше, это останется второй по популярности тематикой, однако на соотношение один к одному это все равно не тянет!

Почему?

Уточнение гипотезы

Предположения следующие:

1) Начинают работать те факторы «юзабилити», ПФ и прочие, о которых так долго говорили большевики, то есть Яндекс. Ярко выраженная направленность на работу через сеть «мебельных» сайтов бросается в глаза. Точно так же в запросе «ядовитая железа» в Яндексе лидирует энциклопедия по WoW, а вовсе не справочники по биологии!

2) Неоднородность «автомобильных» и «технических» запросов относительно мебельных. Там все хотят диван, а тут то камаз, то руль, то передача.

3) Предположение, возможно, слишком наглое, но существует и такая вероятность, причем большая: страницы, отвечающие на «автомобильные» запросы — не обязательно коммерческие. Более того, зачастую это информационные материалы — случается, правда, что размещены они на сайтах коммерческих, но выдающих себя за информационные. В то же время выдача по мебели носит ярко выраженный коммерческий характер. Случайность? Возможно, что это действует «юзабилити» (что это значит с точки зрения Яндекса — загадка), которое у коммерческих сайтов повыше, чем у информационных. Но возможно, что и нет. Я не смог составить точного мнения по этому вопросу — пока набрана слишком малая статистика.

Дальнейшие проверки различных запросов более-менее привели теорию к единому виду. Итак…

Выводы:

1) Топ выдачи Яндекса формируется с учетом того, что искали вместе с этими словами (запросом, то бишь) ранее. Позиции и количество представленных тематик в топе выдачи коррелируют с данной характеристикой, хотя точную зависимость установить невозможно — работают и иные факторы.

2) Одним из этих факторов, возможно (?), является коммерческая/информационная направленность сайта — возможно, в пользу первой, однако информации для однозначного вывода пока недостаточно.

3) Популярность тематики кроет логику — по запросу «ядовитая железа» энциклопедия по вовке выше словарей и энциклопедий IRL-ых. Кроме того, популярность тематики важнее популярности запроса — «ядовитая железа смертеплета» запрос непопулярный, судя по директу.

4) У вышеперечисленного есть как плюсы, так и минусы с точки зрения ищущего и владельца сайта. Минусов ИМХО больше.

Плюсы:

С точки зрения владельца:
Часть аудитории, проходившая мимо из-за неточного запроса, придет к нему.

С точки зрения пользователя:
Неполный или неоднозначный запрос имеет неплохой шанс дать нужную инфу

Минусы:

С точки зрения пользователя:
При неоднозначном запросе, как, например «ремонт остекления», где «остекление» может рассматриваться и как отдельное слово и начало словосочетания, он имеет шансы получить инфу, интересную не ему, а большинству, причем весьма условному большинству, рассчитанному неверно, на основе уточняющих запросов тех, для кого это начало выражения (а настоящему большинству и уточнять в голову не придет, для них это законченная фраза!).

Для владельца сайта:
Если речь в описанном выше случае идет о низкочастотниках, за счет которых компания только и живет (как многие в сфере b2b), это может очень серьезно ударить по потоку клиентов из Инета. Получается двойная конкуренция — как с сайтами релевантной тематики, так и нерелевантной, притом на заведомо неравных условиях: войти в тройку или семерку — большая разница. При «старом режиме» этот риск компенсировался ссылочным (работало правильное словоупотребление на ссылающихся сайтах), но в его отсутствии получается настоящее вавилонское смешение, с очень малыми шансами добраться до своих пользователей.

Заключение

Убьет ли это Яндекс? Нет. Сделает ли его лучше? Тоже нет.

Я надеюсь, что изложенные в этой попытке исследования нессылочных факторов ранжирования Яндекса сведения были если и не полезны, то увлекательны (наивно, да?).
@Los_Pochtovyi
карма
0,0
рейтинг 0,0
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Спецпроект

Самое читаемое Разработка

Комментарии (26)

  • +1
    Точно так же в запросе «ядовитая железа» в Яндексе лидирует энциклопедия по WoW, а вовсе не справочники по биологии!
    Что Вас навело на мысль использовать такой запрос в качестве примера?
    Из 30 результатов в яндексе… первый (он же единственный из этих 30) действительно относится к wow, но запрос-то некоммерческий, а wow-стов скорее всего больше чем биологов. Что подтверждается тем, что в гугле ситуация аналогичная, на первом месте wow, и только потом биология.
    • 0
      От балды забил, честно говоря.

      wow-стов скорее всего больше чем биологов.

      Именно это, похоже, и влияет. Судя по директу (по крайней мере, тогда), запросы по вов с этими словами не настолько часты, как «неопределенные». То бишь популярность тематики серьезно бьет по всем остальным факторам.
  • +1
    Вы же сами пишете, что искали анонимно. ЕМНИП, осенью Яндекс хвастался, что научился с высокой достоверностью определять интересы каждого пользователя. Правда, народ тогда вывел, что означенная достоверность не превышает 40%, но я все равно склонен интерпретировать ваши наблюдения как подтверждение того, что авторы поисковика всё больше уповают на свои методы определения персонального контекста посетителя. Именно поэтому анонимная выдача идет с открытым контекстом.
    • 0
      Возможно, конечно…

      Хотя, в принципе, моя выдача без анонимности не слишком отличается — ну, что-то меняется позициями, но общая корреляция «поиски со словом/тематики в выдаче» — примерно та же. Притом, по идее, в «остеклении» она у меня должна быть испорчена интересами (по лоджиям я особо не хожу, а вот фасадным остеклением интересуюсь), но по выдаче это как-то незаметно.

      С другой стороны, опыт одного меня тут не показателен.
  • 0
    Мне кажется, поисковики могли бы учитывать тот факт, что если человек нашёл то, что ему нужно, то он больше не кликает другие ссылки, тогда этот элемент можно ранжировать повыше. Тогда ссылки которые быстро открываются и сразу закрываются — можно будет выкидывать из поиска вниз.
    • 0
      Кажется, кто-то такое пробовал. Сейчас не вспомню, может, даже и Яндекс.

      ИМХО очень неоднозначное решение. Скажем, для заказа пиццы такой алгоритм неплох. Но… Например, в строительстве клиент обычно открывает первые десять-пятнадцать страниц подряд, смотрит ровно одну страницу на каждом сайте, обзванивает всех понравившихся, рассылает чертежи и ждет самого выгодного предложения.

      Соответственно, во втором случае последний просмотренный сайт ничего не значит — клиент, возможно, даже туда не позвонил.
    • 0
      Множество раз натыкался на утверждение, что Яндекс так и делает. Поведенческие факторы. Люди возвращаются в поисковую выдачу? Понижаем сайт в выдаче на запрос. Не возвращаются? Ставим ему плюс. Забейте в поиск «поведенческие факторы ранжирования»
      • 0
        Точно! Яндекс, ПФ. Правда, сколько «весит» этот фактор у них — большой вопрос.
  • +1
    У меня есть гипотеза о невозможности построения простых гипотез в отношении поисковой выдачи :)
    Выдача последнее время несистематична. То есть она конечно систематична, но на таком уровне сложности, что делать предположения о выдаче стало невозможно. Она подстраивается под поведение пользователей, которое зависит от неизвестных нам факторов. И подстраивается настолько, что становится настолько же сложной и даже сложнее, потому что собирает и накапливает статистику. И выдача на два рядом стоящих почти одинаковых запроса может отличаться совершенно непонятным и неожиданным образом.
    Как следствие перестали работать режект-слова в поисковом запросе. Как не добавляй, характер выдачи этим не меняется.
    И плюс еще вы делаете предположения об алгоритмах выдачи в тот момент, когда она меняется. Даже если бы и были закономерности, в переходной период они не действуют.
    • 0
      Простых, конечно, нет=) Но определенные закономерности проследить возможно. Немножко поэкспериментировал — есть система (я сейчас не о том, что в посте, а о том, о чем еще рано говорить). Которой, правда, как пользоваться — неясно.

      Насчет поведения пользователей, кстати — большой вопрос. Я пока на своих сайтах четкой зависимости от ПФ не вижу. Зато возраст сайта, например, влияет — это да, это видно.

      Что же до постоянных изменений в переходный период… Изменения эти, как мне представляется, растут из одного корня, следуют друг из друга. То есть абсолютно новых факторов, скорей всего, не вводится — модифицируются старые.
  • 0
    Плюсы:

    С точки зрения владельца:
    Часть аудитории, проходившая мимо из-за неточного запроса, придет к нему.

    Неоднозначно. Но если нет ссылок, то, скорее всего, присутствует долей анализ поведенческих факторов. А если из-за неточных нецелевых запросов будут закходить на сайт владельца, то доля отказов увеличиться. Что скорее всего отрицательно повлияет на общее ранжирование в серпе.
    С точки зрения пользователя:
    Неполный или неоднозначный запрос имеет неплохой шанс дать нужную инфу

    … в противном случае мухи с котлетами в выдаче будут раздражать пользователей и занимать ценное место в выдаче.

    Тут (вспомнив содержания Букваря из детства) забил в Яшу запрос «лук». Итого по местам:
    1. Wiki лук репчатый
    2. продажа луков
    3. продажа луков
    4. лук репчатый
    5. лук репчатый
    6. лук репчатый
    7. продажа луков
    8. лук репчатый
    9. лук как сделать самому
    10. Wiki лук (оружие)

    Итого: 2 wiki, 3 продажных, 5 инфа.

    Удивило две строки выдачи с разных страниц с Википедии. Типа «Яндекс не понял, что ты имела ввиду» :-)

    Получается из 10 позиций выдачи всего 2 коммерческих строки.

    Интересно, что при запросе «купить лук» выдаются все! строки с продажей оружия и его муляжей. Репчатого нет и в помине там. Додумка Яндекса, что я именно хочу купить лук-оружие. И без вариантов :-)

  • 0
    Думаю вы частично правы. Но тут мир машинного обучения. Если предположить, что ранжираванием занимается подобие матрикснета, то вы готовы угадать еще пару тысяч фич?

    Каке я вижу тонкие моменты.

    1) возможно результат уточняется исходя из классификации на точные и не точные запросы
    2) Яндекс знает все о вас, интересы, пол, доход, и пр. И это учитывая то, что явно вы ничего не рассказываете. Те достаточно вашей куки, ак не обязаелен.
    • 0
      Ну, во-первых, это интересно. Кстати, слышал, что фич не пара тысяч, а всего восемьсот=)

      Во-вторых, с точки зрения полезности достаточно угадать несколько критичных фич (например, если догадка в статье верная, следует подбирать вординг на сайте под «точные» запросы, а не под расплывчатые вроде «ремонта остекления»)

      Насчет тонких моментов согласен с одной оговоркой — надо давать скидку на тупость системы и недостаток данных. Например, с одной машины из-под одного юзера заходят в сеть несколько человек — так бывает, и нередко (не говоря уже о том, что, скажем, по работе и по жизни человек может интересоваться совсем разными вещами или искать информацию для кого-то). Уже у Яндекса картинка смазанная. А если добавить неизбежные ошибки алгоритмов — получается, что портрет у него не мой или ваш, а непонятно чей.
      • 0
        Насчет количества фич, вероятно вы правы +) мы можем только угадывать

        Интересно то интересно, но как я понимаю, в матрикснете нету пятити шести определяющих фич, как в других алгоритмах, точнее они есть но их больше, и неисключенной что фичи из сырых данных выбираются автоматический, и день ото дня немного меняются.

        Есть предположение, что если домашние и рабочие интересы не пересекаются, то и запросы по ним не пересекаются. Поэтому это не сильно влияет на поисковую выдачу.

        А выход с одного компьютера нескольких людей в сеть… Тут две мысли
        1) Сейчас у каждого пятиклассника свой компьютер =) Те возможно шум не сильный
        2) Возможно рассмотрен случай семейного компьютера?
        • 0
          Насколько я понимаю, постоянное изменение фич происходит. Однако есть подозрение, что автоматические «колебания» параметров происходят в заранее заданных пределах. И общий алгоритм создает не матрикснет, а люди.

          То есть, образно говоря — есть уравнение. Его написали сотрудники Яши. Множители отдельных переменных изменяются в зависимости от матрикснета в заданных диапазонах.

          Почему мне так кажется?

          1) Если бы не было «рамок», выдача бы менялась куда более значительно, а в известных мне выдачах в первой тридцатке годами ротируются одни и те же сайты;

          2) Эти рамки жестко заданы и не слишком широки, так как можно было наблюдать следующее: наравне с seo-монстрами и «авторитетными» источниками в первых десятках по среднечастотникам тоже годами болтались сайты без «имени» и с 30-40 ссылками на них. А это было во времена, когда ссылки значили всё. Следовательно, если исключить вероятность подкупа, они держались за счет нессылочных факторов, которые оставались сильны на протяжении долгого периода времени (несмотря на изменение их веса «автоматом»).

          Примерно так.

          Ну, домашние и рабочие интересы могут пересечься у многих. Самое простое — я вот сейчас сотрудничаю с магазином женской одежды. Посему вынужден торчать на соответствующих ресурсах етс. В результате и Яндекс, и Гугл, похоже решили, что я барышня, судя по выдаче. Или вообще не пойми кто;)

          А с компами… Ну, довольно часто дома сталкиваюсь с ситуацией, когда быстрее посмотреть что-то на включенном компе в той же комнате, чем идти и включать свой. Впрочем, такой случай действительно может быть рассмотрен. Вопрос только, насколько правильно это считается.
          • 0
            1) Матрикснет работает каждый день.
            2) Для каждой тематики свои «законы» ранжирования.

            Эта информация в открытых источниках в блогах Яндекса.

  • +1
    Причем здесь отмена ссылочного? То, что вы описали и обсуждаете похоже на технологию «Спектр», которую Яндекс запустил в 2012 году http://company.yandex.ru/technologies/spectrum/index.xml
    • 0
      О как оно выходит! Значит, не нашел, когда проверял результаты. Спасибо за инфу. Видимо, «Спектру» подняли вес.

      А относится это к отмене ссылочного так: до сего момента приколы этого «Спектра» нивелировались реальным человеческим словоупотреблением в ссылках, которое подтягивало выдачу к реальному состоянию дел. Сейчас, когда ссылочное, если верить некоторым, потихоньку ослабляется, а все остальное усиливается, мы со «Спектром» остаемся один на один. Что не есть здорово по указанным в статье причинам.
  • 0
    Включить режим занудства.

    Не понимаю, почему заголовок звучит громко «Как работают «нессылочные» факторы ранжирования Яндекса», а по факту в статье всего гипотеза об одном факторе. Тем более совершенно не факт, что именно он и является этим «нессылочным» фактором.

    Но за гипотезу спасибо.
  • 0
    Правильно ли я понял: выдача по незавершенным высокочастотникам в яндекс теперь подправляется за счёт популярных низкочистотников?
    • 0
      Ага, судя по всему.
  • +1
    Спасибо за исследование. Но мне кажется, стоит искать часть разгадки в таком параметре, как глубина просмотра/время на сайте, которое доступно ПС для большинства сайтов через Я.Метрику.
    Как проверить? Скорее всего стоит посмотреть статистику по разным сайтам за, например Ноябрь и сравнить ее с Январем: количество переходов* (можно проверять позиции по вебмастеру, но мне кажется, количество переходов даст более адекватную картину) по запросу с той же глубиной просмотров/временем на сайте.
    Примечания:
    * стоит смотреть несезонные запросы, иначе получим кашу.
  • 0
    Когда-то наблюдали интересную ситуацию в Яндексе по запросу «немецкие полки». Спустя почти 2 года, просмотрев выдачу можно обнаружить, что по-прежнему 8 из 10 результатов в топ-10 — это страницы с военной тематикой, и только лишь 2 результата — коммерческие (интернет-магазины мебели). Хотя в выдаче яндекс-картинок показана преимущественно мебель. Так что по неоднозначным запросам Яндекс всегда подмешивал результаты, пытаясь понять, что именно хочет получить пользователь.
    • 0
      Я вообще не понимаю всех эти «подмешивает». Что значит подмешивает? Есть такой принцип в формировании выдачи, это разнообразие выдачи. Выдача не должна быть все элементы в одном кластере, обязательно нужно в выдачу поместить элементы из нескольких кластеров. Даже если запрос однозначен, выдача должна быть неоднородна в пределах страницы или хотя бы двух-трех. Это общий базовый принип всех поисков, это не «подмешивает». Зачем это нужно? Потому что угадать что же ищет пользователь в общем случае нельзя. И создавая неоднородную в разрезе кластеров выдачу мы повышаем вероятность для пользователя в выдаче найти что-то близкое к тому, что он искал. Может быть вы этот механизм пытаетесь увидеть в выдаче?
      • 0
        Согласен с вашим комментарием. Так как нет такого понятия как «релевантный поиск» точнее это понятие, относительное, и зависит от ситуации и многих других факторов, и то что релевантно для одних людей, не будет релевантным для других. Поисковики конечно пытаются совершенствовать алгоритмы ранжирования, но для «анонимных» запросов ранжирование будет по принципу «то что ищет большинство», либо персонализированная выдача когда имеются данные по вашим интересам, предыдущая история запросов и тд.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.