company_banner

Как Яндекс научил искусственный интеллект понимать смысл документов

    Сегодня мы расскажем о новой поисковой технологии «Королёв», которая включает в себя не только более глубокое применение нейронных сетей для поиска по смыслу, а не по словам, но и значительные изменения в архитектуре самого индекса.



    Но зачем вообще понадобились технологии из области искусственного интеллекта, если еще лет двадцать назад мы прекрасно находили в поиске искомое? Чем «Королёв» отличается от прошлогоднего алгоритма «Палех», где также использовались нейронные сети? И как архитектура индекса влияет на качество ранжирования? Специально для читателей Хабра мы ответим на все эти вопросы. И начнем с самого начала.

    От частоты слов до нейронных сетей

    Интернет на заре своего существования сильно отличался от своего текущего состояния. И дело было не только в количестве пользователей и вебмастеров. Прежде всего, сайтов по каждой отдельной теме было так мало, что первым поисковым сервисам было достаточно вывести список всех страниц, содержащих искомое слово. А даже если сайтов и было много, то достаточно было посчитать количество употреблений слова в тексте, а не заниматься сложным ранжированием. Никакого бизнеса в интернете еще не было, поэтому накруткой никто не занимался.

    Со временем сайтов, как и желающих манипулировать выдачей, стало заметно больше. И поисковые компании столкнулись с необходимостью не только искать страницы, но и выбирать среди них наиболее релевантные запросу пользователя. Технологии на рубеже веков еще не позволяли «понимать» тексты страниц и сравнивать их с интересами пользователей, поэтому сначала было найдено более простое решение. Поиск начал учитывать ссылки между сайтами. Чем больше ссылок, тем авторитетнее ресурс. А когда и их перестало хватать, то начал учитывать поведение людей. И именно пользователи Поиска теперь во многом определяют его качество.

    В какой-то момент всех этих факторов накопилось настолько много, что человек перестал справляться с написанием формул ранжирования. Конечно, мы все еще могли взять лучших разработчиков, и они написали бы более-менее работающий поисковый алгоритм, но машина справлялась лучше. Поэтому в 2009 году Яндекс внедряет собственный метод машинного обучения Матрикснет, который и по сей день строит формулу ранжирования с учетом всех доступных факторов. Мы долгое время мечтали добавить к этим фактором тот, который отражал бы релевантность страницы не через косвенные признаки (ссылки, поведение, ...), а «понимая» ее контент. И с помощью нейронных сетей нам это удалось.

    В самом начале мы говорили о факторе, который учитывает частоту слов в тексте документа. Это крайне примитивный способ определения соответствия страницы запросу. Современные вычислительные мощности позволяют использовать для этого нейронные сети, которые справляются с анализом естественной информации (текст, звук, изображения) лучше, чем любой другой метод машинного обучения. Проще говоря, именно нейросети позволяют машине перейти от поиска по словам к поиску по смыслу. И именно это мы и начали делать в алгоритме «Палех» в прошлом году.

    Запрос + Заголовок

    Более подробно о «Палехе» написано здесь, но в этом посте мы еще раз кратко напомним об этом подходе, потому что именно «Палех» лежит в основе «Королёва».

    У нас есть запрос человека и заголовок страницы, которая претендует на попадание в топ выдачи. Нужно понять, насколько они соответствуют друг другу по смыслу. Для этого мы представляем текст запроса и текст заголовка в виде таких векторов, скалярное произведение которых было бы тем больше, чем релевантнее запросу документ с данным заголовком. Иначе говоря, мы с помощью накопленной поисковой статистики обучаем нейронную сеть таким образом, чтобы для близких по смыслу текстов она генерировала похожие вектора, а для семантически несвязанных запросов и заголовков вектора должны различаться.

    image

    Как только человек вводит запрос в Яндексе, наши сервера в режиме реального времени преобразуют тексты в вектора и сравнивают их. Результаты этого сравнения используются поисковой машиной в качестве одного из факторов. Представляя текст запроса и текст заголовка страницы в виде семантических векторов, модель «Палеха» позволяет уловить достаточно сложные смысловые связи, которые иначе выявить трудно, что в свою очередь сказывается на качестве поиска.

    «Палех» хорош, но у него был большой нереализованный потенциал. Но чтобы понять его, нам для начала нужно вспомнить о том, как именно устроен процесс ранжирования.

    Стадии ранжирования

    Поиск невероятно сложная штука: необходимо за доли секунды найти среди миллионов страниц наиболее релевантные запросу. Поэтому ранжирование в современных поисковых системах обычно осуществляется с помощью целого каскада ранкеров. Иными словами, поисковик использует нескольких стадий, на каждой из которых документы сортируются, после чего нижние документы отбрасываются, а верхушка, состоящая из лучших документов, передается на следующую стадию. На каждой последующей стадии применяются всё более тяжелые алгоритмы ранжирования. Это делается в первую очередь для экономии ресурсов поискового кластера: вычислительно тяжелые факторы и формулы вычисляются только для относительно небольшого количества лучших документов.



    «Палех» – относительно тяжелый алгоритм. Нам нужно перемножить несколько матриц, чтобы получить вектора запроса и документа, а затем еще и их перемножить. Умножение матриц тратит драгоценное процессорное время, и мы не можем позволить себе выполнять эту операцию для слишком большого числа документов. Поэтому в «Палехе» мы применяли наши нейронные модели только на самых поздних стадиях ранжирования (L3) – приблизительно к 150 лучшим документам. С одной стороны, это неплохо. В большинстве случаев все документы, которые нужно показать в десятке, находятся где-то среди этих 150 документов, и нужно лишь правильно их отсортировать. С другой стороны, иногда хорошие документы все же теряются на ранних стадиях ранжирования и не попадают в топ. Это особенно характерно для сложных и низкочастотных запросов. Поэтому было очень заманчиво научиться использовать мощь нейросетевых моделей для ранжирования как можно большего числа документов. Но как это сделать?

    Королёв: вычисления в обмен на память

    Если нельзя сделать сложный алгоритм простым, то можно хотя бы перераспределить потребление ресурсов. И в данном случае мы можем выгодно обменять процессорное время на память. Вместо того, чтобы брать заголовок документа и во время исполнения запроса вычислять его семантический вектор, можно предвычислить этот вектор и сохранить его в поисковой базе. Другими словами, мы можем проделать существенную часть работы заранее, а именно — перемножить матрицы для документа и сохранить результат. Тогда во время выполнения запроса нам будет нужно только достать вектор документа из поискового индекса и выполнить скалярное умножение с вектором запроса. Это существенно быстрее, чем вычислять вектор динамически. Разумеется, при этом нам потребуется место для хранения предвычисленных векторов.



    Подход на основе предвычисленных векторов позволил радикально увеличить глубину топа (L3, L2, L1), к которому применяются нейронные модели. Новые модели «Королёва» вычисляются на фантастическую глубину в 200 тыс. документов на запрос. Это позволило получить крайне полезный сигнал на ранних стадиях ранжирования.

    Но и это еще не все. Успешный опыт предварительного вычисления векторов и их хранения в памяти расчистил перед нам дорогу к новой модели, о которой раньше мы могли только мечтать.

    Королёв: запрос + документ

    В «Палехе» на вход модели подавался только заголовок страницы. Обычно заголовок является важной частью документа, кратко описывающей его содержание. Тем не менее в теле страницы также содержится информация, которая чрезвычайно полезна для эффективного определения семантического соответствия документа запросу. Так почему же мы изначально ограничили себя заголовком? Дело в том, что на практике реализация полнотекстовых моделей сопряжена с рядом технических трудностей.

    Во-первых, это дорого по памяти. Для применения нейронной модели к тексту во время выполнения запроса необходимо иметь этот текст «под рукой», то есть в оперативной памяти. И если положить в оперативку короткие тексты вроде заголовков было вполне реально на имеющихся в нашем распоряжении мощностях, то сделать это с полными текстами документов уже не получится.

    Во-вторых, это дорого по CPU. Начальный этап расчета модели состоит в проецировании документа в первый скрытый слой нейронной модели. Для этого нам нужно сделать один проход по тексту. Фактически на данном этапе мы должны выполнить n*m умножений, где n – количество слов в документе, а m – размер первого слоя модели. Таким образом, количество процессорного времени, необходимого для применения модели, линейно зависит от длины текста. Это не проблема, когда речь идет о коротких заголовках. Но средняя длина тела документа существенно больше.

    Всё это звучит так, будто внедрить модель с использованием полных текстов нельзя без радикального увеличения размера поискового кластера. Но мы обошлись без этого.

    Ключом к решению проблемы стали те же самые предвычисленные вектора, которые мы уже испытали для модели на заголовках. На самом деле нам не нужен полный текст документа – достаточно хранить лишь относительно небольшой массив чисел с плавающей точкой. Мы можем взять полный текст документа на этапе его индексации, применить к нему череду операций, заключающихся в последовательном умножении нескольких матриц, и получить в результате веса в последнем внутреннем слое нашей нейронной модели. Причем размер слоя фиксирован и не зависит от размера документа. Более того, подобное перераспределение нагрузок с процессоров на память позволил нам по-новому взглянуть на архитектуру нейронной сети.

    Королёв: архитектура слоев

    В старых моделях «Палеха» имелось 3 скрытых слоя размером на 150, 300 и 300 нейронов. Такая архитектура была обусловлена необходимостью экономии вычислительных ресурсов: перемножать большие матрицы во время выполнения запроса дорого. Кроме того, для хранения самой модели также требуется оперативная память. Особенно сильно размер модели зависит от размера первого скрытого слоя, поэтому в «Палехе» он был относительно небольшим — 150 нейронов. Уменьшение первого скрытого слоя позволяет существенно уменьшать размер модели, но при этом снижает её выразительную способность.

    В новых же моделях «Королёва» узким местом является лишь размер последнего скрытого слоя. При использовании предвычисленных векторов ресурсы тратятся только на хранение последнего слоя в индексе и на его скалярное умножение на вектор запроса. Таким образом, разумным шагом было бы придать новым моделям более «клиновидную» форму, когда первые скрытые слои увеличиваются, а последний слой наоборот уменьшается. Эксперименты показали, что можно получить хороший выигрыш по качеству, если сделать размеры скрытых слоев равными 500, 500 и 40 нейронам. В результате увеличения первых внутренних слоев выразительная сила модели заметно возросла, тогда как последний слой можно уменьшать до пары десятков нейронов почти без просадки качества.

    Тем не менее, несмотря на всю нашу оптимизацию, столь глубокое применение нейронных сетей в поиске требует значительных вычислительных мощностей. И кто знает, сколько бы еще потребовалось времени на внедрение, если бы не другой проект, который позволил высвободить ресурсы для их применения, хотя решали мы с его помощью совсем другую проблему.

    Королёв: дополнительный индекс

    Когда мы получаем пользовательский запрос, то среди миллионов страниц индекса начинаем поэтапно выбирать лучшие страницы. Начинается все со стадии L0, которая фактически является фильтрующей. На ней отфильтровывается большая часть нерелеватных документов, а основным ранжированием занимаются уже другие стадии.



    В классической модели поиска мы решаем эту задачу с помощью инвертированных индексов. По каждому слову хранятся все документы, в которых оно встречается, а когда приходит запрос, пытаемся эти документы пересечь. Основная проблема – частотные слова. Слово «Россия», например, может встречаться на каждой десятой странице. В результате мы должны пройти каждый десятый документ, чтобы не потерять ничего нужного. Но с другой стороны нас ждет пользователь, который только что ввел свой запрос и ожидает увидеть ответ в то же мгновение, поэтому фильтрующий этап жестко ограничен по времени. Мы не могли себе позволить обойти все документы для частотных слов и использовали разные эвристики: сортировали документы по некоторому значению индифферентной запросу релевантности или прекращали поиск, когда нам казалось, что нашлось достаточное количество хороших документов. В целом такой подход работал хорошо, но иногда терялись полезные документы.

    С новым подходом все иначе. В его основе лежит гипотеза: если к запросу из нескольких слов взять не очень большой список из самых релевантных документов по каждому слову или словосочетанию, то среди них найдутся документы, релевантные одновременно всем словам. На практике это значит вот что. Для всех слов и популярных пар слов формируется дополнительный индекс со списком страниц и их предварительной релевантностью запросу. То есть мы выносим часть работы из этапа L0 на этап индексирования. Что нам это дает?

    Жесткие ограничения вычислений по времени связаны с простым фактом – нельзя заставлять пользователя ждать. Но если эти вычисления можно произвести заранее и в офлайне (т.е. не в момент ввода запроса), то таких ограничений уже нет. Мы можем позволить машине обойти все документы из индекса, и ни одна страница не будет потеряна.

    Полнота поиска – это важно. Но не менее важен тот факт, что ценой потребления оперативной памяти мы значительно разгрузили момент построения выдачи, высвободив вычислительные ресурсы для тяжелых нейросетевых моделей запрос+заголовок и запрос+документ. И не только для них.

    Королёв: запрос + запрос

    Когда мы начинали работать над новым поиском, у нас ещё не было уверенности в том, какое направление окажется наиболее перспективным. Поэтому мы выделили для исследований нейронных моделей две команды. До некоторых пор они работали независимо, развивая свои собственные идеи, и даже до некоторой степени конкурировали между собой. Одна из них работала над подходом с запросом и документом, о котором мы уже рассказали выше. Вторая же команда подошла к проблеме совсем с другой стороны.

    Для любой страницы в интернете можно придумать более одного запроса. Тот же «ВКонтакте» можно искать с помощью запросов [вконтакте], [вконтакте вход] или [вконтакте социальная сеть]. Запросы разные, а смысл, который скрывается за ними, один. И это можно использовать. Коллеги из второй команды придумали сравнивать семантические вектора запроса, который только что ввел пользователь, и другого запроса, для которого мы точно знаем лучший ответ. И если вектора (а значит, смыслы запросов) оказываются достаточно близки, то и результаты поиска должны быть схожи.

    В итоге оказалось, что оба подхода дают хорошие результаты, и наши команды объединили усилия. Это позволило достаточно быстро завершить исследования и внедрить новые модели в поиске Яндекса. К примеру, если сейчас ввести запрос [ленивая кошка из монголии], то именно нейронные сети помогают вытащить в топ информацию о мануле.

    Что дальше?

    «Королёв» – это не одна конкретно взятая модель, а целый комплект технологий более глубокого применения нейронных сетей в поиске Яндекса. Это еще один важный шаг в сторону будущего, в котором Поиск будет ориентироваться на семантическое соответствие запросов и страниц не хуже, чем человек. Или даже лучше.

    Все вышеописанное уже работает, а некоторые другие идеи ждут своего часа. К примеру, мы бы хотели попробовать применить нейросети на стадии поиска L0, чтобы семантические вектора помогали нам находить документы, близкие по смыслу к запросу, но вовсе не содержащие слов запроса. Еще мы хотели добавить персонализацию (представьте себе еще один вектор, который будет соответствовать интересам человека). Но на все это требуется не только время и знания, но и память и вычислительные ресурсы, и здесь без нового дата-центра не обойтись. И у Яндекса такой уже есть. Но это уже другая история, о которой мы обязательно расскажем в ближайшем будущем. Следите за публикациями.
    Метки:
    Яндекс 568,18
    Как мы делаем Яндекс
    Поделиться публикацией
    Комментарии 398
    • –1
      Добавьте в результаты поиска как в гугле отсутствующие слова под строкой.
      • +23
        Почему вы так не любите букву Ё? Ведь алгоритм назван не в честь жены короля, а в честь авиаконструктора. Сложно с первого раза правильно прочитать фразу:
        … именно «Палех» лежит в основе «Королева».
        • +7
          Цитата и правда выглядит странно, но она же расположена далеко не в начале текста, и к этому моменту уже понятно, о чем идет речь. В общем, тут можно развязать длинный и никому не нужный филологический спор, поэтому я просто поставлю везде букву ё :)
          • +16
            В русском языке 33 буквы, а не 32. Буква Ё — такая же буква, как и остальные. Заменять её другой буквой — всё равно что писать «карова», потому что «ну и так понятно».
            • +4
              Правила русского языка допускают замену буквы ё буквой е. http://www.gramota.ru/class/istiny/istiny_7_jo
              • +13

                Потому что было проще добавить правило (=костыль), чем пропечатать эти точки в газетах. Но сейчас такой проблемы уже нет.

                • 0
                  все разговорные языки — это куча костылей, а букву «ё» всё ещё неудобнее набирать, чем «е»
                  • 0

                    Так пора рефакторить :)

                    • +4
                      Вообще не аргумент.
                      Соверш(е|ё)нный, передохн(е|ё)м, узна(е|ё)м, приближ(е|ё)нных, вс(е|ё), н(е|ё)бо, бер(е|ё)т, в(е|ё)сел, гн(е|ё)т, л(е|ё)том, м(е|ё)л, н(е|ё)м, ос(е|ё)л, отс(е|ё)к, по(е|ё)м, сл(е|ё)з, съ(е|ё)м, пад(е|ё)ж
                      Теперь найдём предложения с этими словами и попытаемся быстро из контекста понять о чём речь. Неудобно разбираться в плохо оформленном исходнике!
                      Она плохо выглядит, зато хорошо звучит. ©
                      Она прекрасна!
                      • 0
                        Закон должен быть отменен (отменный, замечательный закон будет :) ).
                      • 0
                        Это потому, что раскладку делали по остаточному принципу абы как, а не по уму
                        • 0
                          Потому что вкорячили русскую на уже существующую латинскую. Сама по себе раскладка не плоха, добавь в ней ещё один столбец с Ё и отдельной запятой.
                        • +2

                          А жители некоторых стран не ленятся печатать диакритические знаки (ê, è, ë, ï, ã). И мы ведь пишем "й", чем "ё" хуже?

                          • 0
                            В румынском основа латинская с 6 диакритическими знаками на основе(s,t,a,i), в переписках спокойно могут использоваться только латинские буквы для упрощения, но статьи и более официальные документы, не использовать их считается моветоном и должны быть приведены в порядок.
                            • 0
                              Более того, хвостики у ц, щ и ъ — тоже, строго говоря, диакритики.
                            • 0
                              Почему неудобно? Всё удобно набирать, проблем ваще ноль
                            • +2
                              а для Й такого правила почему-то не добавили, печатали хвостик сверху в газетах всегда
                              • +3
                                Потому что Й — согласная, а И — гласная.
                            • +3
                              «Ё — моё!»
                              • 0
                                Чем Королёв хуже генералов?
                                • 0
                                  Если досмотреть статью до конца, можно увидеть, что современные правила рекомендуют писать «ё» в именах собственных всегда.
                            • 0
                              Королёв только в молодости был авиаконструктором, оставшуюся жизнь он разрабатывал космические носители.
                              • +2
                                Есть ощущение, что алгоритм назван таки в честь города, а в честь Сергея Павловича только транзитивно.
                                • 0
                                  не думаю, что в Королёве живёт толпа яндексоидов(или топов поискового отдела). Офиса яндекса там тоже нет.
                                  • +3
                                    Палех, Владивосток, Минусинск и еще с десяток городов, названия которых были использованы ранее, тоже высокими концентрациями яндексоидов не отличаются ;)
                                    • +3
                                      Минусинск

                                      Так это город! А я думал, что алгоритм так назван, потому что минусует плохие сайты.
                              • +3
                                Посмотрел, с удовольствием, трансляцию (вернее, большой часть из неё).
                                Спасибо вам огромное за то что вы делаете!)
                                Я понимаю что над системой поиска ещё работать и работать (в том плане что процесс разработки и усовершенствования, по сути, бесконечный), но лет 15 назад даже то что уже есть сейчас казалось просто фантастикой.
                                • +1
                                  Очень часто поиск в Яндексе выдает один и тот же документ размещенный на разных сайтах, в то время как у гугла выдается только один.
                                  • 0
                                    Можете присылать такие примеры. Вместе посмотрим.
                                    • 0
                                      Я Вам прислал именно такой пример.
                                      При этом этот один текст выдается не на сайте, где был опубликован впервые, а на сайтах, которые сделали копи-паст, подчас удалив или изменив ФИО автора.
                                      • +1
                                        Вот еще пример. Немного утомительный, но иллюстративный.
                                        (полные ссылки отправил личным сообщением)

                                        Только что проверил (в очередной раз).
                                        В запросе два ключевых слова по теме статьи, написанной в 1998г.

                                        Первопубликация, оригинал — w.....article4.htm дата создания — ранее 23.04.1999г
                                        Доказательства: От 14.02.2001г web.archive.org/.....article4.htm
                                        От 23.04.1999г web.archive.org/....article4.htm
                                        Т.е. по идее именно эта страница должна быть на первой позиции.

                                        Но вместо нее на первой же позиции выдачи — копия — w.b..........01
                                        Восьмая позиция еще один копипаст w.m..........54.htm

                                        Вторая страница
                                        седьмая ссылка — копипаст //lo..............ko.html
                                        восьмая — копипаст //mi..................ko
                                        девятая — копипаст //www.m................54.htm (причем повтор с первой страницы выдачи. Т.е. на второй странице выдачи та же ссылка, что и на первой странице)
                                        десятая — копипаст //www.b............01 (аналогично — повтор ссылки с первой страницы)

                                        Четвертая страница
                                        четвертая ссылка — копипаст//e..................5
                                        пятая страница — копипаст //d............1
                                        девятая — копипаст //k..........80.html
                                        десятая — копипаст //m.........9.html

                                        Пятая страница
                                        первая позиция — копипаст //s.................2.html
                                        вторая — копипаст //l.............9.html
                                        шестая — копипаст //y...........5.htm
                                        седьмая — копипаст //d...........93
                                        восьмая — копипаст //www.m...........73

                                        Шестая страница
                                        вторая позиция — копипаст //www.p..........C.pdf
                                        третья — копипаст //b........z.html
                                        пятая — копипаст //www.s...........76.0
                                        шестая — копипаст //k...................73.html
                                        седьмая — копипаст //www.k...............161

                                        Седьмая страница
                                        четвертая позиция — копипаст //e............................oz

                                        И так далее…

                                        А где же оригинал, первоисточник, первопубликация, не менявшая адрес с 1998г?
                                        А его нет.
                                        Просто нет.
                                        Во всяком случае на 30 страницах выдачи. Т.е. среди 300 ссылок выдачи копипасты статьи более 30-ти раз, а оригинала нет.

                                        Я, конечно, пишу хорошие статьи. Плохие не воруют.
                                        Но если это поиск, то…
                                        • 0
                                          Т.е. 10% выдачи первых 30-ти страниц — копипасты одного моего текста.
                                          Если это качество, если это «мы стараемся не ранжировать высоко сайты с вторичным контентом» (Яндекс), если это «найдется все», то…
                                          А ведь как просто — выдать один раз первоисточник. А далее что-то еще, другое.
                                          Вот тогда будет конкуренция качественных текстов, а не конкуренция оптимизаторов.
                                          Тогда вебмастер на самом деле будет думать как сделать «сайт для людей», а не о том, как перехитрить робота.
                                          • 0
                                            Это на самом деле очень сложно сделать (чтобы работало всегда)
                                            • 0
                                              В смысле? Сложно удалить из выдачи копии, оставив только источник? Сложно расставить копии под источником, согласно дате создания?
                                              Сложно Вам? Сложно мне?
                                              Согласен.
                                              Сложно Яндексу?
                                              Нет.
                                              Этот механизм у Яндекса был и расставлял все корректно в 2009 — 2011 году, например.
                                              Т.е. тут даже придумывать ничего не нужно. У Яндекса есть эта технология.
                                              Но ему лень.
                                              Не лень только врать про понижение сайтов со вторичным контентом, ибо понижает он источники, первопубликации, исходники.
                                              В принципе, таким образом, Яндекс обманывает своих пользователей, подсовывая им в выдаче вместо оригинала — копию.
                                              Это как вместо яблока дать муляж. Выглядит может быть и красивее, но не вкусно.
                                              • 0
                                                Яндекс, я б на вашем месте пригласил человека в офис и обговорил все детали на месте. Вам же лучше будет. :)
                                              • 0
                                                Для Яндекса определить первопубликацию, источник — это вопрос индексации и сравнения двух — трех баз. И сделать это нужно однажды, ибо первопубликация всегда остается таковой — она привязана к дате и сайту.
                                                Более половины, а м.б. 80% первоисточников тогда будут корректно определены.
                                                В некоторых случаях, действительно, это сделать сложнее (наверно). Я не знаю как. Но в Яндексе вроде бы много светлых голов? Или нет?
                                          • 0
                                            Тимур
                                            Пример на «Очень часто поиск в Яндексе выдает один и тот же документ размещенный на разных сайтах» выслан.
                                            А Вашей реакции нет.
                                            • 0
                                              Тимур. Вот Вам дополнение (ссылки смотрите в личном сообщении).

                                              Кроме того, что Яндекс не нашел первоисточник и ввел пользователей в заблуждение, выдав 30 копий, вместо одной первопубликации… Т.е. просто замусорив выдачу.
                                              Яндекс и с поиском ответов не справился.

                                              Только на моем сайте он не нашел по данной теме:

                                              Еще четыре популярные статьи по этой теме
                                              m...............cle56.htm
                                              m...............pia.htm
                                              m..............ikl371.htm
                                              m.................tikl314.htm

                                              четыре текста для специалистов
                                              m................ikl307.htm
                                              m.....................ioz15.htm
                                              m.......................z14.htm
                                              m.................oz16.htm

                                              Расшифровку двух интервью
                                              m.............tv13.htm
                                              m...........tv7.htm

                                              Расшифровки лекции и семинара
                                              m.................le427.htm
                                              m...................gia.htm

                                              Подборку ответов на вопросы по этой теме
                                              m...................tez.htm
                                              m......................a.htm

                                              Т.е. 14 релевантных запросу документа Яндекс на моем сайте не нашел и в выдачу не поставил.
                                              Зато поставил 30 копий моей статьи m...........cle4.htm, забыв показать в выдаче ее как источник (первопубликацию) и вообще исключив источник из выдачи.

                                              Так же в выдаче нет вот этого уважаемого журнала, где так же размещена статья по теме. lv........0932/
                                              Или книги по той же теме books............lse

                                              О каком качестве выдачи можно говорить в этом случае?
                                              Множество документов не найдено.
                                              Источники не найдены.
                                              Выдача замусорена копиями (и не только моего текста).
                                              • –1
                                                Таким образом…
                                                И «Найдется все» и «Зеркало Рунета» — это вранье. Введение потребителя в заблуждение. Яндексу было бы полезно изучить закон о «Защите прав потребителя».
                                                И это не единственный закон, который Яндекс нарушает, показывая копии вместо источника и скрывая информацию (все эти страницы Яндексом проиндексированы, но в выдаче их нет, хотя они точно соответствуют тексту запроса).
                                              • 0
                                                Итак, Тимур.
                                                С тем, что Яндекс вводит в заблуждение пользователей, скрывая информацию мы разобрались.
                                                С тем, что Яндекс — кривое «зеркало Рунета», показывающее копии вместо оригиналов тоже.
                                                Что с этим делать пользователю — понятно. Ну его, такой сервис. Есть другие поисковые системы.
                                                Что делать автору понятно тоже — прекратить писать, потратить время на что-то более полезное. Или вот сюда писать, например… Или Платону… Но Платону — это все равно, что в шредер — в пустоту.
                                                Теперь о том, как Яндекс обманывает вебмастеров.
                                                Есть два сайта. Со сравнимым ТИЦ (сотни, были тысячи), сравнимым (тысячи) количеством страниц с контентом, сравнимым (тысячи в сутки) количеством посетителей.
                                                Оба сайта сделаны для людей, оба на 2012 год имели десятки тысяч посетителей в сутки.
                                                Сайт А — метатеги прописаны верно. Сайт В — криво.
                                                С тегом Н1 то же самое.
                                                На А есть мобильная версия, В не адаптирован.
                                                Ракламы на В больше.
                                                Тег noindex на А расставлен корректно, на В — отсутствует.
                                                Сайт А содержит 99% текстов «первопубликаций», т.е. впервые текст опубликован в Интернете именно на А.
                                                У сайта В с этим похуже. Примерно 30% первопубликаций.
                                                Страницы сайта А загружаются в 10 раз быстрее сайта В.
                                                На сайте А битых ссылок нет (ни внешних, ни внутренних). У сайта В — есть.
                                                У сайта А хорошая карта сайта, у В — плохая.
                                                Сайт А обновляется чаще сайта В.
                                                Сайт А на 5 лет старше сайта В.
                                                По мелочи так же — у сайта А меньше грехов, чем у В.
                                                У А есть он-лайн сервис. У В — нет.
                                                Итого… Сайт А гораздо лучше соответствует всем рекомендациям Яндекса для вебмастеров, чем В.
                                                Сайт В по множеству параметров не соответсвует.
                                                Итого десятки параметров различны. (Здесь намек на танец Платона «алгоритм выдачи учитывает сотню параметров».)
                                                Оба сайта «чисты», не под «фильтрами», по утверждению «Платона» и данным «Вебмастера».
                                                Однако динамика падения посещаемости у обоих сайтов одинаковая. Выпадение страниц из Яндекс выдачи — одинаковое. Математический нонсенс, доказывающий, глюк алгоритма ранжирования и выдачи.
                                                Т.е. Яндекс не учитывает в алгоритме выдачи свои же рекомендации. Т.е. заставляет вебмастеров тратить время впустую. Обманывает их. Заставляет гадать и дергаться, вместо того, чтобы «делать сайты для людей».
                                                А потом пляшет вокруг с бубном «Матрикснета», рассказывая, что у него миллионы данных, а у вебмастера лишь тысячи в лучшем случае.
                                                Но как сказал здесь один комментатор: "… математическое доказательство.
                                                Есть утверждение, «...». Чтобы доказать, что утверждение неверно, достаточно 1 контрпримера!"
                                                Контрпримеров только я уже прислал Вам, Тимур, несколько. Могу еще. Сколько нужно? 10, 100, 1000. У меня 5300 страниц на сайте А. Значит, несколько тысяч я Вам точно могу прислать.
                                                Но как уже сказано выше для того, чтобы понять, что алгоритм работает криво достаточно одного примера. У Вас, Тимур, уже больше одного примера.
                                                Так что в реальности эти пляски имеют цель скрыть ошибки и обман, рассказывая про фильтры для вторичных сайтов и прочее. В действительности же Яндекс, вероятно, внедряет какие-то иные фильтры, которые не имеют отношения к качеству «сайта для людей», а имеют отношения либо к деньгам, либо к благонадежности, либо к личным пристрастиям кого-то из Яндекса.
                                                Иного объяснения нежеланию исправлять многолетнюю ошибку я не вижу.
                                                Хотелось бы услышать от работников Яндекса объяснение — почему не исправлена ошибка, почему копипаст выше оригинала, почему Яндекс обманывает вебмастеров и читателей? В чем его выгода?
                                                Я, правда, пойму, если это разумная стратегия.
                                                Пока же это напоминает стратегию временщиков — «украл, выпил...» — дальше сами знаете, полагаю.
                                                И если я делаю сайты «для людей», то Яндекс делает что-то иное и для чего-то другого.
                                            • +3
                                              Хм
                                              Сравнение выдачи Yandex и Google
                                              image
                                              image

                                              • +1
                                                А у меня так
                                                image
                                                • 0
                                                  Все равно не первая строчка
                                                  • +1
                                                    Поведение пользователей может влиять, если «смотреть онлайн» для них важнее, чем просто информация о фильме.
                                                    • 0
                                                      Я залогинен под своей учеткой и никогда не интересовался у Яндекс просмотром онлайн.
                                                      • 0
                                                        Поведение всех пользователей, их выбор.
                                                        • +1
                                                          Но а как же «нейронная сеть»? При чем тут поведение всех пользователей? Я ищу конкретный фильм не зная названия. Пример из вашей презентации.
                                                          • 0
                                                            Нейронные сети – один из факторов, который помогает найти неочевидные связи. Но поведение пользователей никто не отменял. Ведь нейронные сети на чем-то обучаются. И это реальная статистика поиска. К тому же для низкочастотных запросов, которые обычно пользуются небольшой популярностью, неожиданный трафик людей, которые и фильм-то на самом деле не ищут, а просто кликнули по ссылке, мог привести к подобному.
                                                            • 0
                                                              А как же более релевантная поисковая выдача, основанная на поисковых запросах конкретного юзера? Гугл это делает (Большой Брат следит и всё такое).
                                                              • 0
                                                                Все это тоже есть.
                                                                • –3
                                                                  персональной выдачи НЕТ, только показ сайтов что раньше посещал. Вот набираю в 2х поисковиках «человек гугла который в твитттере пишет» — шишь, пишу «мюллер» — итог «гестапо». А я у Мюллера читаю всё, в переводе и иногда в оригинале, вхожу открыто и все аккаунты мои про СЕО. ИТОГО: ЯНДЕКС перенял у Мюллера ГУГЛА трепаться без понимания что и как происходит на СВОЕЙ кухне.
                                                            • 0
                                                              Почитайте про алгоритм. Там нейросетка учится на толоконщиках и прочих школьниках… Большой минус кстати, но, зато, bigdata
                                                              • +2
                                                                Толока и профессиональные асессоры – это лишь часть. Добавьте к этому bigdata от миллионов обычных пользователей Поиска.
                                                                • 0
                                                                  а… отлично!!!
                                                                  А то в презентации это не упомянули, что повергло меня в когнитивный диссонанс
                                                                  • 0

                                                                    Как это не упомянули. Про это целый ролик в конце был...

                                                                    • 0
                                                                      Который рекламный? Видимо внутренний фаервол сработал )
                                                  • +1
                                                    не знай почему у вас справа пусто…
                                                    у меня все ОК
                                                    Заголовок спойлера
                                                    image
                                                  • +7
                                                    Это очень здорово, но удивило, что ссылка с вашего лендинга про новый алгоритм, которая ведёт на этот специфический вопрос выдаёт совсем не то, что обещает.

                                                    Скриншот с лендинга
                                                    image

                                                    Результат выдачи
                                                    image

                                                    Но самое забавное в другом:
                                                    image
                                                    • +1
                                                      Он там тоже есть, но в данный момент начал «прыгать». Запрос изначально низкочастотный, и неожиданный трафик с лендинга мог привести к подобному.
                                                      • 0
                                                        Американский фильм вышёл не раньше середины 90-х. У молодого человека, которого играет актёр от 1960 до 1970 года рождения, сдают нервы от современных технологий, — он приходит домой и разбивает телефон, который зазвонил.
                                                        Как улучшить запрос? Не могу вспомнить название фильма.
                                                        • 0
                                                          А что за фильм?
                                                          • 0
                                                            спрашивает яндекс…
                                                            • 0
                                                              Яндексом меня еще никто не называл :)
                                                              • 0
                                                                Серьёзно: как улучшить запрос для нейронной сети, чтобы найти фильм?
                                                                • 0
                                                                  Подскажите название фильма?
                                                                  • 0
                                                                    Если бы я знал название, — я бы не искал (
                                                        • 0
                                                          Всё дело в мигающих звёздах.

                                                          .space__twinkling {
                                                              z-index: 1;
                                                              background-color: transparent;
                                                              animation: move-twink-back 1s linear infinite;
                                                          }
                                                          
                                                          @keyframes move-twink-back {
                                                              0% {
                                                                  background-position: 0 0
                                                              }
                                                          
                                                              100% {
                                                                  background-position: -10000px 5000px
                                                              }
                                                          }
                                                          
                                                          • +7

                                                            Вот мы и дожили до того момента, когда для того, чтобы помигивать иногда пикселами, нам нужно два ядра на несколько гигагерц.

                                                      • +14
                                                        По моему это пошло, называть поисковый алгоритм именем Великого, с большой буквы, Человека. Да к тому же, работающий хрен знает как. Кстати, при чем тут Королев то? Я так и не понял.

                                                        Ну а поисковая выдача Яндекса, с каждым днем становится все хуже и хуже. Уж не знаю, учитывается ли там статистика мои запросов индивидуально или нет (хотя несколько лет назад твердили, что учитывается) — но если я ищу что-то конкретное по определенной теме, то в выдаче 95% результатов на первой странице будут одними и теми же, хотя я прекрасно знаю что ищу и уже конкретно пишу ключевую фразу в кавычках (и с "+", и без...). Но Яндексу видимо пофигу. А что до тех оставшихся 5% — так там может вылезти такое, что вообще не имеет никакого отношения к поиску.

                                                        Отдельно заслуживает внимания навязчивая простыня рекламы по любому обновлению любого сервиса Яндекса. Но это уже не относится к теме поста, а в общем и целом.
                                                        • +3
                                                          Если Вы пришлете мне такие примеры, то мы посмотрим, что с ними не так.
                                                          • 0
                                                            Просто бросить в личку или оформить как некий тикет в баг.траке (ну или в ТП написать например)?
                                                            • 0

                                                              Можно мне в личку. Попробую у себя воспроизвести и зарепортить.

                                                              • 0
                                                                Хорошо. Думаю на днях сподоблюсь до развернутого ответа с примерами и т.д.
                                                            • +2
                                                              Тоже что-то пошло не так, ссылка на видео с музыкантами из Монголии) в любом случае, спасибо за статью)
                                                              image
                                                              • 0
                                                                Низкочастотный запрос, на который вдруг пошел большой трафик пользователей, которые и кошку-то на самом деле не ищут. На такую неестественную ситуацию может быть разная реакция.
                                                                • 0

                                                                  Вы хотите сказать, что сортируете по популярности вместо количества совпавших слов?

                                                                  • 0
                                                                    Нет. Факторов очень много. Учитывается все.
                                                                    • 0

                                                                      Почему у вас фактор "популярность" перекрывает фактор "число совпавших слов"?

                                                                      • 0

                                                                        Не зная внутрянку тех механизмов в Яндексе, могу предположить что фактор "популярность" гораздо менее прожорливый (по накладным расходам, как например LA, так и по времени исполнения запроса) чем фактор "число совпавших слов".
                                                                        Если конечно запрос не повторялся и оно (пара слова/число) не "кэшируется"...

                                                                        • 0

                                                                          В рамках конкретной выборки его всяко можно пересортировать как следует, а не как попало.

                                                                        • 0
                                                                          Я же рассказывал, что нет никакой готовой формулы. Форумы рождаются и постоянно меняются внутри Матрикснета.
                                                                          • 0

                                                                            Почему у вас Матрикснет генерирует такие формулы, где фактор "популярность" перекрывает фактор "число совпавших слов"?

                                                                            • +1
                                                                              Потому что зачастую искомый ответ не содержит слов из запроса, но прекрасно отвечает на вопрос пользователя. По мнению пользователя.
                                                                              • 0

                                                                                Если зачастую, значит вам не сложно будет привести пример?

                                                                                • 0
                                                                                  [ирландское евангелие] для которого правильный ответ – это «келлская книга».
                                                                                  • +1


                                                                                    Гугл нашёл и "ирландское" и "евангелие". В любом случае правильным ответом будет "возможно вы имели ввиду келлскую книгу?", а не поиск по совершенно другому запросу.

                                                                  • 0
                                                                    В гугл тоже пошёл не меньший трафик, но он от этого не сломался, а только окреп — Армагеддон поднялся со второй до первой строчки. Может, он проиндексировал вашу статью?))

                                                                    PS Если поисковику так легко «отравить» низкочастотный запрос, то понятно откуда берутся [перламутровые] и [почему путин краб]…
                                                                    • 0
                                                                      Меньший. Далеко не все, кто посмотрел у нас, пошли проверять это у других.
                                                                    • 0

                                                                      То есть Ваш поисковик не готов к резкому всплеску популярности запроса? Например появляется очередной "Pokemon GO" и начинается огромный поток запросов по нему. Какая будет реакция? Естестенна ли данная ситуация?

                                                                      • 0
                                                                        То есть Ваш поисковик не готов к резкому всплеску популярности запроса?


                                                                        Здесь на этом сайте уже была у Яндекса статья про специальные алгоритмы для новостей.
                                                                    • 0
                                                                      Видимо, проблема перевода при запросе в гугл :)
                                                                    • 0
                                                                      Я Вам прислал примеры в личку. И в ответ получил тишину.
                                                                      • 0
                                                                        Я их сейчас собираю. Мгновенно никто не разберется же в них.
                                                                        • 0
                                                                          Ну как вы не понимаете — время фикса бага должно быть бесконечно малой величиной стремящейся к нулю. А время воспроизведения и ретестирования дефекта — должно быть отрицательным :-)
                                                                          • 0
                                                                            Но так не бывает в природе :(
                                                                            • 0
                                                                              Если не считать того, что я написал «Платону» об этом много раз с примерами за последние 4 года. Результат — отрицательный. Т.е. ситуация не улучшилась, а ухудшилась.
                                                                              4 года — это вроде достаточный срок для исправления лажи?
                                                                    • +3
                                                                      Есть такое. Если ищешь человека с редкой фамилией, то обязательно предложат другой вариант, даже если взять слово в кавычки. Я б посоветовал слова в кавычках не пытаться исправить орфографию или подменить на более релевантные с точки зрения алгоритма, а искать как есть.

                                                                      Чтоб не быть голословным: поиск по имени "Альфи" в Яндексе выдаст кучу ссылок на фильм «Красавчик Алфи, или Чего хотят мужчины». Даже если закавычить это слово. Гугл же дает ссылку на актера Альфи Аллена. Я понимаю, что большинство русскоязычных пользователей Интернета орфографически безграмотны и наверное при запросе «Альфи» на самом деле они искали тот фильм. Но при добавлении кавычек хотелось бы, чтобы Яндекс искал именно заданное слово.

                                                                      Еще хуже, когда ищешь слово на белорусском языке. Учитывая близость к русскому, начинается настоящая борьба с орфографическим анализатором поисковика.
                                                                      • 0
                                                                        Еще пример: ищем по фамилии Джерико. И Яндекс и Гугл выдают ссылки с английскими названиями «Jericho». Но мне нужно именно русское название, ok, закавычиваю: «Джерико». Гугл тут же полностью меняет выдачу и дает страницы с нужным словом. Яндекс — нет, все по-старому. Возможно, я просто не умею готовить?
                                                                        • 0
                                                                          Контрпример, если искать по имени Джэми, то без кавычек дает ссылки на Джейми Фокса и Джейми Чона, а с кавычками — на Джэми Харриса и Джэми Уйс. То есть кавычки работают, но не всегда.
                                                                          • 0
                                                                            Кавычки у них не работают. Точнее, они сами не знают, как они работают — суппорт признался. Чтобы кавычки работали как этого от них ждёшь, в кавычках должен быть весь запрос целиком, и ничего больше. И да, меня это тоже бесит, но такова селяви, бодаться с ними бесполезно. На запрос с кавычками сразу иду в гугл.
                                                                            • 0
                                                                              в кавычках должен быть весь запрос целиком

                                                                              ложь, п***ж и провокация.
                                                                              нифига не помогает.
                                                                              И выбор настройки «точно так, как в запросе» — не помогает.
                                                                              Ну нельзя заставить яндекс искать то, что нужно тебе, нельзя.
                                                                              • 0
                                                                                Ну что за ерунду вы говорите? :( «Они сами не знают, как они работают — суппорт признался».

                                                                                Посмотрите в справку по поиску хотя б, там же написано всё. Точная форма — это восклицательный, кавычки это порядок слов.
                                                                              • 0
                                                                                Чтобы найти Джерико на русском, подойдёт восклицательный знак: [! Джерико], или даже [! Джерико -Jericho]

                                                                                Пару месяцев назад, кстати, был масштабный сбой, минус-слова не работали. Может, BarakAdama поделится инфой, что там тогда случилось? И почему так плохо всё с кавычками?
                                                                          • +1
                                                                            Раз тут зашла речь о семантике — то сразу интересует вопрос — а в данном случае возможно ли использовать наработки ABBYY по Compreno?
                                                                            • 0
                                                                              Я отвечу — нет, совсем не тот уровень производительности. Или скорость, или качество.
                                                                            • +13
                                                                              Вспомнилось из старенького:
                                                                              Яндекс — «Найдётся всё!»
                                                                              Гугл — «А ничего и не терялось»…
                                                                              :)
                                                                              • +28
                                                                                Хвалиться — это, конечно, хорошо. Когда есть чем.
                                                                                Качество поиска Яндекса ужасное. С каждым годом все хуже и хуже.
                                                                                О каком «Королеве» можно говорить, если Яндекс банально не может отличить авторский текст от ворованного, первопубликацию от копии, текст специалиста от текста ничего не понимающего в теме компилятора?
                                                                                Результат — повсеместное поощрение копипаста и воровских сайтов (они в выдаче на первых позициях), фактическая пессимизация оригинального контента (его просто нет в выдаче… совсем). (Что противоречит опубликованным Яндексом принципам. Т.е. Яндекс — врет.)
                                                                                Результат — нерелевантная выдача, низкое качество поиска. (Это не очевидно только на первый взгляд, но если наплевать на качество и заигрывать с ворами в одном, то и все остальное сыпется.)
                                                                                Результат — потеря доли поискового трафика по 5% в год.
                                                                                И до сих пор никто не уволен. Ничего не исправлено. К любым обращениям Яндекс глух.
                                                                                Смешно.
                                                                                Еще несколько лет такого «качества» и Яндекс просто исчезнет.
                                                                                • +37
                                                                                  Дополню, чтоб не голословно было…

                                                                                  Несколько лет назад я заметил значительное снижение заходов на мой сайт из Яндекса. С Гууглом при этом все было в порядке.
                                                                                  Начал разбираться.
                                                                                  Выяснилось, что вместо моих оригинальных текстов, моих первопубликаций, моих авторских текстов, в выдаче Яндекса сайты, которые своровали мои тексты, страницы копипастеров.
                                                                                  Рекорд был, когда я обнаружил, что мой текст, который я опубликовал на своем сайте впервые в 1998 году, Яндекс выдает на 70-ти сайтах-ворах.
                                                                                  Т.е. в выдаче я насчитал 70 копий моей статьи на чужих сайтах… А своего сайта в выдаче так и не нашел. Совсем.
                                                                                  Начал переписку с Яндексом.
                                                                                  Ответ — «работайте над сайтом», «пишите оригинальные тексты».
                                                                                  Мой ответ — «у меня размещено 5000 оригинальных хороших текстов, только в выдаче они показаны не на моем сайте, а на сайте вора-копипастера».
                                                                                  Ответ Яндекса — «мы не следим за авторскими правами».
                                                                                  И так 4 года.

                                                                                  Но Яндекс врет.
                                                                                  И вот почему.
                                                                                  1. Яндекс утверждает, что он «лишь зеркало Интернета»… ну так не кривое же зеркало. Значит, оригинал, первичная публикация должна быть в выдаче выше копипаста. И раньше, до 2012 года так и было.
                                                                                  2. Яндекс пишет на своей странице «Некачественные сайты»: «Мы стараемся не индексировать или не ранжировать высоко: Сайты, копирующие или переписывающие информацию с других ресурсов и не создающие оригинального контента.»
                                                                                  Яндекс пишет там же: «Сайты, которые содержат неоригинальный, вторичный… контент… Исключение из поиска страниц сайта, понижение в результатах поиска, аннулирование тИЦ»
                                                                                  И еще там же: «Создавайте сайты с оригинальным контентом или сервисом.» (Что я и делал с 1998г. и по сей день делаю).
                                                                                  Однако…
                                                                                  Что же по факту?
                                                                                  По факту десятки ресурсов, разместивших копии моих текстов в выдаче есть. Моего сайта нет.
                                                                                  Яндекс врет или не умеет работать?

                                                                                  Полтора года назад поставил эксперимент. Решил «вылизать» сайт в соответствии со всеми рекомендациями Яндекса.
                                                                                  1. Прописал правильно все метатеги.
                                                                                  2. Правильно проставил H1.
                                                                                  3. Удалил 80% рекламы.
                                                                                  4. Все ссылки, все, что не относится к сути страницы, тексту статьи, включая навигацию, закрыл в noindex.
                                                                                  5. Улучшил юзабилити — фон, границы, внутреннюю перелинковку, шрифт, расположение статьи на странице, добавил картинки, прикрепил интерактивный чат для пользователей для моментальных консультаций.
                                                                                  6. Оптимизировал код страниц, удалил все скрипты, которые было можно, ускорил загрузку страниц в 3-5 раз. (В 10 раз быстрее, чем у копипастеров, которые в выдаче вместо моей первопубликации оригинального текста).
                                                                                  7. Оптимизировал для мобильных устройств (Яндекс и Гуугл сейчас считают сайт оптимизированным. Замечаний в «Вебмастере» нет).
                                                                                  8. Добавил (за несколько лет, разумеется) около 1000 новых текстов, прописав все сначала в «Оригинальных текстах» Яндекса.
                                                                                  9. Исправил 99% входящих «битых» ссылок. (Замечу — никогда никакие СЕО-ссылки не покупал. Все ссылки на мой сайт «естественные».)
                                                                                  10. Убрал 100% внутренних битых ссылок и т.п. ошибок (404 и др.)
                                                                                  11. Исправил орфографию, форматирование и т.п. огрехи там, где были.
                                                                                  12. Сделал карту сайта.
                                                                                  13. Перенес сайт на самый быстрый сервер провайдера.
                                                                                  14. Убрал во фреймы часть рекламы и навигации, чтобы грузилось быстрее, чтобы робот работал со страницей быстрее и точнее индексировал (только сам контент, саму статью).
                                                                                  15. И еще много чего по мелочи. Осталось сделать еще на части сайта перелинковку.

                                                                                  Каков же результат?

                                                                                  Для сайта с 5000 оригинальными статьями, размещенными с 1998 по 2016 год, никогда не менявших URL, с общей посещаемостью в несколько тысяч человек в день от всех этих изменений, затронувших 99% страниц…
                                                                                  Результат… ноль!
                                                                                  А точнее — минус. За этот год в Яндекс-выдаче сайт упал еще вдвое. При этом в Гуугле не изменился.
                                                                                  Гуугл как выдавал мои оригиналы выше копипастов, так и выдает. Яндекс — наоборот. Как пособничал ворам-копипастерам, так и продолжает.

                                                                                  Предположил, что Яндекс просто «потерял» данные о первоисточниках. Может сгорела у него база или что еще…
                                                                                  Написал в поддержку алгоритм, как можно восстановить базу первопубликаций до 2005 примерно года с гарантией (позже чуть сложнее, но тоже можно).
                                                                                  В ответ — молчание.
                                                                                  Просто молчание. Это Яндексу не интересно. Не нужно. Он самый умный.

                                                                                  Отправил еще несколько предложений.
                                                                                  «В ответ тишина...», разумеется.

                                                                                  Несколько лет назад, общаясь с поддержкой, обратил их внимание, что выдача стала не релевантной. Для меня во всяком случае.

                                                                                  Мне пришлось уйти на Гуугл-поиск, потому что Гуугл 1-3-й ссылкой всегда выдавал мне то, что надо, а у Яндекса часто приходилось искать на 2-3-й странице выдачи… и не всегда с положительным результатом.
                                                                                  Написал Яндексу. С примерами. Объяснил, что так ищут многие…

                                                                                  300 писем за 4 года…

                                                                                  Но кто я такой? Ну автор какой-то, веб-мастер. А Яндекс — это же Яндекс — он умнее всех…

                                                                                  Еще в 2012 году я предположил, что доля Яндекса в поисковом сегменте будет падать. И она упала.

                                                                                  Яндекс обвиняет в этом кого угодно, кроме себя.
                                                                                  Но именно в 2012 году Яндекс решил, что первопубликация — это не главное. И начал менять алгоритмы выдачи.
                                                                                  Однако… именно из-за того, что Яндексу стало наплевать на пользователей, а с ним и на вебмастеров и авторов, создающих контент, он уже который год теряет посетителей. Примерно по 5% поискового трафика Рунета в год. А значит теряет доходы от продажи рекламы.
                                                                                  Если Яндексу наплевать на людей, то людям тоже становится не интересно пользоваться Яндексом.
                                                                                  Может, конечно, менеджеры и рапортуют, что продали в этом году на n-миллионов больше… Но в реальности — потеря доли = упущенная прибыль.

                                                                                  Итого. Яндекс обманывает вебмастеров и авторов, декларируя одно, а на деле делая совершенно противоположное.
                                                                                  Яндекс анонсирует свои АГС и пр., но копипастеры прекрасно это обходят и смеются над Яндексом.
                                                                                  Яндекс размахивает дубиной и крушит оригинальные сайты, расчищая дорогу ворам-копипастерам.
                                                                                  И… в результате, по «закону бумеранга» — Яндекс получает снижение доли на рынке, снижение возможных доходов, упускает свою прибыль… и продолжает исправно платить зарплату людям, которые великолепно раздувают щеки, но ничего не делают для улучшения работы поисковика.

                                                                                  Ладно. Яндекс не первый монстр, которого переживут авторские сайты. Такими темпами как сейчас, лет через 5 Яндекс превратится в маленькую конторку или вообще исчезнет с рынка. Подождем.
                                                                                  Придет иной поисковик, который уважает тех, кто создает контент и заберет оставшиеся проценты рынка из рук Яндекса, который вовсе и не пытается эти проценты удержать.

                                                                                  • +10
                                                                                    Да, кстати… Для любого профессионала только «написать» хорошую аналитическую статью — 2 часа работы как минимум. Не говоря уже о том, что ее нужно предварительно обдумать. А перед этим еще и образование по теме получить. Например, как минимум, несколько лет в институте. А еще книжки полистать, чтоб ошибка не закралась, чтоб уточнить и память свою перепроверить.
                                                                                    А копипаст — это минут 10, полагаю, если с кофе и перекуром.
                                                                                    Но, конечно, сайт с копипастом гораздо ценнее для Яндекса, чем сайт с оригинальной первопубликацией.
                                                                                    • +2
                                                                                      А сайт можно увидеть?
                                                                                      • +3
                                                                                        Можно.
                                                                                        Пишите в личные сообщения, чтобы это не выглядело рекламой и не противоречило правилам habrahabr.
                                                                                        • +2
                                                                                          И мне, пожалуйста, покажите.
                                                                                          • +3
                                                                                            Написал Вам личное сообщение. Если не получите — напишите мне — продублирую.
                                                                                            • 0
                                                                                              Укажите ссылку на него в своём профиле, пожалуйста (так вроде бы можно).
                                                                                              • 0
                                                                                                У меня не один сайт, а много.
                                                                                                Если Вам интересен данный сайт с конкретными примерами — напишите в личку. Я отвечаю всем.
                                                                                            • +2
                                                                                              Вот еще что важно.
                                                                                              Психология автора и то, что публично озвучивает Яндекс — интересные сайты для людей.
                                                                                              Автор это понимает так — написать интересный текст.
                                                                                              Но его интересный текст Яндекс показывает на сайте-копипастере.
                                                                                              Зачем тогда писать?
                                                                                              Тогда нужно изучать СЕО и соревноваться с оптимизаторами?
                                                                                              Или все-таки писать тексты?
                                                                                              Или размещать статьи с вечными ссылками, ибо за это платят?
                                                                                              Или все-таки делать интересный сайт с хорошими текстами?
                                                                                              Одна из частей моего эксперимента последнего года — написал около сотни хороших текстов (некоторые опубликованы и оплачены офф-лайн журналами).
                                                                                              Тексты по 5000-10000 знаков.
                                                                                              Работы (чистого времени) около 300 часов.
                                                                                              Результат — нулевой.
                                                                                              Или отрицательный, если учесть, что выдача в Яндексе за этот год уменьшилась еще вдвое.
                                                                                              Т.е. смысла создавать хороший контент нет никакого.
                                                                                              • +5
                                                                                                Яндекс провёл IPO с этого момента главные показатели — это доходность компании, а не доля на рынке, хороший поиск и т.п. К тому моменту как помрёт поиск уже будут и уже есть Яндеск.Такси и Яндекс.Маркет которые так же можно выделить в отдельные компании провести снова IPO. А умрёт поиск — так это проблема акционеров, а не качества поиска. Yahoo когда-то тоже была крупной поисковой компанией, у которой сейчас уже нет поисковой технологии…

                                                                                                Т.е. это нормально для яндекса выдавать в топе сайты на которых он зарабатывает на рекламе или которые у него покупают контекст — они же провели IPO. На совете директоров обычно разбирают показатели прибыльности компании за год, а не сколько ворованных статей в выдаче — у нас нет закона по которому бы поисковик за это наказывался бы.
                                                                                                • 0
                                                                                                  Вы полностью подтвердили мои предположения.
                                                                                                  Вопрос в том, когда, наконец, акционеры поймут, что Яндекс их так банально собирается… подвести.
                                                                                                  • +1
                                                                                                    Если выручка компании будет расти — то никогда. Просто перепрофилируют бизнес как Yahoo которой принадлежит большой пакет акций Alibaba Group. Т.е. сегодня пекли пирожки, а завтра будем делать кирпичи — да покупатели и поставщики могут быть не довольны, но бизнес же приносит прибыль. Ну а если потонет — то бывает как с Myspace, не свезло )).
                                                                                                  • +1
                                                                                                    Интересная теория, но в реальности не так. Кроме общей прибыльности еще важно, чтобы пользователи искали в Яндексе, а не у конкурентов. Иначе они просто рекламу не увидят. И здесь без качества выдачи уже никак.
                                                                                                    • +1
                                                                                                      Вы правы.
                                                                                                      Теоретически, в идеале, если делать по умному.
                                                                                                      И я об этом в техподдержку (и не только) писал много раз на протяжении последних 5-ти (!) лет.
                                                                                                      А вот практически оказывается прав Infanty, ибо именно так как он пишет и происходит в реальности. А жаль.
                                                                                                      Но это, конечно, в компетенции Яндекса и акционеров.
                                                                                                      А пользователи просто выбирают иной магазин (сервис, поисковик).
                                                                                                      Но мне было бы приятнее, если бы Яндекс искал так же хорошо, как и Гуугл.
                                                                                                      Если качество будет хромать в поиске, то и в остальных сервисах корпорации оно начнет хромать тоже.
                                                                                                      Это что в биологии, что в экономике — закон :)
                                                                                                      • 0
                                                                                                        А что такое реальность? Частные примеры могут быть совершенно разными. Бывают страшные. Бывают наоборот примеры превосходства над всеми остальными. Когда речь идет о миллионах запросов, миллионах сайтов, миллионах пользователей, то тут точно по частным случаям нельзя делать общие выводы. Но это не отменяет, конечно же, необходимости каждый плохой случай разбирать.
                                                                                                        • 0
                                                                                                          Тимур. Я же не спорю с Вашим постулатом, что «Кроме общей прибыльности еще важно, чтобы пользователи искали в Яндексе, а не у конкурентов. Иначе они просто рекламу не увидят. И здесь без качества выдачи уже никак.»
                                                                                                          Я как раз «за». Двумя руками.
                                                                                                          Проблема в том, что этот Ваш постулат никак не реализуется Яндексом.
                                                                                                          (Простите, что Вам приходится «отдуваться» здесь за 2999 (если не ошибаюсь) остальных сотрудников компании :) )
                                                                                                          Может я несколько эмоционален…
                                                                                                          Возможно меня извинит 5 лет безуспешной переписки с Яндексом.
                                                                                                          Ваш ответ «важно, чтобы пользователи искали в Яндексе,… И здесь без качества выдачи уже никак» вселяет некоторую осторожную надежду.
                                                                                                          • +1
                                                                                                            Еще немножко дополню, почему важно первоисточник и определять и выдавать на первом месте.
                                                                                                            Сейчас очень модно говорить «где пруф?» и требовать ссылку, собственно, на первоисточник.
                                                                                                            А с Яндексом его найти невозможно.
                                                                                                            И такой человек банально уходит из Яндекс-поиска.
                                                                                                            • 0
                                                                                                              Небольшое дополнение.
                                                                                                              Исходя из лозунга Яндекса «делайте сайты для людей»…
                                                                                                              Автор приносит свой текст, свои идеи, сайт-источник, первопубликатор — находит автора, договаривается, публикует.
                                                                                                              После этого это текст индексируется и показывается пользователю поисковой системой.
                                                                                                              Это все «для людей».
                                                                                                              Без автора — нет текста. Без первопубликации нет он-лайн доступа, без поиска нет быстрого обнаружения текста.
                                                                                                              А что привносит «для людей» копипастер? Занимает место в выдаче?, Размещает много блоков Яндекс-Директа? Меняет фон или шрифт? Стирает подпись? Не указывает источник? Разбивает текст рекламой? Изменяет слова, искажая текст? Правильно прописывает ключевые слова и прочие технические примочки, которые пользователь не видит?
                                                                                                              Что из этого «для людей»?
                                                                                                              Чем тексты на сайте копипастере для людей лучше, чем на сайте-источнике?
                                                                                                              • 0
                                                                                                                А вот еще дополнение моим словам от незнакомого мне пользователя (из личной переписки, с согласия автора)…
                                                                                                                «С 2014 тоже боремся с подобной проблемой, только на коммерческом сайте. В нашем случае кончилось тем что Яндекс признал признал ошибку алгоритма и даже обещал исправить, но воз и ныне там.»
                                                                                                        • 0
                                                                                                          К тому моменту как помрёт поиск уже будут и уже есть Яндеск.Такси и Яндекс.Маркет


                                                                                                          Нонсенс.

                                                                                                          Яндекс.Такси и Яндекс.Маркет без собственного поиска — ничто.

                                                                                                          Гугль, оставшийся в гордом одиночестве — тут же опустит эти сайты в своем поиске.
                                                                                              • +2
                                                                                                Ссылка в конце странички на поиск в других системах выручала всегда ))
                                                                                                • 0
                                                                                                  Не будь её, даже не знаю, оставил бы я сабж дефолтным поисковиком))
                                                                                                • +3
                                                                                                  Да, не только ваши оригиналы Яндекс полностью заменил копиями :)))

                                                                                                  image

                                                                                                  • 0
                                                                                                    Кстати, здесь логику понять можно. Думаю, большинство пользователей искали именно этот фильм, а не японский оригинал.
                                                                                                    • +4
                                                                                                      Я бы предпочел ответ Гуугла. Он позволил найти не только «этот фильм», но и исходник.
                                                                                                      Т.е. ответ Гуугла содержит для меня в данном случае «бонус».
                                                                                                      • 0
                                                                                                        Да нет же, прямо из скриншота видно, что оригинал более известен — на Кинопоиске у него в три раза больше голосов, чем у римейка.
                                                                                                        • 0
                                                                                                          Это не обязательно показатель :)
                                                                                                    • 0
                                                                                                      Несколько лет назад я заметил значительное снижение заходов на мой сайт из Яндекса. С Гууглом при этом все было в порядке.


                                                                                                      У меня ровно обратная ситуация.
                                                                                                      Сайт интернет-магазина, существует уже лет 10, накрутками через копирайтеров не пользуется, статей на сайте нет, только товары, SEO-ссылки не покупает.

                                                                                                      Весной 2017 мы приняли решение что больше воооообще нам не нужен Гугль. Там даже на 3-ю страницу хрен пробьешься. Хотя мы и выполняли все рекомендации Гугля, работали над сайтом постоянно.

                                                                                                      Основной трафик идет с Яндекса. Стабильно первая страница. Как правило 2-5 место в поисковой выдаче.

                                                                                                      А где-то года 2 назад с Гугля шло больше.
                                                                                                      А еще лет 5 назад с Гугля и Яндекса шло одинаково.

                                                                                                      При том что суммарная посещаемость стабильная. Наблюдается незначительный рост с годами.

                                                                                                      • 0
                                                                                                        Вы все наивны, как дети. Поиск яндекса — это устоявшаяся экосистема почти-монополиста, прикрываемого ФАС и Сбербанком. С одной стороны там сео и смм-щики, вбухивающие огромные деньги в контекстную рекламу, с другой стороны — все эти же товарищи, генерящие и выводящие в топ тонны дорвеев, сайтов с копипастой и прочего говна. Если бы поиск яндекса стал бы релевантным, как у гугла, то яндекс лишился бы вкусных доходов с лохов.
                                                                                                        • 0
                                                                                                          Странная теория, которая не учитывает отток пользователей при падении качества.