company_banner
  • И снова о качестве поиска

    • Из RSS
    Бен Гомес, ведущий инженер Google

    Уди Манбер рассказал вам о работе группы качества поиска, а в предыдущих блог-постах этой серии говорилось о ранжировании документов. Хотя ранжирование документов в сети – это основа качественной работы Google, но это далеко не все, что нужно для удобства, быстроты и эффективности поиска. В этом посте я расскажу о принципах, определяющих развитие пользовательских возможностей поиска, и о том, как они соотносятся с ключевыми аспектами работы поисковой системы. Также я расскажу вам об экспериментах, которые мы проводим, чтобы убедиться в том, что мы развиваемся в правильном направлении. А в следующем посте этой серии я расскажу вам, какие тесты мы проводим в настоящее время.

    Вначале несколько слов о себе. Меня зовут Бен Гомес. Я работаю в Google с 1999 года и занимаюсь вопросами, связанными с поиском, в основном – качеством поиска. Мне посчастливилось внести свой вклад по многим направлениям развития поисковой системы – от поискового робота до механизма ранжирования. Позднее я занимался разработкой поискового интерфейса и функций поиска.

    Обычно, когда я рассказываю друзьям, что я занимаюсь поисковым интерфейсом Google, они говорят: «Чем-чем? Да он никогда не меняется”. Потом они смотрят на меня подозрительно, и говорят: „Не порти хорошую вещь!“. Google хорош именно таким, какой он есть – простой, понятный и быстрый. Это все, конечно, отлично! Но какого труда это стоит?

    Чтобы мы могли ответить на этот вопрос, давайте начнем с определения основной цели поисковой системы. Цель в том, чтобы вы могли найти интересующие вас страницы как можно быстрее. Поиск не является самоцелью, это всего лишь посредник. Цель эта может показаться очевидной, но именно в этом поисковик радикально отличается от большинства сайтов в сети, успех которых определяется тем, как долго пользователи остаются на сайте. Наш успех, в частности, определяется тем, как быстро вы покидаете Google (надеемся, что с хорошими впечатлениями). Чтобы вы могли найти страницы, которые вам нужны, как можно быстрее, мы используем несколько принципов.

    • Небольшой размер страницы. Небольшая страница быстрее загружается и отображается браузером. Здесь необходим минималистичный дизайн; избыточные изыски интерфейса замедляют работу страницы, не принося особой пользы.
    • Сочетание сложных алгоритмов с простотой представления результатов. Многие поисковые функции требуют реализации большого количества сложных вычислительных и аналитических алгоритмов. Фокус в том, чтобы спрятать всю эту сложность за ясным, интуитивно понятным интерфейсом. Исправление правописания, описания страниц, ссылки на сайты и уточнение запросов – все это примеры постоянно развивающихся функций, требующих сложнейших алгоритмов. При этом с точки зрения пользователя поиск, практически незаметно для него, начинает работать лучше.
    • Функции работают повсеместно. Функции должны быть устроены таким образом, чтобы алгоритмы и способ представления результатов могли работать на всех языках и во всех странах мира. Возьмем проблему исправления правописания в китайском, где запросы часто не разбиваются на отдельные слова. Или иврит/арабский, на которых пишут справа налево. Кстати говоря, это классический пример того, что первым всегда приходится труднее: при резьбе по камню удобнее держать молоток в правой руке!
    • Информированное принятие решений: экспериментировать, экспериментировать, и еще раз экспериментировать. Чтобы убедиться в том, что мы поступаем правильно, мы проводим эксперименты. Многообещающие замыслы могут провалиться по итогам тестирования.

    Здесь, конечно, существуют свои сложности. Например, если мы покажем вам больше текста (или картинок) на каждый результат поиска, то выбрать нужный результат будет, возможно, проще. Но страницу, на которой слишком много информации, дольше загружать и дольше просматривать. Поэтому при добавлении любой дополнительной информации на страницу результатов мы тщательно сравниваем новые преимущества с затратами внимания пользователя на обработку этой информации. Это относится к любой составляющей поиска: от ввода запроса до просмотра и изучения результатов.

    Поиск начинается с ввода запроса. Часто пользователь чувствует некоторое напряжение, если не знает правильного написания слова. Проверка правописания – казалось бы, простая и очевидная функция – таит в себе массу технических проблем. Ни один из словарей английского языка не подскажет нам, как правильно писать Бритни Спирс (Britney Spears). Бритни, возможно и не зная об этом, стала классическим примером этой нашей функции. Мы проводим анализ миллиардов страниц в сети и информации о запросах пользователей. Так мы определяем, какие слова, употребляемые в сети, являются «настоящими», и какие в них возможны ошибки или опечатки. Система проверки правописания за долю секунды анализирует огромное количество возможных слов, которые вы могли иметь в виду (это намного больше, чем любой словарь, когда-либо созданный вручную) и определяет, какой запрос вы скорее всего хотели ввести. Когда мы уверены, что вы, на самом деле, хотели напечатать что-то другое, мы позволяем себе редкую вольность с нашими результатами поиска. Мы стараемся отвлечь вас от верхних результатов поиска. Результат проверки правописания находится в зоне прямой видимости и окрашен в ярко-красный цвет, чтобы его нельзя было не заметить. Более того, мы теперь сделали так, чтобы больше ничего на странице не было красным, — если это, конечно, не настолько же важно для вас, как правописание (а пока ничего такого и не обнаружено). Алгоритмы, используемые при проверке правописания, постоянно совершенствуются. Сейчас они работают для большого количества языков, и еще виртуознее распознают ошибки правописания. Распознавание правильного написания запроса настолько важно для нас, что в некоторых случаях мы отображаем результаты исправленного запроса в самом начале страницы (на случай, если вы не заметили яркий красный текст вверху и внизу страницы).



    После того, как запрос сформулирован правильно, нужно выбрать страницу из результатов поиска. Для каждого результата мы показываем заголовок и URL-адрес, а также краткое описание на двух строчках. Обычно страницы, у которых отсутствует нормальный заголовок, часто игнорируются пользователями. Одно из значительных недавних изменений – это возможность вытягивания заголовков со страниц, где заголовок не был задан в HTML-коде. Чтобы «увидеть», какой заголовок предполагал автор страницы, мы тщательно анализируем HTML-код страницы. В таком случае вероятность того, что страница будет игнорироваться из-за отсутствия хорошего заголовка, будет значительно меньше. Под заголовком идет описание страницы. Что именно показывать в описании страницы – это одна из самых ранних (и важных) инноваций Google. Когда-то поисковые машины показывали только первые две строчки веб-страницы. Google, вместо этого, показывал те фрагменты страницы, где отображались интересующие пользователя ключевые слова (специалисты в области информационного поиска обычно называют это „показом ключевых слов в контексте“). Показ ключевых слов в контексте визуально более прост, но под этой простотой скрывается сложность. Когда мы создаем описание сайта, мы анализируем реальный текст каждого результата поиска и показываем вам наиболее подходящий фрагмент, содержащий ваши ключевые слова, а не просто несколько первых строк сайта.

    Мы постоянно совершенствуем нашу технологию создания описаний сайтов. За это отвечают алгоритмы, анализирующие соответствие различных сегментов страницы поисковому запросу. Изменения алгоритмов бывают достаточно незаметными (например, мы выделяем синонимы к словам запроса), и вполне очевидными. На скриншоте ниже вы видите, что при поиске по запросу „Ростов н/д“ выводится результат, где выделены слова Ростов-на-Дону, т.к. результаты нашего анализа показывают, что вероятнее всего, имеется в виду именно этот город.



    Еще один, более очевидный пример. Теперь мы умеем находить на странице и показывать в описании дату публикации, указанную в подзаголовке. Даты обычно отображаются в несчетном количестве форматов, которые мы распознаем и выводим единообразно, чтобы вам удобно было просматривать результаты поиска.



    Одна из наиболее частых потребностей пользователей – это так называемые навигационные запросы, когда пользователь вводит название нужного ему веб-сайта. Для таких случаев мы предусмотрели так называемые дополнительные ссылки сайта. Эти ссылки позволяют найти основные разделы сайта. Кстати, они также иллюстрируют многие из принципов, о которых говорилось выше: к первому результату поиска добавляется совсем немного текста.



    Например, на домашней странице сайта Мегафон находится много разных ссылок в виде двухуровневого меню. Наши алгоритмы, используя комбинацию различных показателей, выбирают только те ссылки, которые мы считаем наиболее интересными для вас.

    А что если вы не нашли то, что вас интересует, среди самых верхних результатов поиска? В таком случае вам, возможно, стоит немного переформулировать запрос. В этом вам поможет список уточненных запросов внизу страницы поиска. Даже если там нет подходящего вам запроса, это может навести вас на мысль, как еще можно модифицировать свой запрос. Поскольку мы размещаем уточненные запросы внизу страницы, это не отвлекает пользователей, а наоборот, помогает им в случае, если все предыдущие результаты поиска их не устраивают.

    В данной статье я описал несколько ключевых аспектов удобства и эффективности поиска, во многие из которых мы постоянно вносим различные изменения – от незаметных до вполне очевидных. Итак, когда мы модифицируем возможности поиска, как же мы можем узнать, что наши действия успешны, что мы не „испортили хорошую вещь“? Мы постоянно контролируем качество наших изменений, предлагая их на ваш суд. Прежде всего, мы обкатываем предлагаемые изменения на небольшой доле пользователей и оцениваем, улучшают эти изменения эффективность поиска, или ухудшают. Существует много метрик, при помощи которых мы определяем успех или неудачу таких экспериментов. Процесс измерений в этом случае – это наука в себе, с большим количеством подводных камней. Наша экспериментальная методология позволяет нам исследовать широкий спектр возможностей и внедрить только оптимальные из них. Для каждой функции, которую мы запускаем, мы проводим большое количество тестов, которые зачастую так и остаются за кадром.

    А теперь я могу ответить на вопрос, с которого начал статью. Мы постоянно модифицировали и продолжаем модифицировать страницу результатов поиска. И – нет, мы не испортим хорошую вещь. Вы нам не дадите это сделать.

    А в следующем поcте этой серии я расскажу вам о некоторых наших текущих экспериментах и о том, чему мы хотим на них научиться.
  • Google.ru/yamogu — Что можете вы?

    • Из RSS
    Юлия Анфилова, маркетинг Google Россия

    Несколько недель назад по адресу www.google.ru/yamogu стартовал проект Google «Источник открытий». Цель проекта — показать пользователям Интернета, какие возможности открывают им сервисы Google. Поиск Google, например, — это и калькулятор, и конвертер валют, и возможность с помощью простого поискового запроса получить сводку погоды в 3631 городе мира или расписание ближайшего кинотеатра, а также выяснить, наконец, что такое коллайдер. А с помощью Карт Google вы можете буквально взлететь над землей и рассмотреть свой дом с высоты птичьего полёта, а сразу после этого перенестись в Париж и совершить виртуальное путешествие вокруг Эйфелевой башни или прогуляться по музею Прадо, заглянув на полчасика в Мадрид. И это лишь немногие примеры того, как интересно и полезно можно развлекаться, учиться или работать с помощью сервисов Google, открывая для себя новые возможности.

    Сайт уже посетило более 200 тысяч человек! Сейчас на ней более 50 примеров от Google и более 20 — от пользователей. Нам кажется, у каждого из вас есть своя история, связанная с Google. Ведь Google — это целый мир! Мир, где можно найти свою вторую половинку, задав вопрос о том, «сколько лет в среднем живут муравьи», как это случилось с andrei vvs, или стать звездой, как Kremen, благодаря клипу, который он снял и выложил на YouTube. Здесь можно управлять компанией с ноутбука, не выходя из дома, как это делает b.gnatyuk или указать путь другу в незнакомом городе, сидя дома за компьютером, с помощью Карт Google, как LaysMan. Все это — реальные истории наших пользователей. Поделитесь и вы своей, и, благодаря вам, множество русскоязычных пользователей Интернета узнают больше о Gmail, Chrome, Переводчике, Картах и Picasa, а вы, возможно, станете знаменитым! Ведь мы не хотим ограничиваться Интернетом. Мы хотим, чтобы о ваших открытиях узнали люди, которые сейчас, возможно, даже не знают, что это такое, Интернет.

    На сайте www.google.ru/yamogu есть простая форма, которая позволит вам это сделать! Не забудьте присоединить фотографию, чтобы можно было похвастаться перед друзьями :-)

    Заранее спасибо за участие! Мы с пользователями очень ждём ваших историй!
  • Поиск по Справочному центру Google

    • Из RSS
    Екатерина Губчик, клиентская поддержка

    Если вы пользуетесь хотя бы несколькими продуктами и сервисами Google, то наверняка  заходили и в наш Справочный центр. Несмотря на то, что наши продукты просты и интуитивны, мы советуем обращаться к справочным материалам, так как там можно найти весьма полезные советы. Возьмём, к примеру,  Gmail. Известно, что Gmail использует ярлыки вместо папок. Но как лучше ими пользоваться? Заходим в Справочный центр. Информации там очень много, поэтому лучше всего воспользоваться поиском по Справке. Нажимаем Справка — Gmail. Вводим в строке поиска ярлык и выбираем нужный результат. Мы также показываем результаты из архива Справочной группы.


    Если вы не нашли ответ на свой вопрос в Справочном центре, то его можно задать на форуме. Но сначала попробуйте поиск по форуму. Возможно, на ваш вопрос уже ответили. Участники форума пишут о проблемах, возникающих при работе с сервисами, дают друг другу советы  и выносят на обсуждение свои предложения по улучшению продуктов. Сотрудники Google также просматривают форум, отвечая на вопросы участников. Мы хотим, чтобы форум был местом, где пользователи продуктов Google могут общаться и помогать друг другу.Нам не безразличны ваши проблемы, и мы передаём ваши пожелания сотрудникам, работающим над развитием продуктов. Мы также постоянно работаем над улучшением нашего Справочного центра, чтобы у вас под рукой была самая актуальная информация. Спасибо за то, что помогаете нам стать лучше!
  • Бизнес-центр Google пришлет вам открытку

    • Из RSS
    Максим Азаров, Менеджер продуктов Google Россия

    Мы рады объявить о запуске новой функции Карт Google. Она будет полезна компаниям, которые хотели бы разместить на наших картах информацию о себе. Теперь при добавлении или изменении информации в Бизнес-центре Google вы можете выбрать проверку по почте. Раньше проверку можно было осуществить только по SMS или по телефону, что было не всегда удобно компаниям с большим потоком звонков.



    Если вы еще не успели этого сделать, не забудьте добавить свою компанию на Карты Google!
  • Поиск с переводом

    • Из RSS
    Светлана Кельман, команда качества поиска

    Как вы наверняка знаете, мы стремимся организовать все мировую информацию и сделать ее максимально доступной и полезной. Однако, к нам приходят за информацией пользователи со всего земного шара, а та информация, которую они ищут, к сожалению, не всегда доступна на их родном языке. Поэтому некоторое время назад наши разработчики решили соединить Google Переводчик с поиском, в результате чего родилась функция "Поиск с переводом" (Cross Language Information Retrieval, или CLIR).

    Как это работает: мы берем ваш запрос и переводим его на другой язык, который вы можете сами выбрать, потом производим поиск по переведенному запросу, а затем показываем вам результаты сразу на двух языках — на том, на который запрос был переведен, а также автоматически переводим эти результаты обратно на ваш язык. То есть, если вы хотели узнать про винодельни в Бордо, вы можете произвести поиск, переведя это запрос на французский, а результаты прочитать по-русски.

    Более наглядно это выглядит так:



    Эта функция используется и в самом Google-поиске. Когда наша система считает, что переведенные результаты поиска по вашему запросу могут быть хорошим дополнением к полученной выдаче, мы покажем ссылку на них в конце странички с результатами. Введя запрос [линза для видеокамеры sony], вы сможете воспользоваться вот этой ссылкой:



    А совсем недавно мы запустили изменение, которое для некоторых запросов будет не только выводить ссылку на результаты по переведонному запросу, но и показывать несколько переведенных заглавий результатов прямо тут же:



    Хотя машинный перевод пока не идеален, в большинстве случаев вы сможете понять основную идею на страницах, которые без помощи переводчика не смогли бы прочитать.
  • uToodle

    • Из RSS
    Екатерина Губчик, клиентская поддержка

    Cпасибо тем, кто уже создал свои uToodles или уроки о продуктах Google. Остаётся ровно месяц для подведения первых итогов конкурса. В конце апреля мы определим 5 победителей. Главный приз — публикация урока на этом блоге. Остальные призёры получат сертификаты и займут видное место на нашей доске почёта. Хотите принять участие? Прочитайте наши рекомендации и посмотрите наш uToodle по использованию Gmail Offline. Если у вас уже есть урок, добавьте его на форум .

    Удачи!
  • Первоапрельская география

    • Из RSS
    Мария Крамаренко, маркетинг Google Россия

    Ко Дню дурака мы совместно с журналом GEO создали мапплет , на котором собрали самые забавные названия населенных пунктов, рек, гор и улиц России. Например, на ней можно найти деревню Большие Жеребцы, села Дур-Дур, Гниломедово, Зубочистка Первая или Закобякино, реки Гнилуша, Мусорка или Вшивка, улицы Бармалеева или Измайловского Зверинца. Мы также приглашаем вас делиться своими находками и добавлять объекты на карту.

  • CADIE — революция в анализе потока запросов

    • Из RSS
    Михаил Дайчик, менеджер по продуктам Google

    CADIE анализирует ваш запрос и, благодаря анализу близких по смыслу понятий, подсказывает, как лучше изменить его формулировку для получения более релевантных результатов поиска, таким образом сокращая барьер между машинной логикой и человеческими мыслями.

    Дело в том, что, к сожалению, наша разговорная речь (например, «ты не знаешь, почем сейчас доллар?», «ээх, сейчас бы пивка...», «сколько сейчас времени?») довольно трудно поддается машинному анализу. Смысловой же контекст и то, что подразумевалось между строк, до сих пор проанализировать не удавалось никому. Тем временем именно эти нюансы зачастую несут смысловую нагрузку гораздо большую, чем сам текст.

    CADIE довольно долго анализировала существующие словари идиом, форумы, блоги, новости и то, что, как и когда люди ищут. Также мы попытались отразить связь между тем, что и как люди формулируют, и тем, какую реакцию получают в ответ. Например, господин N. постоянно прибегает к табуированной лексике в своем блоге, что повышает его популярность, но снижает цитируемость. Также мы провели анализ того, насколько реакция читателей соответствует ожиданиям автора и насколько часто он возвращается к примененным форматам или пробует альтернативные способы коммуникации.

    Безусловно, технология CADIE еще далека от того, чтобы понять все нюансы человеческого общения, однако был выявлен целый ряд неудачных способов коммуникации, к которым люди обращаются с завидным постоянством — начиная с запоздалых поздравлений с днем рождения и заканчивая плохо сформулированными сообщениями в блогах или некорректными поисковыми запросами.

    Чтобы помочь людям избегать их, мы представляем серию улучшений к системе подсказок «Возможно, Вы имели в виду». Например, один из весьма популярных запросов «mail» на домене google.ru, скорее всего, подразумевает не бумажную почту и не кольчугу (перевод с английского языка), а электронную почту и с легкостью может быть заменен на ставшее более распространенным в разговорной речи слово 'мыло'. Результаты такой замены, с высокой вероятностью, вас порадуют.

    Естественно, каждый из наших пользователей уникален и каждый формулирует запросы по-своему, а потому мы не можем каждый раз угадать намерение верно. Как следствие, мы решили быть осторожны с запуском, и пока CADIE будет применяться лишь в тех запросах, в которых есть высокая доля уверенности, и лишь в качестве подсказки, но мы уверены, что с совершенствованием ее базы знаний мы сможем расширить объем запросов и точность подсказок.

    Получить дополнительную информацию о CADIE можно на этой странице.
  • Экспериментальная версия Gmail: теперь по всему миру

    • Из RSS
    Пал Такачи (Pal Takacsi, Менеджер инженерных проектов

    Пять лет назад из экспериментального проекта, созданного небольшой командой разработчиков Google, родился почтовый сервис Gmail. С самого начала мы стремились к тому, чтобы наша почта была быстрой, удобной и максимально защищенной от спама. Мы развивали ее, запуская такие сервисы, как видеочат и темы. Сегодня, в канун пятилетия Gmail, десятки миллионов людей во всем мире используют Gmail, причем большинство из них живут за пределами Соединенных Штатов.

    В прошлом году мы создали экспериментальную версию Gmail (Gmail Labs), общедоступный полигон новых возможностей, позволяющий нашим пользователям самим решать, какие функции достойны стать частью их почты. Сегодня мы рады объявить о том, экспериментальная версия Gmail стала доступна на 49 языках пользователям по всему миру.

    Вам может показаться странным, почему, если большинство функций Gmail было сразу запущено на всех поддерживаемых языках, Gmail Labs до сих пор не были доступны на русском? Дело в том, что проект изначально был экспериментом, которым наши сотрудники занимались как 20-процентным проектом (20% своего рабочего времени наши сотрудники могут уделять разработке интересующих их проектов), поэтому существовало множество рисков. Дело в том, что каждый раз, когда пользователь входит в Gmail, мы создаем индивидуальный Java-скрипт персонально для него. Поскольку в экспериментальной версии сейчас 43 возможности, существует 2 в 43 степени (~8 триллионов) возможных версий Java-скрипта. Если учесть 49 языков, на которых сегодня работает Gmail Labs, получится еще больше — 49 x 2 в 43 степени (~430 триллионов версий). Очевидно, что протестировать все эти версии — непростая задача. Мы приложили очень много усилий, чтобы создать модульную архитектуру для поддержки такого набора функций, и пока она работает очень даже неплохо. Поэтому мы подумали, а почему бы не заняться еще 422 триллионами комбинаций?

    С момента создания экспериментальной версии Gmail в июне прошлого года, мы запустили 43 функции в течение 43 недель. Сюда вошли полезные возможности (например, Gmail Офлайн и Напоминалка о неприложенных файлах), хитроумные функции (например, Импорт/Экспорт фильтра) и даже забавные фичи (например, Защита от необдуманных писем). Все эти возможности доступны на закладке Labs в разделе Настройки. Имейте в виду, что все эти функции находятся в самом начале разработок, поэтому они не проходят этапы проектной экспертизы и продуктового анализа, а также не тестируются так глубоко, как базовые функции. Поэтому иногда экспериментальная версия может давать сбои. В случае обнаружения проблем после входа в аккаунт Gmail вы можете в любой момент временно отключить Gmail Labs, воспользовавшись этой ссылкой.
  • Технологии ранжирования Google

    • Из RSS
    Амит Сингал (Amit Singhal), руководитель команды ранжирования Google
    В своем предыдущем посте я рассказал вам о принципах ранжирования Google. В рамках нашего обсуждения качества поиска я бы хотел рассказать вам о технологиях, используемых при ранжировании результатов поиска Google. Наши базовые технологии используют достижения академической дисциплины, которая называется «Информационный поиск» (по-английски «Information Retrieval» или сокращенно IR). Ученые занимаются поиском уже почти 50 лет. При этом при ранжировании веб-страниц используются статистические сигналы значимости слов, такие как частота употребления. (См. статью «Современный информационный поиск. Краткий обзор»). Информационный поиск дал нам прочный фундамент, на котором мы построили передовую систему, использующую анализ гиперссылок, структуры страниц, а также много других инновационных разработок.

    В последнее десятилетие возможности поиска существенно расширились. Если раньше поиск отвечал на вопрос «найдите мне то, что я сказал», то теперь он отвечает на вопрос «найдите мне то, что я хочу». Ожидания пользователей в отношении поиска также сильно выросли. Мы усердно работаем над тем, чтобы оправдать ожидания всех и каждого. Для этого мы должны лучше понимать страницы, запросы и самих пользователей. В течение последних 10 лет мы смогли достичь принципиально новых высот в развитии технологий, позволяющих понять все эти три составляющие поискового процесса.

    Когда мы в Google обсуждаем запросы, мы обычно заключаем текст запроса в квадратные скобки [ ] (см. статью Мата Катса "Как писать запросы"). В этом посте я буду обозначать запросы именно так. Страницы и результаты поиска меняются постоянно, поэтому с течением времени некоторые примеры могут отображаться иначе.

    Понимаем страницы. В течение многих лет мы вкладывали усилия в развитие нашего поискового робота и системы индексирования. В итоге сейчас мы имеем очень большой и актуальный индекс веб-страниц. Помимо увеличения размеров индекса и повышения его актуальности, мы добились еще некоторых улучшений. Одна из наших наиболее важных технологий для понимания веб-страниц — это определение понятий, важных в контексте страницы, даже если связь со страницей неочевидна. Мы находим официальную домашнюю страницу Государственного Эрмитажа в Санкт-Петербурге на запрос на итальянском [Museo dell'Ermitage di San Pietroburgo], даже если на официальной странице не упоминается ни Санкт-Петербург, ни San Pietroburgo. Если американский пользователь ищет [cool tech pc vancouver, wa ], то ему выдается страница www.cooltechpc.com, несмотря на то, что на странице нигде не упоминается город Ванкувер (штат Вашингтон, США). Также мы разработали технологии, которые умеют отличать важные и неважные для конкретной страницы слова, а также учитывать, насколько свежая информация размещена на странице.

    Понимаем поисковые запросы. Для нас важно не просто осуществлять поиск по конкретным словам, содержащимся в запросе, а четко понимать, что именно хотят найти пользователи, когда задают тот или иной запрос. Наша компания совершила ряд заметных технологических прорывов в данной области. Мы разработали лучшую в своем классе систему проверки орфографии запросов, передовую систему подбора синонимов, а также мощную систему анализа понятий, содержащихся в поисковом запросе.

    Практически все пользователи сталкивались с нашей системой проверки орфографии. Эта система знает, что если пользователь ввел в поисковую строку [пояск в гуле], то скорее всего ему нужна информация о поиске в Google. В таком случае выводится сообщение: Возможно, вы имели в виду: поиск в гугле. Если же пользователь набрал [пояск кожаный], система понимает, что он ищет кожаный пояс. Осуществлять такой анализ одновременно на нескольких языках чрезвычайно сложно, но Google успешно с этим справляется.

    Подбор синонимов является ключевым аспектом понимания запросов. Это одна из самых трудных задач, которыми мы занимаемся в Google. Несмотря на то, что подбор синонимов зачастую очевиден для человека, в области автоматической обработки текстов эта проблема еще не решена. Как пользователю мне не хотелось бы слишком задумываться над тем, какие именно слова использовать в своих запросах. Часто мне вообще неизвестно, какие слова лучше выбрать. В таких случаях в дело вступает наша система подбора синонимов, которая способна выполнять сложнейшие модификации запросов. Например, она знает, что в запросе [ДР Аллы Пугачевой] сочетание ДР означает день рождения, а в запросе [ДР Рим] – слово древний. Когда пользователь ищет [логический философский трактат Витгенштейна], он получает результаты, относящиеся к «Логико-философскому трактату» Людвига Витгенштейна, а по запросу [реляционные БД] система автоматически находит информацию о реляционных базах данных. Мы добились такого уровня понимания запросов почти для ста различных языков, что является для меня предметом особой гордости.

    Еще одна технология, которую мы используем в нашей системе ранжирования результатов, это определение понятий, интересующих пользователя. Она позволяет значительно повысить релевантность поиска. Например, наши алгоритмы понимают, что по запросу [Казанова певица] пользователю необходима информация о певице Сати Казановой, а не об известном ловеласе XVIII века Джакомо Казанове. Но мы не останавливаемся на идентификации, мы обогащаем результаты поиска адекватными концепциями. Например, если пользователь ищет информацию о [влиянии компьютера на человека], то ему хочется узнать не столько о том, как компьютер влияет на мировосприятие человека, сколько о его воздействии на здоровье и психику. Или если пользователь вводит [институт Баумана], то его интересует Московский Государственный Технический Университет имени Баумана. В наши алгоритмы анализа запросов встроено множество подобных разработок, и, как я уже говорил, мы умеем анализировать запросы практически на всех языках, которые поддерживает Google.

    Понимание пользователей: Наша работа по пониманию пользователей заключается в том, что мы стараемся выдавать именно те результаты, которые реально нужны людям, а не просто слова, которые были введены в строку поиска. В первую очередь для этого применяется наша система локализации, передовая технология персонализации, а также ряд других выдающихся достижений, например, Универсальный поиск.

    В нашей работе по локализации мы реализуем наш базовый принцип — наилучшее качество результатов поиска с учетом местной специфики в любой точке земного шара. Один и тот же запрос, набранный пользователями в различных странах, может давать абсолютно разные результаты. Например, если пользователь в США ищет [bank], он должен получить информацию об американских банках. А если то же самое слово ищет пользователь в Великобритании, то он, скорее всего, ищет либо производителя модной одежды и обуви «Bank Fashion», либо информацию о британских финансовых институтах. Аналогичный запрос должен выводить местные финансовые институты в таких странах, как Австралия, Канада, Новая Зеландия, Южная Африка. Забавные вещи начинаются, когда тот же самый запрос вводят в Египте, Израиле, России, Саудовской Аравии, Швейцарии или Японии. Аналогично запрос [football] относится к абсолютно разным видам спорта в Австралии, Великобритании и США. В этих примерах мы показали, как мы умеем правильно отображать локализованные версии одного и того же понятия (финансовые институты, виды спорта и т.д.). Однако один и тот же запрос может означать совсем разные вещи для пользователей в разных странах. Например, [Côte d'Or] – это географический регион во Франции. Но в соседней Бельгии – это крупный производитель шоколадных изделий. И мы умеем правильно понимать этот запрос.

    Персонализация – это еще одна мощная возможность нашей системы поиска. Мы умеем адаптировать результаты поиска к потребностям конкретных пользователей. Пользователи, которые вошли в Google под своей учетной записью и подписались на сервис «История веб-поиска», имеют возможность получать результаты, которые лучше отвечают их запросам, чем общий поиск Google. Например, если человек, которого интересует железнодорожная тематика, вводит [локомотив], то он получит больше информации о локомотиве как транспортном средстве. Другие же пользователи получат, в первую очередь, информацию о футбольном клубе «Локомотив». Точно так же, если вы предпочитаете страницы конкретного интернет-магазина, то при поиске товаров вы получите больше результатов именно со страниц этого магазина. Как показывают наши опросы, пользователи считают, что персонализованный поиск дает более качественные результаты, чем неперсонализованный.

    Еще один пример того, как мы предугадываем желания пользователя – это запрос [chevrolet magnum] На самом деле Magnum производит Dodge, а не Chevrolet, поэтому в выдаче мы также предлагаем результаты для [dodge magnum ].

    Наш Универсальный поиск – еще один пример того, как мы умеем правильно понимать пользователей и выдавать именно те результаты, которые им действительно нужны. Например, на запрос [стокгольм] пользователь получает не только важные веб-страницы о шведской столице, но и карту города, и картинки с его видами. Сейчас мы также показываем свежие новости о Стокгольме.

    Я мог бы продолжать бесконечно долго, приводя примеры наших технологий, обуславливающих передовой уровень системы ранжирования Google. Однако мы прекрасно осознаем, что поиск информации не является окончательно решенной проблемой. На многие запросы мы пока не умеем выдавать удовлетворительные результаты, и каждый из таких запросов – это возможность улучшить нашу систему ранжирования. Я уверен, что те многочисленные технологии, которые сейчас разрабатывает наша команда, позволят нам в самом ближайшем будущем достичь существенного повышения качества нашего поиска.

    Я надеюсь, что два моих поста о ранжировании Google позволили вам убедиться в том, что мы в Google живем и дышим поиском, и наша страстная увлеченность им сегодня сильна как никогда. Мы гордимся тем, что у нас очень хорошая система ранжирования, и мы невероятно много работаем изо дня в день, чтобы она становилась еще лучше.

    • –10
    • 506
    • 5
Самое читаемое