Pull to refresh

Как ищет и как не ищет Google Maps

Reading time 3 min
Views 9.7K
На этот вопрос (см. сабж) мне иногда приходится отвечать, поскольку я работаю над альтернативным сервисом локального поиска. Google очень туманно описывает откуда берутся данные. Основными источниками для статьи стали собственные наблюдения, и эта заявка на патент.



Главное заблуждение — в том, что «Google Maps находит информацию о компаниях в интернете». Это не совсем так. Информация о вашей компании может быть на сотне проиндексированных веб-страниц, но так и не попасть в выдачу на Google Картах .


В отличии от веб-поиска, который ищет по индексу закешированных веб-страниц, Google Maps содержит структурированный каталог предприятий. Каждая запись о предприятии содержит ключ-значение поля с данными понятными для машины. Это должно позволять найти «ресторан с вегетарианским меню и предзаказом в радиусе 10км от Киевского вокзала», но чаще каталог содержит точные значения лишь о адресе и номере телефона.

Поэтому важно не как Google ищет по собственному каталогу, а откуда черпается информация.

Откуда данные в каталоге Google Maps


Как сообщает Google, каталог «совмещает информацию из разных источников, чтобы выдать лучший результат». Источники делятся на две группы:

Структурированные и полу-структурированные — это источники данных, которые легко привести в понятные для программы ключ-значение. Обычно это:
  • коммерческий базы предприятий, которые покупаются
  • веб-сайты содержащие крупные каталоги компаний; данные с этих сайтов забираются индивидуальным краулером, который регулярными выражениями выпарсивает информацию со страниц каталога
  • Google Local Business Center где владельцы предприятий сами заполняют информацию
  • KML (и аналогичные) файлы, которые используются для отображения точек с помощью Google Maps API
  • пользовательские карты

Неструктурированные — это проиндексированные веб-сайты, которые могут содержать информацию о предприятии, но данные из них не поддаются структуризации.

Как структурируется информация


Этот процесс можно описать в три основных шага:
  1. Данные, приведенные к виду ключ-значение, приходят с нескольких структурированных источников
  2. Данные о предприятии кластеризируются: сравниваются значения с разных источников и для каждого определяется точность и вес.
  3. Структурированные данные дополняются неструктурированными *

*

Структурированные данные обычно содержат точную но скудную информацию о предприятии. А это затрудняет:
  • поиск; как найти «частный детский сад» если каталог предприятий не содержит поле о форме собственности?
  • ранжирование; как определить какая «аптека» должна быть в выдаче первой, если все данные с одного каталога?
Поэтому, когда для предприятия определены основные поля (название, адрес, номер телефона), осуществляется веб-поиск по запросу:
название_предприятия+адрес_предприятия
и найденные страницы (а главное ключевые слова из найденных страниц) ассоциируются с данными о компании.

Как это не работает


Можно привести ряд примеров когда алгоритм приводит к ошибочным результатам.

Ищем «хостел» а находим консульский отдел США

Ищем хостел а находим консульский отдел США

Причина: сайты хостел-ассоциаций постоянно размещают у себя перечни посольств и консульств. Консульское отделение попало в каталог из одного из структурированных источников но было ассоциировано с сайтом hihostels.com.ua

Ищем «аренду квартиры» а находим ЖЕК

Ищем аренду квартиры а находим ЖЕК

Причина: сайты о аренде недвижимости размещают у себя перечни коммунальных предприятий. ЖЕК попал в каталог Google с одной из баз предприятий, но был ассоциирован с сайтом toprealty.org.ua

Что делать чтобы компания попала в выдачу Google Maps


Очевидно, что сколько б не содержалось в вебе информации о компании, самое важное, чтобы эта информация попала в один (а лучше в несколько) структурированных источников. Проблема в том что Google не приводит перечень баз и каталогов с которых берется информация. Единственное известное место, это Google LBC.

Итого


Google Maps работает не так прозрачно как Google Web Search:
  • Большинство пользователей не осознает как ищет Google Maps
  • Часто нельзя определить источник информации
  • Иногда результат не соответствует принципу «наименьшего удивления»

Думаю Google мог лучше.

Буду благодарен за исправления, дополнения и комментарии.

Источники


Generating structured information (patent application US 2006/0200478 A1)
Google's Local Search Patent Application (at SEO by the Sea)
Local listings: Where do they come from?
Tags:
Hubs:
+38
Comments 33
Comments Comments 33

Articles