Pull to refresh
VK
Building the Internet

Жизнь в поисковых запросах: немного о связи между «свадьбой» и «платьем»

Reading time3 min
Views8.7K
С рождением Интернета и поисковых систем появились новые возможности для изучения человеческого поведения. Каждый раз, когда пользователь делает запрос в поисковой строке, он делится крупицей информации о своей жизни и интересах.

Обобщая запросы от миллионов людей, мы можем выявлять тенденции, динамику и некоторые взаимозависимости при изменении интересов у определённых групп людей.

Подобные исследования обеспечивают простор как для деятельности учёных, так и для роста эффективности работы поисковых систем. Например, анализируя взаимозависимости запросов пользователей в демографическом срезе, можно улучшить поисковые подсказки. Подобная технология уже используется в саджестах от Поиска@Mail.Ru.

Разработчики поисковых систем уделяют много внимания анализу логов поисковых запросов. Но часто такие исследования ограничиваются анализом пользовательских запросов в рамках одной поисковой сессии (обычно длящейся до 30 минут). Или же в процессе анализа больше внимания уделяется частоте запросов и обобщённым данным об их популярности. При этом, как правило, исследователи рассматривают эту информацию в краткосрочном срезе. Однако человеческая жизнь многогранна и интересы людей со временем меняются. Поэтому именно ретроспективный долгосрочный анализ логов поисковых запросов открывает по-настоящему богатые возможности для исследований.

Мы исследовали анонимные логи поисковых запросов нескольких миллионов пользователей за последний год и пришли к выводам, что:

• Поисковые запросы имеют долгосрочный эффект
• Меняются со временем
• Влияют друг на друга
• Взаимозависимы
• Различаются по половозрастным характеристикам

Показательны исследования относительной зависимости запросов, которые хорошо иллюстрируются графиками.



Горизонтальная шкала — временнАя. Нулевой день — это день, когда совершён исходный запрос «a», по отношению к которому мы исследуем корреляцию запроса «b». Слева располагаются 250 дней предшествующие запросу, справа — дни после него.

Вертикальная шкала — это «интерес пользователей». Она показывает относительную вероятность совершения запроса «b» средним пользователем, который искал исходный запрос «a» в нулевой день. Интерес может быть пониженным (меньше единицы) или повышенным (больше единицы). Единица — показывает «среднюю температуру», что обычно означает отсутствие связи между запросами.

Например, мы видим, что корреляция между запросом «новости» и «свадьба» близка к нулю:



А между «свадьбой» и «платьем» — высока. И пользователи обычно ищут платье либо за несколько дней до, либо сразу после того, как они искали «свадьбу»:



Кроме того, можно проанализировать взаимосвязь различных интересов, например «Платья» (оранжевый график) и «Отдыха» (синий график) к Свадьбе (нулевой день):



На графике видно, что люди интересуются отдыхом в среднем за 70 дней до и 150-200 дней после того как задумываются о свадьбе, в то время как интерес к платьям и свадьбе возникает практически в один день.

Сегодня мы немного рассказали о методе и его применимости, а также о том, как трактуются результаты графиков. В перспективе, анализ долгосрочных логов пользователей поможет улучшить релевантность результатов поиска. Система, основываясь на этих данных, сможет лучше понимать, какую задачу решает пользователь, вводя «короткие», односложные запросы, и предложит соответствующие его проблеме варианты ответов.

В следующих постах мы опубликуем примеры некоторых занимательных исследований, проведённых специалистами поисковой системы Поиск@Mail.Ru
Надеемся, что вам было интересно.

Рекомендуем почитать по теме:

Learning about the World through Long-Term Query Logs, MATTHEW RICHARDSON, Microsoft Research

Спасибо за внимание!
Команда Поиска@Mail.Ru
Tags:
Hubs:
+22
Comments14

Articles

Information

Website
vk.com
Registered
Founded
Employees
5,001–10,000 employees
Location
Россия
Representative
Миша Берггрен