1 марта в 17:11

Что такое на самом деле Big Data и чем они прекрасны. Лекция Андрея Себранта в Яндексе

Директор по маркетингу сервисов Яндекса Андрей Себрант рассказал студентам Малого ШАДа о том, что такое большие данные, и о тех, зачастую неожиданных местах, где они находят своё применение.




Bid Data как понятие у всех на слуху уже не первый год. Но точное представление о том, что же представляет собой это понятие, есть далеко не у всех, особенно это касается людей за пределами IT-сферы. Проще всего несведущему человеку объяснить это на практическом примере.

Два года назад огромная сеть магазинов Target стала использовать машинное обучение при взаимодействии с покупателями. В качестве обучающей выборки использовались данные, накопленные компанией за несколько лет. В качестве маркеров конкретных покупателей использовались банковские и именные скидочные карты. Алгоритмы проанализировали, как и в каких условиях менялись предпочтения покупателей и делали прогнозы. А на основе этих прогнозов покупателям делались всевозможные специальные предложения. Весной 2012 года разразился скандал, когда отец двенадцатилетней школьницы пожаловался, что его дочери присылают буклеты с предложениями для беременных. Когда сеть Target уже приготовилась признавать ошибку и извиняться перед обиженными покупателями, выяснилось, что девочка действительно была беременна, хотя ни она, ни ее отец на момент жалобы не знали об этом. Алгоритм отловил изменения в поведении покупательницы, характерные для беременных женщин.

Признаки больших данных
  • Volume: действительно большие (хотя размер зависит от доступных ресурсов для их обработки).
  • Variety: слабо структурированные и разнородные.
  • Velocity: обрабатывать надо очень быстро (причем и результаты часто нужны оперативно, если речь об онлайновых сервисах).

Применения могут быть самыми разнообразными. Например, сайт ancestry.com пытается построить семейную историю всего человечества, основываясь на всех доступных на сегодняшний день типах данных: от рукописных записей во всевозможных книгах учета до ДНК-анализа. На сегодняшний день им удалось собрать уже около пяти миллиардов профилей людей, живших в самые разные исторические эпохи, и 45 миллионов генеалогических деревьев, описывающих связи внутри семей.

image

Главная сложность в этой работе заключается в том, что обрабатываемые данные страдают неполнотой, в них много неточностей, а идентифицировать людей нужно по отнюдь не уникальным именам, фамилиям, датам рождения, смерти и т.п. Стандартные алгоритмы не справляются с обработкой таких данных. Однако машинное обучение позволяет учитывать все эти неточности и с большой вероятностью выдавать правильные результаты.

Другой пример – проект eHarmony. Это сайт знакомств, на котором сейчас есть около 40 миллионов зарегистрированных пользователей. В анкетах можно указывать до 1000 различных признаков. Ежедневно система делает около 100 миллионов предположений о том, что два человека могут подходить друг другу.

image

И предположения эти строятся не просто на банальном нахождении соответствий в указанных пользователями свойствах и пристрастиях. Например, выяснилось, что относительная площадь лица на фотографии в профиле может влиять на вероятность контакта между определенными людьми. Кроме того, оказалось, что люди с пристрастиями к определенным видам пищи могут обладать разной совместимостью друг с другом. Два вегетарианца с вероятностью в 44% найдут общий язык и начнут общение, в то время как два любителя гамбургеров с вероятностью 42% никаких отношений не заведут.

image

Самое интересное во всем этом, что применяя машинное обучение для принятия решений, мы перестаем понимать, на основе каких принципов они принимаются. Конечно, машинное обучение нельзя назвать искусственным интеллектом в прямом смысле, ведь решать он может только ту задачу, для которой был обучен. Но те сотни и тысячи факторов, которые принимает во внимание обученный алгоритм, могут просто не приходить нам в голову. Обучившись, алгоритм может лучше любого юзабелиста определять, какой дизайн кнопки показать конкретному пользователю, тут огромный объем данных сработает лучше опыта и умений человека. Но вот сконструировать хороший сайт с нуля при помощи машинного обучения пока не выйдет.

Посмотрев лекцию до конца, вы сможете составить общее представление о том, как работает машинное обучение. А подробнее ознакомиться с этой темой можно при помощи лекций о машинном обучении и компьютерном зрении.
+68
44050
325
elcoyot 25,5

Комментарии (11)

+7
galaxy #
Любители гамбургеров, похоже, вообще никаких отношений не заведут :(
+24
scalywhale #
Dan Ariely:
НЛО прилетело и опубликовало эту надпись здесь
0
G_Z #
Звук на 1:03:49 превращается в моно в левом канале и треском в правом.
+1
kuber #
Спасибо докладчику за качественный доклад и отличную книгу, которую он порекомендовал в конце выступления.
+1
Trept #
У меня одного впечатление, что заново открывается математическая статистика?
0
gricom #
Перезалейте пожалуйста видео на ютуб, потому что перемотка в вашем плеере не работает (ни на Винде с Firefox и Я.Браузером, ни на Убунте с Firefox)
+1
elcoyot #
Проверил все три конфигурации, перемотка работает. Вы на одном компьютере запускали? В других роликах с Яндекс.Видео перемотка работает?
0
gricom #
На двух разных (десктоп и ноутбук), причем перемотка частично работает, но при этом видео превращаются в кашу, а звук работает в течение нескольких секунд, а потом всё подвисает, и появляется круговой индикатор загрузки, как будто у плеера не получается подгрузить видео. Другие видео работают (в том числе и такие же долгие).

Нормально работает, если просто смотреть
image

После перемотки
image
0
gricom #
Кстати, сейчас проверил на древней Опере 12.16 х86_64 под той же Убунтой, на ней то же самое.
0
Trotil #
У меня проблема возникала на многих лекциях Малого и Большого ШАДа при перемотке (только в режиме HD), но другая.

Симптом: если передвигаешь ползунок во время просмотра на время t, то плеер начинает показывать 1-2 секунды видео начиная со времени t, а затем проигрывание останавливается, и начинает проигрываться снова 1-2 секунды видео начиная со времени t. Эффект заедания пластинки. Если оставить плеер в таком заедающем состоянии, изредка заедание прекращалось и проигрывание шло в нормальном режиме, но чаще всего — нет.

Пишу «возникала», потому что сейчас почему-то проблема не воспроизводится, хотя была и неделю назад, и в конце прошлого года.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.