Pull to refresh
0
Hewlett Packard Enterprise
Ускорение бизнес-результатов

Гадание на информационном шуме

Reading time 4 min
Views 7.1K
Есть довольно обоснованное мнение, что в будущем человечество рискует захлебнуться в лавине информации, которую само же и производит ударными темпами. И что для дальнейшего нашего развития все большую и большую роль будет играть алкоголь умение управлять этой лавиной. И речь здесь идет не только о разделении потока информации на нужное и ненужное, но и о способах заставить даже «белый шум» приносить пользу.

Шаги в эту сторону делают и ученые из HP Social Computing Laboratory в Пало-Альто, Калифорния. Например, на днях ее сотрудники Ситарам Азур (Sitaram Asur) и Бернардо Хуберман (Bernardo A. Huberman) опубликовали интересную работу. В ее рамках они взялись использовать всем известный Twitter для… предсказания будущего. Правда, недалекого.

А если все же отказаться от туманных цепляющих фраз в стиле желтой прессы, то в работе говорится о прогнозировании кассовых сборов кинофильмов до их выхода в прокат. Точность прогноза, основанного на анализе обсуждения фильма в твиттере, оказывается выше, чем у принятого в качестве «золотого стандарта» в киноиндустрии рейтинга Hollywood Stock Exchange. Который, в свою очередь, представляет собой побочный продукт онлайн-игры, участники которой могут за игровые деньги покупать и продавать виртуальные «акции» актеров, режиссеров, фильмов и т.д. В свое время этот рейтинг также стал настоящим прорывом.

Ситарам и Бернардо использовали API Twitter Search, чтобы в течение 3-х месяцев собирать все твиты с упоминанием 24 выбранных ими новых фильмов. В итоге они стали обладателями базы из 2,89 млн записей, каждая из которых содержала точное время публикации, имя автора и полный текст твита. Сканирование проводилось 1 раз в час. В качестве поискового запроса использовались все слова, содержащиеся в названии фильма, причем во внимание принимались только картины, выпускающиеся в широкий прокат по пятницам (традиционный день для премьер в США). Но, по понятным причинам, ученые не стали рассматривать, например, фильм «2012».

Рекламировали, рекламировали...

Первичный анализ показал, что больше всего упоминаний о каждом фильме встречается в первые выходные после его премьеры. В течение двух недель после этого главного пика всплески внимания уже не привязаны к определенному дню недели.

Рис. 1. Зависимость количества твитов о фильме от времени. День премьеры принят как нулевой

Еще один ожидаемый вывод показывает, что в течение недели до начала показа фильма, когда рекламная машина набирает полные обороты, в среднем 40% всех твитов о фильме содержит ссылки на внешние источники: постеры, трейлеры, промо-сайты и т.п. Интересно, однако, что сравнение количества твитов со ссылками с реальным успехом фильмов в прокате показало, что такие «лобовые» рекламные кампании слабо влияют на итоговые кассовые сборы (с коэффициентом детерминации 0,39). Отсюда можно сделать вывод, что нет смысла использовать Twitter только для тупого перенаправления пользователей на другие ресурсы.

Предсказание сборов

В качестве измеряемой величины твиттер-активности вокруг фильма ученые ввели твит-коэффициент, выражающий количество твитов о фильме в час:



Средний коэффициент корреляции между твит-коэффициентом и суммой кассовых сборов составил 0,90, что показывает сильную линейную зависимость между этими величинами. Отталкиваясь от этого, Ситарам и Бернардо провели регрессионный анализ зависимости, взяв в качестве переменных 7 средних твит-коэффициентов за каждый из дней недели, предшествующей премьере фильма.

Уже такая модель позволила достичь в прогнозе коэффициента детерминации 0,93, что означает очень высокую предсказуемость зависимой величины. А введение в качестве дополнительной переменной количества кинотеатров, в которых планируется показ фильма, подняло коэффициент до 0,973.

На этом этапе ученые и обнаружили, что превзошли точность прогнозов Hollywood Stock Exchange (HSX). На диаграмме ниже показаны прогноз по твит-коэффициенту (Tweet-rate) и прогноз HSX в сравнении с абсолютно точным прогнозом (красная линия).


Рис. 2. Сравнение качества прогнозов

Можно заметить, что чем менее кассовый фильм мы берем для исследования, тем ниже точность прогнозов.

Осветление темных лошадок и обманутые ожидания

Из общей картины, по которой доходы от фильма постепенно падают с течением времени, бывают исключения. Например, фильм "Невидимая сторона" не очень удачно стартовал ($34 млн в кассах), но выстрелил во вторые выходные ($40 млн). С другой стороны, часть трилогии «Сумерки» "Новолуние", благодаря рекламе набравшая $142 млн в первый уик-энд, уже во второй значительно растеряла интерес зрителей — всего $42 млн на билетах.

Причина — отзывы посмотревших фильм зрителей. Если они позитивные, это привлечет в залы новых людей. Если негативные — отпугнет и тех, кто ждал кино еще до премьеры.

Для предсказания таких поворотов, наши исследователи взяли за основу доступные всем инструменты лингвистического анализа текста: программный пакет LingPipe и сервис Amazon Mechanical Turk, предоставляющий живых добровольцев для различных работ.

Научив пакет автоматически распознавать настроение каждого твита о фильме (позитивное, нейтральное, негативное) с точностью 98%, Ситарам и Бернардо ввели отношение позитивных твитов к негативным в качестве еще одной численной меры потенциальной успешности фильма. Чем она выше — тем вероятнее, что на фильм пойдут люди.



Для «Невидимой стороны», как оказалось, это отношение после премьеры выросло почти в два раза (с 5,02 до 9,65). Для «Новолуния» — упало с 6,29 до 5. Используя эти данные в дополнение к полученным уже после премьеры твит-коэффициентам, можно с по-прежнему высокой точностью предсказывать сборы в течение еще очень долгого времени после «дня ноль».

Предсказание будущего в общем случае

Конечно, радость ученых была бы неполной (а их работа — неполноценной), если кроме этого частного примера они не попытались рассмотреть общую модель предсказаний.

В результате они вывели формулу для предсказания коммерческого успеха любого открыто рекламируемого продукта:

,

где y обозначает доход, полученный от продукта; А — величину внимания среди аудитории (аналог твит-коэффициента, измеренный различными способами в зависимости от конкретного случая); P — настроение отзывов; D — параметр доступности продукта на рынке (аналог количества кинотеатров, в которых идет фильм в рассмотренном случае). Значения β отражают коэффициенты регрессии, а ε — ошибку.

Расширение применимости этой модели на другие сферы жизни — дело следующей работы. Хорошей целью, например, станет предсказание результатов выборов. Если, конечно, y здесь не известен заранее.
Tags:
Hubs:
+24
Comments 8
Comments Comments 8

Articles

Information

Website
www.hpe.com
Registered
Founded
Employees
over 10,000 employees