Social media mining в Университете ИТМО

    Сегодня мы решили подготовить для вас краткую новостную заметку о новых проектах ученых и программистов Университета ИТМО. Остановимся на social media mining’е и задачах, связанных с определением географических предпочтений пользователей популярных социальных сетей.

    Фотография Franklin Heijnen CC-BY

    Найти лучшие места для туристов с помощью Instagram


    Задача: выявить локации (музеи, рестораны, кафе, достопримечательности и места для отдыха), которые интересуют главным образом местных жителей. С помощью полученных результатов расширить перечень наиболее востребованных и привлекательных мест в городе и разнообразить туристические путеводители.

    Для решения задачи с помощью social media mining’а была выбрана социальная сеть Instagram. Команда проекта, состоящая из сотрудников Института наукоемких компьютерных технологий (НИИ НКТ), объясняет свой выбор достаточно активной пользовательской базой этой социальной сети и прозрачными поведенческими паттернами, которые позволяют уточнить результаты проводимого анализа.

    Один из первых шагов на пути к анализу данных заключался в составлении профиля туриста и отсеве соответствующих пользователей. Среди основных признаков “туристического” поведения были выделены: кучность Instagram-публикаций из центральной части города (например, в Санкт-Петербурге туристы главным образом публикуют фотографии мест, находящихся на Невском проспекте) и ограниченное временное “окно” присутствия в городе (согласно официальной туристической статистике, продолжительность пребывания в городе гостей обычно не превышает пары недель).

    Поставленная задача состояла в поиске мест, о которых туристы практически не знают. Поэтому для того, чтобы получить “инсайдерскую” информацию, было решено отбросить наиболее известные туристам локаций. Их популярность и посещаемость таких мест как Казанский собор, Эрмитаж и аэропорт Пулково не вызывают сомнения, поэтому эти и другие востребованные туристами места были заведомо исключены из проведенного исследования.

    Стоит отметить, что результаты анализа (Yandex-карта популярных мест Санкт-Петербурга по категориям) были представлены на профильной конференции и вышли в виде научного материала в журнале Procedia Computer Science.


    Предсказать географические предпочтения пользователей с помощью Twitter, Instagram и Foursquare


    Задача: рекомендовать пользователям локации с помощью перекрестного анализа информации сразу из трех социальных сетей.

    Для реализации задачи группа ученых выбрала модель обучения с учителем. Здесь потребовалось учитывать не только геотеги, отражающие определенные места, рекомендованные пользователями Foursquare, но и текстовые данные (Twitter) плюс визуальные предпочтения на основе публикаций в Instagram.

    В ходе работы была реализована возможность уточнения рекомендаций за счет использования поведенческой информации от наиболее похожих друг на друга пользователей. Профилирование было проведено с помощью кластеризации на многослойном графе, который включал в себя данные из трех социальных сетей.

    Если говорить простыми словами, то такая система может порекомендовать пользователю наиболее подходящие спортивные заведения, если он сам интересуется спортом и публикует соответствующие твиты или публикации в Instagram.

    Работа была проведена учеными Университета ИТМО вместе с коллегами из Сингапура. Для этого был собран соответсвующий датасет для жителей Нью-Йорка, Сингапура и Лондона, а результаты исследования были представлены на конференции International ACM SIGIR Conference on Research and Development in Information Retrieval и отражены в статье «Cross-Domain Recommendation via Clustering on Multi-Layer Graphs».

    Другие материалы из нашего блога на Хабре:


    Метки:
    Университет ИТМО 135,71
    IT's MOre than a University
    Поделиться публикацией
    Комментарии 1
    • 0
      Расскажите пожалуйста, как студенту присоединиться к каким-то исследованиям.
      Я понимаю, что вопрос наивный, но тем не менее. Куда идти и с кем разговаривать?

      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

      Самое читаемое