company_banner

Лекции Техносферы. Инфопоиск. Часть 2 (весна 2017)

    image


    Предлагаем вашему вниманию вторую часть учебного курса, посвящённого информационному поиску.


    Все пользователи интернета имеют опыт работы с поисковыми системами, регулярно вводят туда запросы и получают результаты. Поисковые системы стали настолько привычными, что уже сложно себе представить, что когда-то их не было, а качество современного поиска воспринимается как данность, хотя ещё пятнадцать лет назад всё было совершенно иначе. Однако современная поисковая система является сложнейшим программно-аппаратным комплексом, создателям которого пришлось решить огромное количество практических проблем, начиная от большого объёма обрабатываемых данных и кончая нюансами восприятия человеком поисковой выдачи.


    В нашем курсе мы рассказываем об основных методах, применяемых при создании поисковых систем. Некоторые из них — хороший пример смекалки, некоторые показывают, где и как может применяться современный математический аппарат.


    Список лекций:


    1. Лингвистика. Основы обработки текстов
    2. Коллокации, N-граммы, скрытые марковские цепи
    3. Текстовое ранжирование. Языковые модели
    4. Оценка качества поиска. Сплиты. Асессоры
    5. Ссылочное ранжирование
    6. Поведенческое ранжирование
    7. Машинное обучение в ранжировании. Часть 1
    8. Learning to Rank 2
    9. Поиск с использованием нейронных сетей
    10. Хитрые модели текстового ранжирования
    11. Мультимедиа-поиск

    Курс ведут:


    • Дмитрий Соловьёв, ведущий разработчик группы ранжирования Поиска Mail.Ru;
    • Константин Зелепукин, разработчик группы поиска по мультимедиа Поиска Mail.Ru;
    • Евгений Чернов, руководитель отдела анализа запросов Поиска Mail.Ru;
    • Алексей Воропаев, руководитель группы разработки рекомендательных систем Поиска Mail.Ru;
    • Владимир Гулин, руководитель разработки Поиска Mail.Ru.

    Лекция 1. Лингвистика. Основы обработки текстов



    Из первой лекции вы узнаете об этапах ранжирования, основных терминах. Познакомитесь с основными этапами лингвистической обработки документа, нормализацией и токенизацией. Рассматривается задача обработки запросов, преобразования кодировки, извлечения объектов. Обсуждаются проблемы определения языка документа, определения синонимов, расширения запросов, усечения окончаний. Рассматривается лемматизация, а также ряд других задач лингвистической обработки текстов.


    Лекция 2. Коллокации, N-граммы, скрытые марковские цепи



    Во второй лекции рассматриваются такие темы, как коллокации, методы нахождения в текстах, N-граммы, Марковские модели для обработки текстов, скрытые Марковские модели и тегирование.


    Лекция 3. Текстовое ранжирование. Языковые модели



    Вы узнаете, что такое ранжированный поиск, познакомитесь с векторной и вероятностной моделями ранжирования, а также латентными моделями.


    Лекция 4. Оценка качества поиска. Сплиты. Асессоры



    Рассматривается постановка задачи оценки качества поиска, обсуждаются типы метрик, стандартные коллекции. Вы узнаете о методике оценки бинарного и ранжирующего поиска, познакомитесь с маркерными тестами и асессорами. Также в лекции затрагиваются темы Discounted Cumulative Gain, А/Б-тестирования и сплитов.


    Лекция 5. Ссылочное ранжирование



    Лекция начинается с исторического экскурса в возникновение ссылочного ранжирования. Задаётся проблематика разнообразия поисковых запросов, по которым необходимо провести ранжирование. Вы узнаете, как индексируется анкорный текст, что такое ссылочный граф и как его строить, познакомитесь с алгоритмом HITS. Немалая часть лекции посвящена большой задаче вычисления PageRank. И в завершение затрагивается тема вычисления SiteRank.


    Лекция 6. Поведенческое ранжирование



    Из лекции вы узнаете, где брать информацию о поведении пользователей, как можно применять эти данные. Рассматривается задача и методики построения модели поведения пользователя, анализа поисковых сессий. Обсуждаются поведенческие модели: CTR, базовая, каскадная, DCM, UBM, CCM, GCM, CRA, PRM, MEM, JRE. Проводится сравнение разных моделей, разбираются их преимущества и недостатки. Рассматривается проблема релеватности и привлекательности поисковой выдачи для пользователя с помощью Dynamic Bayesian Network. Затрагиваются вопросы вычисления ClickRank, Browser Rank, и напоследок — отслеживание движения глаз пользователя при просмотре страницы.


    Лекция 7. Машинное обучение в ранжировании. Часть 1



    Задаётся терминология и ставится сама задача на проведение ранжирования. Рассматриваются необходимые для проведения ранжирования факторы. Разбирается алгоритм ранжирования DCG, подходы pointwise и pairwise. Обсуждается линейная модель ранжирования SVM, методики RankNet и LambdaRank. Рассматриваются проблемы переобучения алгоритмов, положительной обратной связи и шумных данных. Далее поднимается тема активного машинного обучения: Density Sampling, самоорганизующиеся карты, балансировка датасетов с помощью SOM-карты, алгоритм Query-by-Bagging.


    Лекция 8. Машинное обучение в ранжировании. Часть 2



    В продолжение предыдущей лекции рассматривается алгоритм ранжирования YetiRank, проводится сравнение с ранее рассмотренным алгоритмом LambdaRank. Далее вы узнаете от так называемом Listwise-подходе к ранжированию: рассказывается об алгоритмах SoftRank, AdaRank и ListNet. В заключение проводится сравнение трёх подходов: Pointwise, Pairwise и Listwise.


    Лекция 9. Поиск с использованием нейронных сетей



    Лекция посвящена вопросу поиска информации по фотографиям лиц. Описывается проблематика поиска, рассматривается методика подготовки фотографий к анализу, и различные подходы к анализу с помощью нейронных сетей.


    Лекция 10. Хитрые модели текстового ранжирования



    Рассматриваются недостатки классических моделей текстового ранжирования, недостатки LSA и Word2vec. Далее обсуждаются модели ранжирования без учителя: Doc2vec, семантическое хэширование. Затем рассказывается о моделях ранжирования, основанных на машинном переводе: объясняется, что такое статистический машинный перевод, как выполняется обработка текста, рассматривается алгоритм WTM, машинный перевод на основе слов и фраз. Заключительная часть лекции посвящена моделям ранжирования на основе нейросетей: обсуждается нейросеть Siamese, рассматриваются модели DPM, DSSM и CLSM.


    Лекция 11. Мультимедиа-поиск



    Лекция состоит из двух частей. Первая часть посвящена поиску по аннотациям, по картинкам, по аудио и видео. Вторая часть посвящена поиску по содержимому, тоже по картинкам и аудио.




    Плейлист всех лекций находится по ссылке. Напомним, что актуальные лекции и мастер-классы о программировании от наших IT-специалистов в проектах Технопарк, Техносфера и Технотрек по-прежнему публикуются на канале Технострим.


    Другие курсы Техносферы на Хабре:



    Информацию обо всех наших образовательных проектах вы можете найти в недавней статье.

    Метки:
    Mail.Ru Group 874,40
    Строим Интернет
    Поделиться публикацией
    Комментарии 0

    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

    Самое читаемое