company_banner

Machine Learning Boot Camp IV. Четвертый. Секретный. Твой

    image


    21 апреля мы открываем четвертое по счету соревнование по машинному обучению на платформе ML Boot Camp. Сегодня мы расскажем о новой задаче, обновлениях на сайте и других полезных ништяках. А если вы вдруг впервые слышите, что такое ML Boot Camp, заходите под спойлер, и мы все расскажем.


    О платформе ML Boot Camp

    ML Boot Camp — площадка для решения задач по машинному обучению. Периодически мы выкладываем на ней новые задачи и запускаем контест. Участники должны решить нашу задачу в течение месяца и прислать решение. Авторы лучших решений получат призы. В прошлом чемпионате мы дарили MacBook Air за первое место, iPad — за второе и третье и iPod nano — за 4-6 места.


    На старте участники получают условия задачи, словесное описание доступных данных — обучающую выборку. Выборка состоит из размеченных примеров — векторов описаний каждого объекта с известным ответом. Участники с помощью известных им методов машинного обучения тренируют компьютер. Обученную систему они используют на новых объектах (тестовой выборке), пытаясь определить ответ для них.


    Тестовая выборка случайно поделена на две части: рейтинговую и финальную. Общий результат на рейтинговых данных вычисляется системой и публикуется сразу, но победителем становится тот, кто получит наилучшие результаты на финальных данных. Результаты остаются скрытыми для участников до самого конца соревнования.


    В последний день чемпионата участник может выбрать два решения, которые будут представлять его в финале. Лучшее из них пойдет в зачет на таблице лидеров.


    Новая задача


    На этот раз мы предлагаем вам "Задачу с секретом". Содержательную постановку задачи мы раскрывать не будем. Она останется неизвестной до конца соревнования. Вы сможете испытать ваши аналитические способности по полной программе!


    Перед вами стоит задача классификации: на основе известного распределения по пяти классам обучающих элементов, распределить тестовые. В качестве ответа присылайте текстовый файл, каждая строка которого соответствует строке в файле с тестовыми данными и содержит номер класса (0, 1, 2, 3 или 4). Предлагаем вам целых 42 числовых признака для классификации!


    Критерием качества решения будет доля правильно классифицированных объектов. Тестовая выборка случайным образом разбита на две части в соотношении 40/60. Результат на первых 40 % будет определять положение участников в рейтинговой таблице на всем протяжении конкурса. Результат на оставшихся 60 % станет известен после окончания конкурса и определит финальную расстановку участников. Удачи!


    Выражаем огромную благодарность ННГУ им. Н. И. Лобачевского и лично Николаю Золотых и Олегу Дурандину за помощь в подготовке задачи и экспертное сопровождение чемпионата! Николай и Олег участвовали в проведении каждого нашего ML чемпионата, без них мы не осилили бы и половины того, что сделано сейчас.


    Полезные материалы


    Обучающая статья


    Если вы новичок, рекомендуем вам прочитать небольшой туториал на нашей платформе. В нем вы разберете задачу "Кредитный скоринг" и научитесь предсказывать, вернется ли к банку кредит по данным клиента.


    image
    В статье есть выжимки тестовых данных, их визуализации, куски кода на Python и все смысловые выводы


    Разбор ML BootCamp I


    На ML Boot Camp мы уже работали с анонимными данными. В закрытом студенческом контесте мы попросили классифицировать бинарные последовательности. В качестве критерия качества также выступала доля правильных ответов. Павел Швечиков добился впечатляющих 0,6785 при условии, что одни последовательности писали люди, вторые — генератор случайных чисел, а третьи — алгоритм.


    Мы попросили победителей контеста рассказать основные идеи их решения и собрали их в отдельной публикации на Хабре. Возможно, их идеи помогут вам выбрать направление движения. Посмотрите, там есть крутые визуализации:


    image
    Визуализировать можно все. Даже бинарные последовательности


    Песочница


    Потренироваться перед стартом чемпионата, в том числе на задаче про "Бинарные деревья" можно в Песочнице. Там доступны любые задачи прошедших чемпионатов, можно загрузить свое решение и узнать оценку. Для каждой задачи в песочнице есть свой лидерборд. Если новая задача покажется вам слишком сложной (или, наоборот, простой) — покоряйте остальные.


    image
    В песочнице можно решать все задачи старых контестов


    Чат в Телеграме


    Теперь благодаря официальному чату чемпионата вы можете задать свой вопрос напрямую организаторам. А еще можете попросить совета или поделиться догадками о решении. Все участники собираются здесь и штурмуют задачу. Вам помогут свежими идеями и добрыми словами.


    image
    В чате участвуют опытные машинлернеры, включая победителей прошлых контестов


    Форум


    Участники очень просили форум для вынесения туда того, что может легко потеряться в чате. Не факт, что мы успеем открыть его именно к старту состязания, но точно можем обещать, что в ближайшее время форум появится на нашей площадке.


    Два решения в качестве ответа


    С этого момента вы можете выбрать два решения в качестве финального ответа. То, что наберет больший Score на итоговой выборке станет вашим результатом в чемпионате. Это поможет вам, например, если в одном из решений у вас более устойчивая модель, но другое дает лучший результат на тестовой выборке.


    Призы


    В этот раз мы разобьем стройные ряды техники Apple в призовом фонде. За первое место подарим ноутбук MacBook Air 13, за второе и третье — умные часы Samsung Gear S3 Frontier. Если не попадете в тройку лидеров, но войдете в ТОП-6 — с вами подружится персональный облачный накопитель WD My Cloud объемом в 6TB. И, как всегда, ТОП-50 участников чемпионата получат футболки с логотипом чемпионата.


    Регистрация


    Чемпионат откроется 21 апреля в 14:00 по Московскому времени. Зарегистрироваться на платформе можно по этой ссылке. Пока движуха не началась, приходите решать задачи в Песочницу.

    • +29
    • 5,6k
    • 4
    Mail.Ru Group 765,01
    Строим Интернет
    Поделиться публикацией
    Комментарии 4
    • +3
      «42 числовых признака для классификации»

      там 233 колонки, что то не сходиться
      • 0
        Да, к сожалению, оказалось чуть больше :[
        • 0
          это изображение картинок, тот же MNIST? например судя потому как вы легко увеличил число признаков.
          вначале оставили 42 точки, а потом увеличили до 223?
          • 0
            Мы расскажем об этом, когда чемпионат будет завершен :)
            Уже делали так в прошлом году — вот задача, а вот разгадка

      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

      Самое читаемое