company_banner

Machine Learning Boot Camp IV. Четвертый. Секретный. Твой

  • Markdown

image


21 апреля мы открываем четвертое по счету соревнование по машинному обучению на платформе ML Boot Camp. Сегодня мы расскажем о новой задаче, обновлениях на сайте и других полезных ништяках. А если вы вдруг впервые слышите, что такое ML Boot Camp, заходите под спойлер, и мы все расскажем.


О платформе ML Boot Camp

ML Boot Camp — площадка для решения задач по машинному обучению. Периодически мы выкладываем на ней новые задачи и запускаем контест. Участники должны решить нашу задачу в течение месяца и прислать решение. Авторы лучших решений получат призы. В прошлом чемпионате мы дарили MacBook Air за первое место, iPad — за второе и третье и iPod nano — за 4-6 места.


На старте участники получают условия задачи, словесное описание доступных данных — обучающую выборку. Выборка состоит из размеченных примеров — векторов описаний каждого объекта с известным ответом. Участники с помощью известных им методов машинного обучения тренируют компьютер. Обученную систему они используют на новых объектах (тестовой выборке), пытаясь определить ответ для них.


Тестовая выборка случайно поделена на две части: рейтинговую и финальную. Общий результат на рейтинговых данных вычисляется системой и публикуется сразу, но победителем становится тот, кто получит наилучшие результаты на финальных данных. Результаты остаются скрытыми для участников до самого конца соревнования.


В последний день чемпионата участник может выбрать два решения, которые будут представлять его в финале. Лучшее из них пойдет в зачет на таблице лидеров.


Новая задача


На этот раз мы предлагаем вам "Задачу с секретом". Содержательную постановку задачи мы раскрывать не будем. Она останется неизвестной до конца соревнования. Вы сможете испытать ваши аналитические способности по полной программе!


Перед вами стоит задача классификации: на основе известного распределения по пяти классам обучающих элементов, распределить тестовые. В качестве ответа присылайте текстовый файл, каждая строка которого соответствует строке в файле с тестовыми данными и содержит номер класса (0, 1, 2, 3 или 4). Предлагаем вам целых 42 числовых признака для классификации!


Критерием качества решения будет доля правильно классифицированных объектов. Тестовая выборка случайным образом разбита на две части в соотношении 40/60. Результат на первых 40 % будет определять положение участников в рейтинговой таблице на всем протяжении конкурса. Результат на оставшихся 60 % станет известен после окончания конкурса и определит финальную расстановку участников. Удачи!


Выражаем огромную благодарность ННГУ им. Н. И. Лобачевского и лично Николаю Золотых и Олегу Дурандину за помощь в подготовке задачи и экспертное сопровождение чемпионата! Николай и Олег участвовали в проведении каждого нашего ML чемпионата, без них мы не осилили бы и половины того, что сделано сейчас.


Полезные материалы


Обучающая статья


Если вы новичок, рекомендуем вам прочитать небольшой туториал на нашей платформе. В нем вы разберете задачу "Кредитный скоринг" и научитесь предсказывать, вернется ли к банку кредит по данным клиента.


image
В статье есть выжимки тестовых данных, их визуализации, куски кода на Python и все смысловые выводы


Разбор ML BootCamp I


На ML Boot Camp мы уже работали с анонимными данными. В закрытом студенческом контесте мы попросили классифицировать бинарные последовательности. В качестве критерия качества также выступала доля правильных ответов. Павел Швечиков добился впечатляющих 0,6785 при условии, что одни последовательности писали люди, вторые — генератор случайных чисел, а третьи — алгоритм.


Мы попросили победителей контеста рассказать основные идеи их решения и собрали их в отдельной публикации на Хабре. Возможно, их идеи помогут вам выбрать направление движения. Посмотрите, там есть крутые визуализации:


image
Визуализировать можно все. Даже бинарные последовательности


Песочница


Потренироваться перед стартом чемпионата, в том числе на задаче про "Бинарные деревья" можно в Песочнице. Там доступны любые задачи прошедших чемпионатов, можно загрузить свое решение и узнать оценку. Для каждой задачи в песочнице есть свой лидерборд. Если новая задача покажется вам слишком сложной (или, наоборот, простой) — покоряйте остальные.


image
В песочнице можно решать все задачи старых контестов


Чат в Телеграме


Теперь благодаря официальному чату чемпионата вы можете задать свой вопрос напрямую организаторам. А еще можете попросить совета или поделиться догадками о решении. Все участники собираются здесь и штурмуют задачу. Вам помогут свежими идеями и добрыми словами.


image
В чате участвуют опытные машинлернеры, включая победителей прошлых контестов


Форум


Участники очень просили форум для вынесения туда того, что может легко потеряться в чате. Не факт, что мы успеем открыть его именно к старту состязания, но точно можем обещать, что в ближайшее время форум появится на нашей площадке.


Два решения в качестве ответа


С этого момента вы можете выбрать два решения в качестве финального ответа. То, что наберет больший Score на итоговой выборке станет вашим результатом в чемпионате. Это поможет вам, например, если в одном из решений у вас более устойчивая модель, но другое дает лучший результат на тестовой выборке.


Призы


В этот раз мы разобьем стройные ряды техники Apple в призовом фонде. За первое место подарим ноутбук MacBook Air 13, за второе и третье — умные часы Samsung Gear S3 Frontier. Если не попадете в тройку лидеров, но войдете в ТОП-6 — с вами подружится персональный облачный накопитель WD My Cloud объемом в 6TB. И, как всегда, ТОП-50 участников чемпионата получат футболки с логотипом чемпионата.


Регистрация


Чемпионат откроется 21 апреля в 14:00 по Московскому времени. Зарегистрироваться на платформе можно по этой ссылке. Пока движуха не началась, приходите решать задачи в Песочницу.

Метки:
  • +29
  • 5,3k
  • 4
Mail.Ru Group 1 037,72
Строим Интернет
Поделиться публикацией
Комментарии 4
  • +3
    «42 числовых признака для классификации»

    там 233 колонки, что то не сходиться
    • 0
      Да, к сожалению, оказалось чуть больше :[
      • 0
        это изображение картинок, тот же MNIST? например судя потому как вы легко увеличил число признаков.
        вначале оставили 42 точки, а потом увеличили до 223?
        • 0
          Мы расскажем об этом, когда чемпионат будет завершен :)
          Уже делали так в прошлом году — вот задача, а вот разгадка

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое