vladpriv Sep 6 2015 at 11:32

Vision and Sports Summer School 2015 в Праге: как это было

8 min

3.8K

Этим летом во время отпуска мне посчастливилось принять участие в Vision and Sports Summer School 2015 (VS3 2015) в Праге. О своих впечатлениях я хочу рассказать в своей статье, а возможно даже мотивировать кого-то подать заявку на участие в этой школе.

В начале пару слов о себе. Я уже в течении года учусь на докторантуре в Техническом университете в Брно на кафедре Компьютерной графики и мультимедиа. Моя исследовательская работа связана с компьютерным зрением и сервисной робототехникой. Конкретно я занимаюсь исследованием алгоритмов распознавания объектов в 3D сцене с использованием так называемых «облаков точек», получаемых с камер типа Microsoft Kinect. Для меня участие в школе является хорошей возможностью углубить свои знания основных аспектов и возможностей применения компьютерного зрения в различных сферах жизни, поскольку я только начинаю изучать эту область ИТ. Я узнал о летней школе этой весной из объявления одного из ее организаторов, который выступал с лекцией на нашем факультете. Организаторы рассылают приглашения к участию по университетам (по крайней мере, в наш университет они присылали).
Среди участников встречаются люди из разных стран: Великобритании, Франции, Украины, Словении, Чехии. Это в основном студенты профильных направлений, хотя были и студенты бакалавриата. Также в летней школе были замечены и участники из России.

О Летней школе

VS3 уже в пятый год организует Center of Machine perception, который располагается на департаменте Кибернетики факультета Электической инженерии в Чешском техническом университете (ЧВУТ) в Праге. Конкретно в лице организаторов в школе выступают Ондрей Хум, Иржи Матас (оба из ЧВУТ) и Витторио Феррари (University of Edinburgh, Великобритания).

На фото Витторио Феррари в черной футболке с левого края, Ондра Хум — в центре.
Проходила школа в течении недели (точнее 6 дней) с 17 по 22 августа на территории ЧВУТ. Лекции проходили в здании Строительного факультета ЧВУТ. Все основные объекты мероприятия можно посмотреть здесь.

Цель школы — познакомить людей, связанных так или иначе с компьютерным зрением, с текущими достижениями и актуальными задачами в этой области. Также школа является приятной возможностью познакомиться с известными в этой области специалистами и практиками и посостязаться с ними в спортивных мероприятиях. Информацию о школе можно найти на официальной странице.
В качестве лекторов были приглашены специалисты из области компьютерного зрения и машинного обучения из известных университетов со всего мира:

Jiri Matas, Czech Technical University (Prague, Czech Republic);
Krystian Mikolajczyk, University of Surray, Guildford, UK;
Vittorio Ferrari, School of Informatics of the University of Edinburgh (UK);
Raquel Urtasun, University of Toronto (Toronto, Canada);
Christoph Lampert, Institute of Science and Technology Austria (IST Austria);
Carsten Rother, TU Dresden,
Daniel Cremers, TU München (Munich, Germany),
Ondrej Chum, Czech Technical University (Prague, Czech Republic).

Школа организована в формате ежедневных теоретических и нескольких практических занятий (в первой половине дня) и спортивных мероприятий (во второй половине). В субботу был организован workshop, в котором каждый из лекторов представил текущие достижения и тренды в своей области (benchmarks). Таким образом, каждый день летней школы получился насыщенным с 9 утра до 18 вечера, только в субботу все закончилось в 14 часов. Полная программа школы этого года доступна здесь.
Кроме лекций и спортивных мероприятий был организован барбекю в среду за пределами кампуса ЧВУТ.

Регистрация и участие

Для регистрации в школе необходимо заполнить форму регистрации на сайте в разделе Registration и оплатить регистрационный взнос после получения подтверждения об участии от организаторов. Я как PhD студент заплатил 10175 крон. Сроки регистрации и оплаты указаны на официальной странице школы. Форму регистрации текущего года можно посмотреть здесь. Здесь же можно посмотреть размеры регистрационного взноса.
Существует возможность попросить свой факультет о поддержке в участии в этой школе посредством компенсации регистрационного взноса. Я и несколько моих коллег с факультета воспользовались такой возможностью.
Летняя школа предоставляет несколько вариантов поселения на время мероприятий в отелях. Вы можете посмотреть варианты поселения в этом году здесь либо выбрать свой собственный (благо, цены на отели и хостелы в этой части Праги приемлемые).

Как проходило обучение

Программа первого дня началась с регистрации в 8 часов. Каждый участник получил подтверждение об участии, программу школы на каждый день, талоны на обед в столовой ЧВУТ и индивидуальную фирменную бутылочку для воды (для спортивных мероприятий).

Лекции школы начались с вводного слова организаторов Ондры Хума и Витторио Феррари. После этого в течении всей недели следовала череда лекций по разнообразным темам, касающимся компьютерного зрения.
Krystian Mikolajczyk рассказал об извлечении и сопоставлении (matching) локальных признаков для решения различных задач компьютерного зрения: от распознавания объектов и создания панорам до технологий ориентирования SLAM в робототехнике. Здесь было особое внимание уделено вопросу инвариантности детектора по отношению к различным видам трансформации, в частности к афинной трансформации и масштабированию (scaling).

Ондрей Хум рассказал о решении задачи поиска подобных изображений на основе набора признаков (bag of words) в изображении, в частности об использовании метода “ближайших соседей” (K-mean) в пространстве признаков. В конце лекции Ондра Хум показал интересный проект, разработанный его коллегами из ЧВУТ, который выполняет поиск подобных изображений для заданного фрагмента изображения. Это приложение позволяет пользователю выделить рамкой на изображении интересную деталь (например, скульптуру на фасаде собора) и в ответ выдает все релевантные изображения, которые могут содержать эту деталь с той же самой перспективы, с различных точек обзора, в различных масштабах и даже более детальные. Разработчики приложения также сумели выполнить 3D реконструкцию архитектурных объектов на основе коллекции изображений для лучшего и более “умного” поиска подобий.

Карстен Розер в рамках лекции MRF/CRF for Computer vision рассказал о Random fields (марковские случайные и условные случайные поля), их применении для решения задач интерактивной сегментации изображений, denoising (подавления шума в изображении) и стерео сопоставления.

Кристоф Лампер рассказал о структурированных моделях предсказаний (Structured prediction models), описал стандартную регрессию, вероятностные графические модели, такие, как Factor graphs, вероятностный логический вывод и структурные SVM.
Витторио Феррари рассказал о применении техники Weakly supervised learning (WSL) для обучения визуальных моделей при решении задачи семантической сегментации, об использовании Convolutional neural networks в WSL, и сравнил Weakly supervised learning c Full supervised learning.
Даниэл Кремерс в рамках лекции Variational methods & Geometric reconstruction рассказал как с помощью вариационных методов можно оптимизировать решение некоторых задач компьютерного зрения на примере сегментации объекта в изображении, 3D реконструкции и построении карт местности посредством техник типа SLAM.

Иржи Матас рассказал о визуальном слежении в видео, о различных методах обнаружения объекта для слежения и непосредственно слежения, а также о техниках обучения в процессе слежения.
Ракел Уртасан рассказала об основах Deep structured learning, описала концепцию Convolutional neural networks и их применение в задачах классификации, локализации объекта и семантической сегментации, а также рассказала о применение графических моделей (CRF, MRF) в комбинации с CNN.
С программой субботнего workshopа желающие могут ознакомится по ссылке. Больше всего мне запомнились выступления Кристиана Миколайчика и Ракел Уртасан. Кристиан Миколайчик рассказал об автоматической аннотации игр в теннис благодаря отслеживанию траектории мяча и распознаванию действий игроков. Ракел Уртасан рассказала о последних проектах в области autonomous driving: локализации автомобиля, планировании пути и 3D реконструкции городских улиц на основе данных стереокамер. Здесь несколько фотографий с лекций воркшопа.

Что касается практики, то было проведено два практических занятия.
Первое практическое занятие было посвящено теме лекции Карстена Розера — MRF/CRF for Computer Vision. Занятие проводилось в компьютерной аудитории на компьютерах с установленной Windows Server 2012 в программе MATLAB. Задания были следующего плана. Задание 1 было посвящено интерактивной сегментации изображения. Нужно было изучить логику работы скрипта для сегментации изображения и исследовать влияние различных параметров алгоритма на результат сегментации. Скрипт принимал аннотованное изображение с выделением области фона и объекта с помощью мазков кисти синего и красного цветов соответственно (цвета пикселей под мазками использовались алгоритмом). Также задание 1 требовало изменить скрипт, чтобы оптимизировать сегментацию для достижения лучшего результата. Второе задание заключалось в решении задачи подавления шума и требовало найти самые оптимальные значения параметров для получения наилучшего результата. Практическое задание позволило не только поверхностно понять теорию использования случайных полей на практических задачах, но и получить опыт работы в MathLab.

Второе практическое задание было посвящено извлечению признаков и поиску подобных изображений с их помощью. Вёл занятие Ондра Хум. Было дано два задания. Первое задание касалось Bag of words и Inverted files, которые были представлены на лекции в понедельник. Было необходимо самостоятельно реализовать скрипт для поиска изображений для заданной базы данных, представленной в виде матрицы: строки матрицы представляют собой представление bag of words для одного документа (значения признаков), а каждый столбец — одно слово (признак).

В задании были даны инструкции, какие последовательные шаги нужно выполнить и какие функции и типы данных MATLAB нужно использовать. Также на помощь участникам были даны слайды с лекции. В начале нужно было построить матрицу для базы данных на основе имеющейся структуры данных и весов всех слов. Интересным моментом было вычисление параметра idf — веса для каждого визуального слова по формуле:

idf(X) = log(# documents / # documents containing X)

Здесь требовалось вычислить число документов, содержащих слово X.
После построения матрицы базы данных необходимо было выполнить запрос на поиск подобных изображений для заданного фрагмента. Результат выполнения запроса был таким:

Таким образом, задания были даны не просто запустить на выполнение и изучить логику алгоритмов, но и требовали некоторой алгоритмической сноровки для нахождения метода решения проблемы.

Спортивные мероприятия

В последний месяц перед школой каждому участнику было прислано сообщение от организаторов школы с просьбой выбрать интересующие виды спорта. При организации расписания школы организаторы распределили всех участников по группам на каждый день так, что каждый день было организовано несколько групп по видам спорта. У меня был такой план: понедельник — бадминтон, вторник — стрельба из лука, среда — настольный теннис, четверг — волейбол, пятница — соккер (футбол).
Так выглядит спортивный зал для футбола, бадминтона и волейбола.

Заключение

Школа закончилась, но осталось большое число эмоций и воспоминаний на долгое время. Что хотелось бы сказать в заключение о летней школе? Как показала программа лекций, перспективным трендом становится машинное обучение в компьютерном зрении: начиная от графических моделей (CRF и MRF) до глубокого обучения с быстро растущей популярностью конволюционных сетей. Что меня в частности порадовало, так это растущее число разработок в области стереозрения, например 3D реконструкция и визуальная навигация для автономных автомобилей. По моему мнению, здесь было недостаточно много практических занятий. Тем не менее проведённые практики познакомили с довольно богатым языком программирования MATHLAB, который имеет очень мощные и практичные особенности типа построения scarce матриц. Также я узнал о нескольких хороших книгах по CV, которые меня заинтересовали и которые также советую читателям:

David A. Forsyth, Jean Ponce — Computer Vision: A Modern Approach
Kenichi Kanatani — Understanding Geometric Algebra: Hamilton, Grassmann, and Clifford for Computer Vision and Graphics.
Richard Szeliski — Computer Vision: Algorithms and Applications.

Каждый участник находит что-то полезное для себя в этой школе и, я уверен, участие в ней не проходит даром. Информация об организации школы каждый год становится доступной в апреле. Как только появится информация о Vision and Sports Summer School 2016, я напишу короткий анонс о предстоящей школе. Благодарю за внимание и желаю удачи всем, кто проявит желание и отправит заявку на участие в будущих школах VS3!

PS. Возможны некоторые неточности при описании сжатого содержания лекций, так как я не силен в техниках машинного обучения и мог что-то некорректно понять в изложений лекций лекторами.

Tags:

Hubs:

Image processing

If this publication inspired you and you want to support the author, do not hesitate to click on the button