0,1
рейтинг
14 июня 2013 в 18:09

Разработка → Команда Джеффри Хинтона победила в конкурсе компьютерного зрения ImageNet с двукратным преимуществом

Конкурс ImageNet состоялся в октябре 2012 года и был посвящен классификации объектов на фотографиях. В конкурсе требовалось распознавание образов в 1000 категорий.

Команда Хинтона использовала методы deep learning и сверточных нейронных сетей, а также инфраструктуру, созданную в Google под руководством Jeff Dean и Andrew Ng. В марте 2013 года Google инвестировал в стартап Хинтона, основанный при университете Торонто, тем самым получив все права на технологию. В течение шести месяцев был разработан сервис поиска по фотографиям photos.google.com.

Сервис использует сверточные нейронные сети, первоначально разработанные профессором Яном Лекуном в конце 1990-х годов. Уже тогда эта технология позволяла надежно решать задачи распознавания рукописных текстов. С тех пор значительно увеличилась мощность компьютеров, и появились новые алгоритмы широкомасштабного обучения нейронных сетей.

Что касается технической инфраструктуры, я ее частично описывал в статье Формирование высокоуровневых признаков с помощью широкомасштабного эксперимента по обучению без учителя. Подробное описание см. в статье (pdf), а я ограничусь несколькими цифрами. За счет использования локально связанных сетей, характерных для обработки двумерных изображений, удается эффективно задействовать до 32 компьютеров по 16 ядер в каждом, суммарно до 512 ядер, для обучения одной крупной нейронной сети. За счет же использования распределенных алгоритмов оптимизации и репликации обучаемых параметров число эффективно работающих параллельных процессорных ядер удается довести до десятков тысяч!

В частности, для обучения сети, победившей в конкурсе ImageNet, использовались 16 млн. изображений 100х100 пикселов. Выходной слой нейронной сети состоял из 21000 логистических классификаторов «один из всех». Общее число оптимизируемых параметров (весов нейронной сети) составило 1.7 миллиарда. Для обучения использовались 81 машин – почти 1300 ядер.
Реализация академических технологий, приобретенных Гуглом менее года назад, позволила в кратчайшие сроки разработать непревзойденный сервис поиска по немаркированным изображениям. Вот некоторые любопытные результаты:

Генерализация

Несмотря на значительную разницу между изображениями в обучающей и тестовой выборках, поисковая система достаточно хорошо справляется с обобщениями. Например, для обучения понятию «цветок» могли использоваться фотографии цветов, сделанные макросъемкой, с идеальной композицией, включающей единственный цветок в центре кадра. Обученная же сеть находит цветы на любительских фотографиях с произвольной композицией и масштабом.

image
Изображение цветка из обучающей выборки


image
Изображение, на котором система обнаружила цветы


Мультимодальные классы

Сеть оказалась способна распознавать классы изображений, значительно различающиеся по внешнему виду. Например, к классу «автомобиль» система относит и фото экстерьера, и интерьера автомобилей. Это тем более удивительно, что в выходном слое используются по-сути линейные классификаторы, разделяющие многомерное пространство признаков.

Классификация абстрактных понятий

Система неплохо справляется с абстрактными или сильно обобщенными классами, такими как «танец», «поцелуй», «еда». Это интересно, т.к. для таких понятий неочевидны простые визуальные признаки, такие как цвет, текстура или форма.

image
image
На этих изображениях обнаружена еда


Осмысленные ошибки

В отличие от многих систем компьютерного зрения, когда данная система ошибается, ее ошибки кажутся вполне обоснованными. Такие ошибки вполне мог бы допустить и человек – см. например ошибочную классификацию моллюска (змея) или ослика (собака).

image
Банановый слизняк, ошибочно распознанный как змея


image
Ослик, ошибочно распознанный в качестве собаки


Распознавание узкоспециальных классов

Система оказалась способна распознавать очень специфические классы, например виды цветов (гибискус и т.п.) Для системы, способной распознавать широкие понятия, такие как «Рассвет», классификация тонких признаков удивительна.

image
Система определила, что это белый медведь...


image
… а это — медведь гризли
Сергей Подлесный @sergeypid
карма
51,9
рейтинг 0,1
Data science
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое Разработка

Комментарии (36)

  • +6
    Действительно интересно, прям вижу перспективу применения такого рода сервисов для Google Glass.
    • +37
      … внимание, это — медведь гризли…
      • +54
        … мы выслали ваши координаты службе спасения, а видео — на youtube…
          • –3
            Могли бы и предупредить. Я, между прочим, кушал в тот момент, когда перешел по вашей ссылке.
            • +9
              Зверь тоже кушал, и его не предупредили (о съёмке и ссылке)
            • 0
              Да он очки протирает просто.
        • 0
          … поздравляю, Ваше видео получило десять тысяч лайков…
          • +3
            …посмертно.
      • 0
        … Написать завещание?
  • +6
    Гм, до этого я весьма скептически относился к нейронным сетям, но этот результат действительно впечатляет…
    • +4
      ну Deep Learning несколько круче обычных сетей прямого распространения. Кстати кажется в прошлом или позапрошлом году благодаря сетям с глубоким обучением удалось на задаче распознавания дорожных знаков получить точность выше чем при ручном подсчете(точность что-то в районе 99,8%, правда тестовую выборку я не видел).
  • +2
    Сервис использует сверточные нейронные сети, первоначально разработанные профессором Яном Лекуном в конце 1990-х годов. Уже тогда эта технология позволяла надежно решать задачи распознавания рукописных текстов. С тех пор значительно увеличилась мощность компьютеров, и появились новые алгоритмы широкомасштабного обучения нейронных сетей.
    Приведите пожалуйста хотя-бы одну программу, которую я могу купить, которая будет надёжно решать задачу распознавания рукописного текста. Причём с бумаги. Причём написанного обычной ручкой, а не livescribe. Последняя конечно чудо инженерной мысли, но таскать с собой специальную дорогущую ручку, плюс либо специальную бумагу, как у livescribe, либо специальный наблюдательный блок, как у wacom, у меня желания нет.
    • 0
      Решение задачи есть. Стоит «миллион», в комплект входит кластер. Все еще интересует?)
      • +1
        Интересует. Я отправляю сканы рукописей в кластер, плачу по баксу за листок. Куда слать. У того же гугла или яндекса такие кластеры есть, а сервиса нет.
        • 0
          у Abbyy разве нет? Там же был сервис для телефонов, который по фото распознает текст?
          • 0
            Наверное, печатный текст у Abbyy. Я пробовал файнридером распознавать рукописный — ноль шансов.
        • 0
          Вроде у Evernote есть фича автоматического распознавания надписей на фотографиях.
    • 0
      Понятие надежности очень растяжимо. Скажем если система будет ошибаться в каждом 6м или 10м слове, она будет надежной?
    • +3
      Вот огромная статья Лекуна 1998 года с подробнейшим изложением полной системы распознавания рукописного текста. Как водится в Америке, для применения в банках для чтения чеков. Точность распознавания 82%, работала в нескольких банках, читала по нескольку миллионов чеков ежеднено (см. в конце статьи).

      [LeCun et al., 1998]: Gradient-Based Learning Applied to Document Recognition (Proc. IEEE 1998): A long and detailed paper on convolutional nets, graph transformer networks, and discriminative training methods for sequence labeling. We show how to build systems that integrate segmentation, feature extraction, classification, contextual post-processing, and language modeling into one single learning machine trained end-to-end. Applications to handwriting recognition and face detection are described.
  • +11
    Стоит напомнить, что у Хинтона есть курс не Курсере www.coursera.org/course/neuralnets
  • 0
    Это сверточные нейросети — действительно классная штука, результаты всегда впечатляют.
  • 0
    В течение шести месяцев был разработан сервис поиска по фотографиям photos.google.com.

    Этот сервис когда-то был доступен и я опоздал? Он меня на плюса пересылает :( Очень хотелось посмотреть сможет ли система найти оригинал по срисованному рисунку, или референс, перерисованный с идеями из головы.
    • +1
      Потому что images.google.com/
      • 0
        Это старый поиск по веб-картинкам на основе текста страниц. Он не использует распознавание.
        • +1
        • 0
          Да ну… а если я свою картинку загружаю он, по вашему, с какими страницами сравнивает?
        • 0
          Мне очень жаль, но и есть тот самый сервис поиска по фотографиям, и он использует распознавание.
          • +1
            Мои извинения, я ошибся :) Нейронными сетями на images.google.com и не пахнет
    • 0
      Сервис гугла — поиск по вашим собственным фотографиям, наверное поэтому открывается окно логина с плюсы. Вот что там написано:

      Starting today, you’ll be able to find your photos more easily and connect with the friends, places and events in your Google+ photos. For example, now you can search for your friend’s wedding photos or pictures from a concert you attended recently. To make computers do the hard work for you, we’ve also begun using computer vision and machine learning to help recognize more general concepts in your photos such as sunsets, food and flowers.
      • НЛО прилетело и опубликовало эту надпись здесь
  • +1
    Результаты впечатляют и тема очень интересная. Правда, еду система могла распознавать по наличию тарелок с их весьма характерными чертами. Впрочем, это тоже очень хорошо с ее стороны.
    • +3
      Напоминает старую байку, про то, как систему обучали распознавать объект(не помню какой именно фигурировал), получили хорошие результаты, а когда систему отдали в производство оказалось, что система научилась определять правильный фон, а не сам объект)
      • +2
        Это были фотки танков стоящих на траве.
        • 0
          я эту байку слышал о фотографиях танков ночью и днем.
  • 0
    Чем-то Элизу напомнило…

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.