Action information
229,74
рейтинг
16 сентября 2013 в 15:03

Разное → Десяток датчиков и одна бабушка на службе прогресса

Добрый день, Хабр!

Сегодня я расскажу тебе о конференциях ICDAR и CBDAR , состоявшихся в конце августа в стольном граде Вашингтоне. Точнее, не о конференциях целиком – наука там достаточно специфична, не зря помимо сотрудников ABBYY русскоязычных участников там было раз-два и обчёлся. Здесь речь пойдёт о работах команды под руководством учёного-энтузиаста по имени Кай Кунзе (Kai Kunze).

Область интересов Кая не вполне соответствует тематике конференций, но тесно с ней переплетается. Достаточно подробно Кай рассказал о своих разработках на своём пленарном докладе (Keynote talk) конференции CBDAR. А занимается Кай тем, что учит компьютер понимать, чем занимается пользователь. Так как большинство участников конференции (в том числе и я) слабо разбирается в «железе», то эта тема в докладах не была освещена должным образом, поэтому под катом рассказов о железе нет.
Далее я буду излагать видение этого учёного (насколько мне удалось его понять), не упоминая слишком часто, что суждения здесь принадлежат не мне, а Каю Кунзе.

На сегодняшнем этапе развития технологий узким местом для работы представляется внимание пользователя. Устройствами, которые не требуют особого внимания к себе, пользоваться удобнее. Таким образом, компьютеры должны стать проактивными. Как это должно выглядеть? Разберём на небольшом примере.

Предположим, вы ремонтируете какое-то устройство, настолько сложное, что вам приходится часто сверяться с инструкцией. Как было бы удобно, если бы кто-то услужливо открывал вам нужную страницу инструкции в зависимости от того, что именно вы сейчас делаете. Этого легко достичь, если бы этот кто-то понимал, что вы делаете и в чём у вас затруднения. Для того чтобы достичь такого понимания, и создаётся система распознавания деятельности.

Входную информацию система получает из разнообразных сенсоров, которые вешаются на человека – гироскопы, микрофоны, компас, ультразвуковые и инерциальные сенсоры и т.п. Каким образом система обучается, авторы не раскрывают, но, думаю, ничего прорывного в этом моменте нет: скорее всего, используются скрытые марковские модели, де-факто уже ставшие стандартом для распознавания непрерывных процессов. Система уже хорошо обучается и распознаёт разные виды деятельности (во время доклада Кай честно сознался, что сейчас система настраивается на конкретного пользователя, так как сигналы от разных людей, выполняющих одну и ту же работу, очень сильно варьируются). Для каждого рода деятельности нужен свой набор сенсоров. Но возникает ещё ряд проблем.

Можете ли вы представить себе, что ваша бабушка с утра навесит на себя с десяток датчиков, а при смене деятельности будет их заменять? Ну, разве только если вы – Кай Кунзе, которому именно бабушка помогла в исследованиях. Поэтому для реальной работы нужно автоматически калибровать данные с датчиков, чтобы динамически определять, на какой части тела находится датчик, и потом уже оценивать данные, получаемые с него. На самом деле уже сегодня люди носят на себе датчики, в том же смартфоне есть и гироскоп, и микрофон, по словам Кая уже достаточно чувствительные для его целей. С распространением GoogleGlasses задача будет уже совершенно реальной.

Предполагается активизировать набор баз из имеющихся у людей сенсоров, и, как прогнозирует сам Кай, между 2015 и 2020 годами точность распознавания будет более 95% – и это для обычных людей со смартфонами, а не для студентов, обвешанных датчиками.

Теперь вернёмся к теме конференций. Кай и его коллеги представили две разработки. Первая – это попытка по электроэнцефалограмме мозга выяснить, что человек читает – научную статью, новости или мангу (Кай работает в университете Осака). Причём в данном эксперименте систему обучали на одном испытуемом, а тестировали на другом. Результат пока отрицательный: что именно человек читает, выяснить не удаётся – система даёт случайные ответы. Зато очень хорошо получилось отличать чтение от просмотра видео и картинок — правда экспериментов было сделано не слишком много (трижды каждое задание), так что всерьёз о положительном результате говорить пока рано.

Вторая разработка группы, о которой они поведали на конференции, – это система eye-tracking’а для анализа того, что пользователь читает на документе. Этой системе было посвящено аж два доклада. Идея проста – небольшой камерой фиксировать направление взгляда, когда пользователь изучает какой-либо документ, – неважно, бумажный или на компьютере. Очки для этого выглядят вот так:

Перед каждым экспериментом система калибруется, предлагая пользователю последовательно посмотреть в центр документа и в четыре угла. Чтобы побороть перспективные искажения, документ пока что выбирается из базы, где хранится в неискажённом виде.

База была, прямо скажем, не очень большой, но документы из неё узнавались довольно надёжно. Система делала много запросов (на каждый уходило порядка 40 миллисекунд) и почти всегда верно узнавала, какой из документов пользователь читает.

Нужно это может быть для множества разных целей. Например, можно вести статистику из серии «только 10% пользователей дочитывают до этого места». Как это делать, было освещено в докладах. Сразу скажем – идея про контроль чтения пользовательского соглашения озвучена не была :) Докладчик продемонстрировал лог своего чтения, где было видно, как он перевёл взгляд на соседнюю страницу, встретив непонятную аббревиатуру. Для развития этой системы, помимо камеры, отслеживающей взгляд, на испытуемого надевали специальный полупрозрачный шлем виртуальной реальности (see-through head mounted display, HMD), которым можно было управлять с помощью взгляда (кнопка считалась нажатой, если пользователь смотрел на неё больше двух секунд). Выглядело со стороны пользователя это примерно вот так:



В докладе рассказали об испытаниях этого устройства. Эксперимент был таким – пользователю давали читать текст (из базы), в котором содержалась строчка «а теперь посмотри на монитор». В статье рапортовали о 100% recall (всегда, когда пользователь смотрел на экран, система это понимала) и 44% precision (более чем в половине случаев, когда система думала, что пользователь смотрит на экран, она ошибалась).

Понятно, что пока что это только научная разработка и «вырастет» ли из неё что-то, сказать трудно. Но Кай Кунзе теперь – это как раз тот человек, который взглядом может двигать указатель мыши и нажимать на плюсик, оценивая этот обзор.

Слайды большого пленарного доклада можно посмотреть здесь.

Дмитрий Дерягин
департамент разработки технологий
Автор: @57DeD
ABBYY
рейтинг 229,74
Action information

Комментарии (17)

  • +2
    За дополненной реальностью будущее. Тоже хочется сваять какую-нибудь системку.
    Никто не знает, насколько сложно сделать некоторое подобие «кинекта на коленке»?
    • +1
      А зачем ваять? не проще купить сам кинект?
      • 0
        В качестве прототипа можно так и сделать, просто использовать его как носимый сканер объемного пространства не очень удобно. Сейчас N-мегапиксельные камеры вообще ничего не стоят, да и FPGA на потоковую обработку поставить не трудно. Проблемы лишь в обработке полученной информации, в которой лично я соображаю чуть меньше, чем никак.
        • +1
          Новая модель сенсора от PrimeSense значительно компактней первой версии Кинекта и не требует внешнего питания(хватает USB), он вполне подойдет как носимый экземпляр. Но тут стоит учитывать, что обработка RGBD данных — ресурсоемкая задача, и нужен достаточно сильный вычислитель, который таскать с собой может стать проблематично.
          p.s. в области Computer Vision для систем реального времени сейчас практически не используются изображения высокого разрешения, в основном это VGA поток(как у Kinect с RGB сенсора например), или максимум 5 мегапискелей.
          • 0
            Я видел как народ тестит всякие такие штуки на связке кинект+сёрфейс про прикрепленном сзади. Выглядит вполне удобно.
            • 0
              Оно станет удобным не раньше, чем появятся полноценные очки дополненной реальности)
              А системы AR которые нужно держать в руках, в повседневной жизни использовать вряд ли удобно)
              • 0
                Для некоторых(хоть и не всех) задач подойдет форм-фактор 7-дюймового планшета или смартфона-переростка, благо эти лопаты делают сейчас все производители.
                Скрытый текст
                просмотр через 7-дюймовый планшет
              • 0
                Все зависит от задач. В некоторых случаях лучше держать в руках, чем свернуть себе шею ненароком:)
          • 0
            Просто для таких вещей не нужно пытаться использовать процессоры общего назначения (типа ARM, x86 и им подобным).
            Кстати за ссылку спасибо, видел эту новость на Хабре, но как-то не придал ей значения.

            Опенсорсные программы распознавания речи есть (CMU Sphinx), осталось найти годный (и еще лучше, бесплатный) речевой синтезатор, способный передавать эмоции.
            • +1
              Чтобы эмоции передать, их еще в тексте обнаружить надо:)
              • +1
                Для своей системы можно и указать явно
            • +1
              Ну на GPU неплохо паралелятся алгоритмы компьютерного зрения, или еще на DSP что-то считать. Но добавление того-же GPU увеличивает например энергопотребление, а значит и время автономной работы для мобильных систем.
              Есть Festival — один из лучших, на мой взгляд, речевых движков с открытым кодом, правда под Windows он вроде бы нативно не собирается.
              • 0
                Современные техпроцессы делают вычисления очень дешевыми, а вот покрытие телекомом в нашей стране пока не такое хорошее. Так что не все можно перенести в облака, хотя отказываться от этого неразумно.
    • 0
      это — точно.

      ru.wikipedia.org/wiki/Dennou_Coil
      • 0
        Одна из моих любимых картин :) Благодарю Вас, разбудили во мне приятные и тёплые воспоминания.

        p.s: когда впервые увидел Сатти вспомнил антивирус Касперского )))))))
  • +2
    После прочтения подобных статей становиться страшно. Сегодня АНБ просматривает почту — завтра они будут в автоматическом режиме распознавать, что ты делаешь и куда смотришь. А послезавтра, будут «угадывать», что ты решил сделать, и принимать соответствующие меры.
    • +1
      Наряду с закрытыми и проприетарными разработками всегда есть открытые решения, не всегда уступающие по качеству. Не нравится хранить данные в облаках — создайте свое «облако» или обвешайтесь терабайтными винтами, как повстанец.
      У каждой технологии есть две стороны и бояться AR — значит препятствовать развитию ИТ.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разное