16 июля 2014 в 13:07

Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы

Содержание:


1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Цели:



Увеличить точность нахождения области губ разрабатываемой системы для пользователей с различными типами лица, цвета кожи, особенностей строения губ, характеристикам окружающей среды, освещения и так далее.

Задачи:



Провести фотографирования вариаций губ пользователей в различных положениях для увеличения точности системы ручным способом. Реализовать библиотеку базы данных системы по различным типам губ в движении на основе свободной системы управления базами данных (СУБД).

Введение



В предыдущих отчетах мною были проанализированы различного рода цветовые пространства, оптимальные для выделения объектов на заданном классе изображениях. Были исследованы различные алгоритмы распознавания человеческого лица и его характеристик. Также рассмотрены разного рода математические модели, которые могут использоваться для обработки визуальных данных в режиме реального времени. На основе проведенного исследования был реализован свой собственный алгоритм нахождения области губ. Однако точность активной контурной модели интересуемого объекта в представленном решении не всегда соответствует действительности. Так как перед нами стоит задача реализовать пользовательский продукт, то для увеличения точности модульного визуального решения в данном научном исследовании перед нами стоит задача собрать библиотеку данных по различным типам губ пользователей.

1. Фотографирование вариаций губ с разными типами лиц.



Так как представленной системе по разным причинам не всегда удавалось правильно провести локализацию области губ самостоятельно, то для того чтобы технология стала более эффективной было решено исследовать разные типы губ пользователей вручную, чтобы занести исходные данные на следующем этапе в базу данных системы.

Для осуществления данной задачи тестирования было проанализировано движение губ 18 пользователей. Исходные данные были сфотографированы вручную. Рисунок 1 демонстрирует лица пользователей с местом локализации области губ во время произношения речи.

image
image

2. Составление базы данных губ системы на базе MySQL.



MySQL — свободная система управления базами данных (СУБД). MySQL является собственностью компании Oracle Corporation, получившей её вместе с поглощённой Sun Microsystems, осуществляющей разработку и поддержку приложения [1]. Распространяется под GNU General Public License или под собственной коммерческой лицензией. Помимо этого разработчики создают функциональность по заказу лицензионных пользователей, именно благодаря такому заказу почти в самых ранних версиях появился механизм репликации.

Репликация — механизм синхронизации содержимого нескольких копий объекта. Под этим процессом понимается копирование данных из одного источника на множество других и наоборот, где:
• master — главный сервер, данные которого необходимо дублировать;
• replica — починенный сервер, хранящий копию данных главного[2].

MySQL является решением для малых и средних приложений. Входит в состав серверов WAMP, AppServ, LAMP и в портативные сборки серверов Денвер, XAMPP. Обычно MySQL используется в качестве сервера, к которому обращаются локальные или удалённые клиенты, однако в дистрибутив входит библиотека внутреннего сервера, позволяющая включать MySQL в автономные программы [3]. Именно эти библиотеки и будут использоваться при создании базы данных по губам пользователей.

Гибкость СУБД MySQL обеспечивается поддержкой большого количества типов таблиц: пользователи могут выбрать как таблицы типа MyISAM, поддерживающие полнотекстовый поиск, так и таблицы InnoDB, поддерживающие транзакции на уровне отдельных записей. Более того, СУБД MySQL поставляется со специальным типом таблиц EXAMPLE, демонстрирующим принципы создания новых типов таблиц. Благодаря открытой архитектуре и GPL-лицензированию, в СУБД MySQL постоянно появляются новые типы таблиц.
image
Конечно, нет смысла помещать в базу данных всю информацию, которая у нас есть. Например, не нужно хранить там картинки, хоть MySQL это и позволяет. Помещая в базу данных двоичные образы графических файлов, мы только замедлим работу своего сервера. Прочитать файл с картинкой с диска гораздо проще и, с точки зрения потребляемых ресурсов, экономичнее, нежели соединиться из скрипта к SQL, сделать запрос, получить образ, обработать его и, выдав нужные заголовки, показать посетителю сервера. Во втором случае операция выдачи картинки потребует в несколько раз больше ресурсов процессора, памяти и диска. Также стоит помнить о том, что существуют механизмы кэширования документов, которые позволяют пользователю экономить на трафике, а при динамической генерации контента мы фактически лишаем своих посетителей этой удобной возможности [4].

Вместо картинок лучше хранить в MySQL информацию, на основе которой можно генерировать ссылки на статические картинки в динамически создаваемых скриптами документах. При реализации нашей библиотеки данных мы использовали показатели, полученные на основе изменения расстояния по уголкам губ. Данный момент представлен на рисунке 3.
image
Данные статистических изменений положения губ пользователей были затем собраны в виде отдельной базы данных на основе СУБД MySQL сервера.

Таким образом, для повышения точности системы нахождения контура губ, были сфотографированы вручную в базу данных движения губ 18 различных пользователей. Фотографии лица и положения губ пользователей первоначально были проанализированы отдельно. Затем на основе исходных данных стала собираться готовая библиотека на базе СУБД MySQL.

Несмотря на то, что СУБД MySQL позволяет сохранять фотографии губ пользователей в системе, тем не менее, мы решили отказаться от этой возможности, поскольку такая концепция усложняет работу системы, так как приходиться иметь дело с очень большой библиотекой для обработки визуального сигнала. Поэтому за основу работы нашей системы было взято фиксирование положение контуров губ пользователей в пространстве. На основе данной концепции была сгенерирована возможность автоматического сохранения статического положения губ пользователей с целью дальнейшей доработки и совершенствования системы.

В перспективе предполагается дальнейшее усовершенствование базы данных разрабатываемой системы за счет автоматического фиксирование положения губ пользователей с самым различным типом лица, цветом кожи и условиями окружающей среды, а также возможности подстраивания системы под индивидуальные особенности конкретного пользователя.

Список литературы


1) Пример разработки для СУБД MySQL: macbug.ru/macosxsample/mysql
2) Основы репликации в MySQL: habrahabr.ru/post/56702
3) Плотников Д.Ю., Малёваный Е.Ф., Аноприенко А.Я. Разработка высоконагруженного веб-приложения// Информационные управляющие системы и компьютерный мониторинг (ИУС и КМ 2012) / Материалы III международной научно-технической конференции студентов, аспирантов и молодых ученых. — Донецк, ДонНТУ — 2012, с. 431-435
4) Оптимальное использование MySQL: www.mysql.ru/docs/optimal.html
Продолжение следует
Виктор Осетров @RealSpeaker
карма
13,0
рейтинг 0,0
Самое читаемое Разработка

Комментарии (8)

  • +2
    Добавьте в начале указание на вашу же статью «Реализация и апробация алгоритма распознавания мимики», а то статья как то одиноко смотрится и непонятно к чему привязана.

    Опять удивляют минусующие — вы хоть комменты бы оставляли почему поставили минус. Статья написано отлично, и как написано в комментах предыдущей — пример по оформлению.
    ЗЫ:
    Жаль на хабре минусовать без коммента можно, а то минусятников сразу бы уменьшилось.
    • 0
      Спасибо за поддержку. Да исправил. Указал ссылки на предыдущие работы, иначе теряется картина и некоторые пользователи начинают неоправданно считать, что эта статья реклама MySQL. Это статья одна из составных частей работы — прошу не воспринимать ее как отдельный пост.
      • 0
        Пожалуйста.
        И ещё один нюанс — не забывайте про хабракат. Спасибо.
    • +4
      Ну вот мой комментарий за что я поставил минус, по идее, можно было бы написать в личку автору, но раз уж спрашивают, напишу сюда:

      Когда я прочитал статью до того как были добавлены ссылки на предыдущие статьи автора (на мой взгляд удобней было бы разместить список из статей в начале или конце текста, но не суть), все, что я там заметил, это копипаст типового текста про MySQL, банальщину о том, что в базе надо хранить координаты контуров губ, а не изображения и несколько фотографий девушек. Кстати, повелся я именно на фотографии, поскольку думал, что будет расписана алгоритмика выделения лиц и губ. Вполне понятно мое разочарование: вместо алгоритмики получить 1 абзац с более-менее полезной информацией и набор бесполезных фотографий. Ну еще подивился заумности написанного текста.

      Автору: после того, как я уже поставил минус — щелкнул на ваш профиль и уже с интересом прочитал весь цикл статей, включая ваши комментарии о том, что это научная статья. Крайне рекомендую в следующий раз не забывать указывать, что это очередная часть цикла. Ну и могу сказать, что читать «целое», а не часть, гораздо лучше и полезной информации в разы больше. Спасибо, буду с нетерпением ждать продолжения.
  • 0
    Спасибо за статьи, с большим интересом читаю!
  • +2
    Если сделать детектор дакфейса для автоматической раздачи банов, то можно и на кикстартер выдвинуться. А если он будет еще и аппаратный для работы IRL, то вообще невероятно круто
  • 0
    По фоткам понял что это в моём городе) Думал новый проект, ан нет старый добрый реал спикер) Удачи вам с интересом наблюдаю за вашим прогрессом.
  • –2
    Выборка с вариациями не совсем полная кмк.
    Такой вариант пропустили

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.