RealSpeaker Jul 14 2014 at 17:31

Определение доминирующих признаков классификации и разработка математической модели изображений мимики

6 min

8.9K

Содержание:

1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Цели

Определить доминирующие признаки классификации объекта локализации и разработать математическую модель под задачи анализа изображений мимики.

Задачи

Поиск и анализ способов локализации лица, определение доминирующих признаков классификации, разработка математической модели оптимальной под задачи распознавания движения мимики.

Тема

Помимо определения оптимального цветового пространства для построения выделяющихся объектов на заданном классе изображения, которая проводилась на предыдущем этапе исследования, немаловажное значение также играет определение доминирующих признаков классификации и разработка математической модели изображений мимики.

Для решения данной задачи необходимо, прежде всего, задать системе особенности модификации задачи обнаружения лица видеокамерой, а затем уже проводить локализацию движения губ.

Что касается первой задачи, то следует выделить две их разновидности:
• Локализация лица (Face localization);
• Отслеживание перемещения лица (Face tracking) [1].
Так как перед нами стоит задача разработки алгоритма распознавания мимики, то логично предположить, что данную систему будет использовать один пользователь, который не слишком активно будет двигать головой. Следовательно, для реализации технологии распознавания движения губ необходимо взять за основу упрощенный вариант задачи обнаружения, где на изображении присутствует одно и только одно лицо.

А это значит, что поиск лица можно будет проводить сравнительно редко (порядка 10 кадров/сек. и даже менее). Вместе с тем, движения губ говорящего во время разговора являются достаточно активными, а, следовательно, оценка их контура должна проводиться с большей интенсивностью.

Задача поиска лица на изображении может быть решена существующими средствами. Сегодня имеются несколько методов обнаружения и локализации лица на изображении, которые можно разделить на 2 категории:
1. Эмпирическое распознавание;
2. Моделирование изображения лица. [2].

К первой категории относятся методы распознавания «сверху-вниз» на основе инвариантных свойств (invariant features) изображений лица, опираясь на предположение, что существуют некоторые признаки присутствия лиц на изображении инвариантные относительно условий съемки. Данные методы можно разделить на 2 подкатегории:
1.1. Обнаружение элементов и особенностей (features), которые характерны для изображения лица (края, яркость, цвет, характерная форма черт лица и др.) [3], [4].;
1.2. Анализ обнаруженных особенностей, вынесение решения о количестве и расположении лиц (эмпирический алгоритм, статистика взаимного расположения признаков, моделирование процессов визуальных образов, применение жестких и деформируемых шаблонов и т.д.) [5], [6].

Для корректной работы алгоритма необходимо создание базы данных особенностей лица с последующим тестированием. Для более точной реализации эмпирических методов могут быть использованы модели, которые позволяют учесть возможности трансформации лица, а, следовательно, имеют либо расширенный набор базовых данных для распознавания, либо механизм, позволяющий моделировать трансформацию на базовых элементах. Сложности с построением базы данных классификатора ориентированных на самый различный спектр пользователей с индивидуальными особенностями, чертами лица и так далее, способствует снижению точности распознавания данного метода.

Ко второй категории относятся методы математической статистики и машинного обучения. Методы этой категории опираются на инструментарий распознавания образов, рассматривая задачу обнаружения лица, как частный случай задачи распознавания. Изображению ставится некий вектор признаков, который используется для классификации изображений на два класса: лицо/не лицо. Самый распространенный способ получения вектора признаков это использование самого изображения: каждый пиксель становится компонентом вектора, превращая изображение n×m в вектор пространства R^(n×m), где n и m – целые положительные числа. [7]. Недостатком такого представления является чрезвычайно высокая размерность пространства признаков. Достоинство этого метода стоит в исключении из всей процедуры построение классификатора участия человека, а также возможность тренировки самой системы под конкретного пользователя. Поэтому использование методов моделирования изображения для построения математической модели локализации лица является оптимальным для решения нашей задачи.

Что касается сегментирования профиля лица и отслеживания положение точек губ по последовательности кадров, то для решения данной задачи также следует использовать математические методы моделирования. Имеются несколько способов определения движения мимики, самыми известными из них являются использование математической модели на основе активных контурных моделей:

Локализация области мимики на основе математической модели активных контурных моделей

Активный контур (змейка) – это деформирующаяся модель, шаблон которой задан в форме параметрической кривой, инициализированный вручную набором контрольных точек, лежащих на открытой или замкнутой кривой на входном изображении.

Для адаптации активного контура к изображению мимики необходимо провести соответствующую бинариризацию исследуемого объекта, то есть его преобразование в разновидность цифровых растровых изображений, а затем уже следует проводить соответствующую оценку параметров активного контура и вычисление вектора признаков.

Активная контурная модель определяется как:
• Множество точек N;
• Внутренних областей энергии интереса (internal elastic energy term);
• Внешних областей энергии интереса (external edge based energy term).

Для улучшения качества распознавания выделяются два цветовых класса – кожа и губы. Функция принадлежности цветовому классу имеет значение в диапазоне от 0 до 1.

Уравнение активной контурной модели (змейки) представляется выражающейся формулой v(s) как:

Где E – это энергия змейки (активной контурной модели). Первые два терма описывают энергию регулярности активной контурной модели (змейки). В нашей полярной координатной системе v(s) = [r(s), θ(s)], s от 0 до 1. Третье слагаемое – энергия, относящаяся ко внешней силе, полученной из изображения, четвертое – с силой давления.

Внешняя сила определяется, исходя из вышеописанных характеристик. Она способна сдвинуть контрольные точки к некоторому значению интенсивности. Она вычисляется как:

Множитель градиента (производная) вычисляется в точках змейки вдоль соответствующей радиальной линии. Сила увеличивается, если градиент отрицательный и уменьшается в обратном случае. Коэффициент перед градиентом – это весовой фактор, зависящий от топологии изображения. Сжимающая сила – это просто константа, используется ½ от минимального весового коэффициента. Наилучшая форма змейки получается при минимизации энергетического функционала после некоторого числа итераций.

Рассмотрим основные операции обработки изображения более подробно. Для простоты предположим, что мы уже каким-то образом выделили область рта диктора. В этом случае основные операции по обработке полученного изображения, которые нам необходимо выполнить, представлены на рис. 3.

Заключение

Для определения доминирующих признаков классификации изображения в ходе проведения исследовательской работы было выявлены особенности модификации задачи обнаружения лица видеокамерой. Среди всех методов локализации лица и обнаружения исследуемой области мимики наиболее подходящими под задачи создания универсальной системы распознавания для мобильных устройств являются методы моделирования изображения лица.
Разработка математической модели изображений движения мимики основана на системе активных контурных моделей бинаризации исследуемого объекта. Так как данная математическая модель позволяет после смены цветового пространства с RGB в цветовую модель YCbCr осуществлять эффективное преобразование интересуемого объекта, для последующего его анализа на основе активных контурных моделей и выявления четких границ мимики после соответствующих итераций изображения.

Список использованных источников

1. Вежневец В., Дягтерева А. Обнаружение и локализация лица на изображении. CGM Journal, 2003
2. Там же.
3. E. Hjelmas and B.K. Low, Face detection: A survey, Journal of Computer vision and image understanding, vol.83, pp. 236-274, 2001.
4. G. Yang and T.S. Huang, Human face detection in complex background, Pattern recognition, vol.27, no.1, pp.53-63, 1994
5. K. Sobottka and I. Pitas, A novel method for automatic face segmentation, facial feature extraction and tracking, Signal processing: Image communication, Vol. 12, №3, pp. 263-281, June, 1998
6. F. Smeraldi, O. Cormona, and J.Big.un., Saccadic search with Gabor features applied to eye detection and real-time head tracking, Image Vision Comput. 18, pp. 323-329, 200
7. Гомозов А.А., Крюков А.Ф. Анализ эмпирических и математических алгоритмов распознавания человеческого лица. Network-journal. Московский энергетический институт (Технический университет). №1 (18), 2011

Продолжение следует

Tags:

Hubs: