14 июля 2014 в 11:42

Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений из песочницы

Содержание:


1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Технологии автоматического обнаружения и распознавания лица используются в ряде систем компьютерного зрения: биометрическая идентификация, человеко-машинный интерфейс, зрения роботов, компьютерная анимация, системы идентификации и детекционирования в фото-видео камерах и так далее. Основное отличие данных приложений между собой – это целевые классы, которые являются объектами распознавания. Целевыми классами в задачи распознавания могут являться: лицо с элементами перекрытий, изображение лица человека, живое лицо человека, мимика лица, черты лица, пол, раса, возраст, личность человека и другие характеристики. Для удобства выделим целевые классы в отдельные группы, которые при попытке построения автоматической системы обнаружения лица образуют сложности:

— Сильно варьирующийся внешний вид лица у разных людей;
— Даже относительно небольшое изменение ориентации лица относительно камеры влечет за собой серьезное изменение изображения лица;
— Возможное присутствие индивидуальных особенностей (усы, борода, очки, морщины и так далее), которые существенно осложняют автоматическое распознавание;
— Изменение выражения лица может сильно сказаться на том, как лицо выглядит на изображении;
— Условия съемки (освещение, цветовой баланс камеры, искажения изображения, привносимые оптикой системы, качество изображения) в значительной степени влияют на получающееся изображение лица[1].

Задача обнаружения на изображении является первым шагом, предобработкой в процессе решения задачи «более высокого уровня» (например узнавание лица, распознавание выражения лица и так далее). Существующие алгоритмы обнаружения лица можно разбить на две категории: методы эмпирического распознавания и методы моделирования изображения лица. К первой категории относятся методы, отталкивающиеся от опыта человека в распознавании лиц и делающие попытку формализовать и алгоритмизовать этот опыт. Вторая категория нацелена на инструментарий распознавания образов, рассматривая задачу обнаружения лица как частный случай общей задачи распознавания. По набору тренировочных изображений строится модель изображения лица, и задача обнаружения сводится к проверке входного изображения на удовлетворение полученной модели.



Среди методов эмпирического обнаружения лица выделяют семейство методов, использующих как цвет кожи как признак присутствия лица. Вообще, цвет – это совокупность разных световых волн с преобладанием определенных частот. Для того чтобы описать цветовую информацию необходимо, прежде всего, избавиться от цвета, то есть преобразовать его в такую форму, которая позволяет осуществлять непосредственное измерение, а именно в форму яркостных характеристик. Каждый из использованных фильтров создает после себя однородный цветовой поток, то есть, по сути, тоновое изображение, которое достаточно легко фиксировать и кодировать – преобразовывать в цветовую форму. Фильтры необходимы для того, чтобы получить возможность фиксировать получение тона.

Для решения данной задачи необходимо выяснить, сколько и каких фильтров достаточно для анализа цветовой информации. Как показывает практика, для решения этой проблемы достаточно всего трех фильтров (красного — red, зеленого — green и синего — blue цветов).


Рис. 1 Пример использования цветовых фильтров: красного, зеленого и синего

Методы, связанные с анализом цветового пространства получили широкое распространение, поскольку сочетают в себе несколько важных преимуществ: малая вычислительная сложность; высокая скорость обработки; простота реализации; устойчивость к изменению ориентации и масштаба лица; устойчивость к изменению освещения (за исключением цветного); устойчивость к изменению выражения лица и частичного перекрытия лица другим объектом сцены.[1]

Так как выделение по цвету человеческой кожи и губ достаточно устойчиво, их цветовые характеристики практически не зависят от освящения. Поэтому цветовое пространство, в котором будет осуществляться поиск, не должно учитывать освещение. Этому условию удовлетворяет цветовое пространство RGB (red, green, blue), которое используется при построении цветовых классов.

При обнаружении на изображении областей, имеющих цвет кожи, наряду с обычным RGB представлением цвета, то есть интенсивностями красной, зеленой и синей составляющей цвета, используется дополнительно представление, основанное на цветности – HSL представление (hue – цвет или оттенок, saturation – насыщенность, luminosity – яркость):


Рис 2. HSL представление

H=arctg(y⁄k)/2k;
S=√(k^2+y^2 );
L=(R+G+B)/3;
Где:
k=R-0,5-(G+B)
y=√3⁄2(G-B)
[2]

Цветовое пространство RGB имеет то преимущество, что его компоненты для компьютера первичны, и их использование обеспечит наибольшую скорость обработки. Компоненты обычно нормируются на их сумму[3,4]. Из компонентов этого пространства наиболее популярны: красная и зеленая цветовые гаммы. Иногда вместо самих компонентов используются цветоразности[4].

Использование цветовое пространство HSL больше подходит для анализа цвета, поскольку его компоненты прямо связаны с цветом. Однако его употребление ограничивает необходимость выполнения вычислений арктангенса и квадратного корня, что требует определенных временных затрат.

В последнее время в связи с ростом быстродействия компьютеров данное цветовое пространство (HSL) применяется чаще[5], но его применение для решения нашей задачи: создания мобильного приложения распознавания мимики — представляется не совсем разумным. Так как системные требования мобильных устройств: производительность, многозадачность, качество картинки VGA камер и так далее — пока не удовлетворяет в полной мере нашим требованиям для реализации мобильного приложения на базе HSL цветового пространства.

Реализация технологию распознавания мимики, используя за основу RGB пространство, также не является оптимальным решением. Так как данное пространство имеет недостатки, связанные с ограниченностью в цветовой гамме.


Рис. 3 Пример цветовой ограниченности RGB пространства

Поэтому, учитывая специфику и недостатки цветовых пространств RGB (ограниченность в цветовой гамме) и HSL (завышенные системные требования для обработки данных), предполагается взять за основу «компромиссное» решение – цветовая модель YCbCr (или YUV), которая, по сути, является способом кодирования RGB информации. В модели YCbCr цвет представляет собой 3 компонента: яркость (Y) и две цветоразности (U и V).


Рис. 4 Пример цветовой модели YCbCr, где Y=0,5

Таким образом, в качестве цветового пространства, в рассматриваемой системе, выбрано: {R,G, Cb, Cr}, где:
R=r/(r+g+b);
G=g/(r+g+b);
а:
Cb и Cr – соответствующие компоненты цветового пространства YCbCr.
Как было упомянуто ранее, красная и зеленая (G) составляющая RGB пространства, являются наиболее популярными решениями, к тому же их взаимодействие вместе с показателями цветоразности (Cb) и (Cr), позволяет максимально избежать — влияние интенсивности освещения, что позволит нам проводить четкое разделение области кожи лица и области кожи губ. Среди достоинств YCbCr цветовой модели необходимо также выделить быстрый переход и преобразование данной цветовой модели из формата RGB в новое цветовое пространство {R,G, Cb, Cr}.


Рис. 5 Пример смены цветового пространства анализируемого изображения

Заключение:



Так как перед нами стоит задача разработать метод выделения потенциальных областей лиц, обладающий следующими свойствами: устойчивость к неизбежным неточностям цветовой сегментации, точность выделения областей, высокая скорость работы. Важным требованием является сохранение высокой скорости работы методов наряду с увеличением устойчивости, чтобы сохранить важнейшее преимущество использования цвета кожи для обнаружения лица – быстродействие. То поэтому, исходя из поставленной цели, традиционно приоритет дается цветовому пространству RGB, так как оно имеет следующий ряд преимуществ:
— Малая вычислительная сложность;
— Высокая скорость обработки;
— Простота реализации;
— Устойчивость к изменению ориентации и масштаба лица;
— Устойчивость к изменению освещения;
— Устойчивость к изменению выражения лица и частичного перекрытия лица другим объектом сцены.
Однако среди недостатков данного цветового пространства необходимо выделить:
— Не высокая устойчивость к неизбежным неточностям цветовой сегментации (слияние объектов однородных по своей цветовой гамме с цветом кожи человека в единый фон).
Для решения данного недостатка предполагается преобразование и переход в цветовую модель YCbCr от цветового пространства RGB, для реализации нового пространства {R, G, Cb, Cr}. Цветовое пространство {R, G, Cb, Cr} более надежно и четко разделяет область кожи лица и губ, максимально избегая влияния освящения; бинаризация в данном цветовом формате не представляет большой трудности для системы, по сравнению с HSL моделью. Последние условие является основополагающим, так как перед нами стоит задача реализация технологии распознавания мимики для мобильных устройств.

Библиографический список:



1. Вежневец В., Дягтерева А. Обнаружение и локализация лица на изображении. CGM Journal, 2003
2. Gupta D. Computer Gesture Recognition: Using the Constellation method.// Caltech undergraduate Research Journal, 2001, vol.1, №1. – pp. 26-31.
3. Graf H.P., Cosatto E., Gibbon D., Kosheisen M., Patajan E. Multi-modal system for locating heads and faces. – AT&T lab technical report 95.5.1, 1996
4. Vezhnevets V. Face and facial feature tracking for natural Human-Computer Interface.// GraphiCon – 2002.
5. Визильтер Ю.В., Желтов С.Ю., Ососков М.В. Система распознавания и визуализации характерных черт человеческого лица в реальном времени на персональных ЭВМ с использованием web-камеры.// GraphiCon – 2002.

Продолжение следует
Виктор Осетров @RealSpeaker
карма
13,0
рейтинг 0,0
Самое читаемое Разработка

Комментарии (9)

  • 0
    Вообще, цвет – это совокупность разных световых волн с преобладанием определенных частот.

    Цвет – это ощущение, которое возникает в нашем сознании, а не свойство лучей света. Это как путать вес и массу.

    данное пространство имеет недостатки, связанные с ограниченностью в цветовой гамме.

    Да, но цвет кожи человека не выходит за его охват. Даже не приближается к его границам.
    • 0
      Не спорю с Вами. Человек ничего не видит, ничего не ощущает. Все делает мозг. Глаза и средства обоняния, осязания — это всего лишь средство.
      Природа света волновая.
      Это одна из первых моих статей, образца 2010 года. Безусловно, в последующем я себя ни раз опровергал. Накопилось несколько исследований. Решил их по немного публиковать. Спасибо за отзыв.
    • 0
      Да все тогда это ощущение в нашем сознании а не физический мир, который старается трактоваться объективно то есть измеряемо прибором.
      • 0
        Машина в отличие от нас видит все по другому. Попытка в исследовании понять как работает компьютерное зрение, а не зрение человека.
        • 0
          Да я и не спорю. Я про комментарий выше.
      • 0
        Измерить цвет без участия человека невозможно, это не длина или давление. Современные методы измерения цвета используют детально шкалированную психофизическую реакцию человека на световые стимулы (система CIE XYZ)
        • 0
          Почему не возможно? Цвет это же отраженный свет? Фотореалистичные движки, тот же VRAY говорят что цвет вполне описывается формулами до большой степени реализма. Обмануть себя мы можем. Другое дело, что человек воспринимает, и мы используем его в качестве измерительного прибора. Но автор про машинное же зрение говорит.
          • 0
            Нет, цвет != свет (какой бы то либо, отраженный, излучаемый, пропускаемый). Легко можно найти разные излучения которые ощущаются как один и тот же цвет.
            Я не говорю что цвет невозможно описать математически. Прочитайте что лежит в основе системы XYZ, которая, в свою очередь дает фундамент для разных движков и затронутого в статье машинного зрения.
  • 0
    del

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.