сегодня в 23:33

Эксперимент интеграции видео расширения в систему аудио-распознавания речи с проведением протокола испытаний

Вместо введения


Продолжаю вести серию отчетов по исследовательской работе, которую проводил на протяжении нескольких месяцев, обучаясь в университете и первые месяцы после защиты диплома. За все время работы многие элементы работы системы, которую разрабатывал, прошли переоценку и вектор работы в целом серьезно изменился. Тем интереснее было взглянуть на свой предыдущий опыт и опубликовать нигде не изданные материалы с новыми замечаниями В данном отчете публикую материалы, почти 2-х летней давности со свежими дополнениями, которые надеюсь еще не потеряли свою актуальность.

Содержание:


1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Цели:


На основе накопленного опыта в предыдущих исследовательских работах, осуществить пробную интеграцию видео-расширения в систему аудио-распознавания речи, провести протоколы испытаний, сделать выводы.

Задачи:


Рассмотреть подробно как можно интегрировать видео-расширение с программы распознавания речи, исследовать сам принцип аудио-видео синхронизации, а также осуществить пробную интеграцию разрабатываемого видео расширения в систему аудио распознавания речи, оценить разрабатываемое решение.

Введение


В ходе проведения предыдущих исследовательских работ были сделаны выводы целесообразности использования аудио-систем распознавания речи на базе открытого и закрытого исходного кода под наши цели и задачи. Как было нами определено: реализация своей собственной системы распознавания речи является очень сложной, трудоемкой и ресурсозатратной задачей, которую сложно выполнить в рамках данной работы. Поэтому нами было решено интегрировать представленную технологию видео-идентификации в системы распознавания речи, которые имеют для этого специальные возможности. Так как системы распознавания речи с закрытым исходным кодом реализованы более качественно и точность распознавания речи в них выше за счет более емкого содержания словника, то поэтому интеграция нашей видео-разработки в их работу следует считать более перспективным направлением, по сравнению с аудио системами распознавания речи на базе открытого исходного кода. Однако же необходимо иметь в виду тот факт, что системы распознавания речи с закрытым исходным кодом часто имеют сложную документацию для возможности интеграции сторонних решений в их работу с серьезными ограничениями использования системы на основе лицензионного соглашения или же это направление является платным, то есть необходимо покупать специальную лицензию на использование речевых технологий, представленных лицензиантом.

Для начала в качестве эксперимента было принято решение попробовать улучшить качество распознавания речи системы распознавания речи Google Speech Recognition API за счет работы нашего разрабатываемого видео расширения. Замечу, что на время проведения испытаний у Google Speech API на базе браузера Chrome еще не было функции распознавания непрерывной речи Google, которая в то время уже встраивалась в технологию распознавания непрерывной речи Speech Input.

В качестве видео обработки за основу взято наше решение по анализу движения губ пользователя и алгоритмам фиксирования фазы движения точек в объекте интереса совместно с аудио обработкой. С тем, что в конечном итоге получилось можно ознакомиться ниже.
image
сегодня в 23:14

6 мифов, мешающих разработчикам использовать Git перевод



Сейчас вы с трудом найдете профессионального разработчика, который не пользуется системой контроля версий (VCS) такой, как Git.
Но есть и не мало тех среди нас, кто не использует VCS по причине предвзятого мнения о системах контроля версиий.
Ниже несколько мифов и отговорок, которые препятствуют внедрению в рабочий процесс разработчика Git (или любой другой VCS).

761
7
almalini 8,0
сегодня в 22:10

5 советов по выбору SSD

Корпоративные пользователи часто сталкиваются с дилеммой, когда возникает вопрос, на чём хранить свои данные и запускать приложения. Во многих случаях необходимо сбалансировать потребность в быстром, надежном, устойчивом хранении и ограниченный бюджет. Время от времени это приводит ИТ-менеджеров к выбору низкопробных SSD накопителей, которые укладываются в бюджет. Они предполагают, что заявленные скорости и объёмы идеально подойдут для выполнения любого рода задач. Но не стоит так торопиться.

сегодня в 22:00

В Китае построят самый большой в мире лептонный коллайдер

До сих пор главные центры изучения микромира находились в Европе и США. Крупнейший в мире Большой адронный коллайдер расположен около Женевы, на границе Франции и Швейцарии. Китай пока сильно отстаёт от стран запада — его крупнейший коллайдер имеет длину окружности всего в 240 метров (БАК — 26 659 м). Но к 2028 году китайцы намерены сделать рывок в изучении физики частиц. В китайском институте физики высоких энергий заявили о начале проектирования лептонного коллайдера с окружностью 52 километра и энергией 240 гигаэлектронвольт. В перспективе лептонный (то есть такой, в котором сталкиваются лёгкие частицы — электроны и позитроны) коллайдер в том же туннеле можно «проапгрейдить» до адронного и довести энергию пучков частиц до 70 тераэлектронвольт, что в несколько раз больше предельной энергии БАК (14 тераэлектронвольт).

image
1327
ilya42 697,0
сегодня в 21:06

EMET 5.0 вышел в релиз

Компания Microsoft выпустила в релиз пятую версию инструмента EMET (EMET 5.0), о котором мы подробно писали здесь и здесь. Релизная версия заменяет собой EMET 5.0 Technical Preview 3, который был доступен пользователям до выхода этой версии в релиз. На новых технических возможностях EMET 5.0 мы подробно останавливались здесь, они включают в себя механизмы Attack Surface Reduction (ASR) и Export Address Table Filtering Plus (EAF+). Кроме этого, разработчики добавили более дружественный интерфейс (впервые был введен в EMET 5.0 TP3). Теперь вместо сухих таблиц с галочками, которые включают необходимые опции безопасности, по двойному щелчку на процессе можно посмотреть включенные для него опции с их минимальным разъяснением.



Инструмент EMET является бесплатным в использовании и продвигается Microsoft как одно из основных средств для защиты от эксплойтов, в т. ч. 0day. Во многих Security Advisory, выпускаемых компанией, вы можете увидеть отсылку именно к EMET. Инструмент, в большей степени, ориентирован на технических специалистов и содержит различные настройки, некоторые из которых выключены по умолчанию для обеспечения необходимого уровня совместимости с приложениями (EMET выполняет т. н. inline patching кода защищаемых процессов, перехватывая там API вызовы, см. ссылки выше). Тем не менее, даже для обычного пользователя, который не может разобраться со всеми настройками, EMET может быть очень полезен с настройками по-умолчанию.

сегодня в 20:11

Tesla и Panasonic подписали соглашение о строительстве «гигафабрики» аккумуляторов

Сегодня компания Илона Маска Tesla сделала первый практический шаг на пути к строительству крупнейшей в мире фабрики литий-ионных аккумуляторов, которую в планах Tesla именуют "гигафабрикой". Партнёром по строительству фабрики будет корпорация Panasonic — один из ведущих мировых производителей аккумуляторов. К 2020 году фабрика должна будет выпускать аккумуляторных ячеек на 35 гигаватт-часов в год и готовых батарей на 50 гигаватт-часов.

image
3774
7
ilya42 697,0
сегодня в 19:36

Аутентификация и авторизация в ASP.NET Web API перевод tutorial

Вы создали WebAPI и теперь хотите контролировать доступ к нему? В этой серии статей мы рассмотрим несколько вариантов защиты WebAPI от неавторизрованых пользователей. Серия будет охватывать обе стороны, и аутентификацию и авторизацию пользователей.

  • Аутентификация — позволяет однозначно идентифицировать пользователя. Например, Алиса входит в систему со своим логином и паролем, и сервер использует эти данные для аутентификации Алисы.
  • Авторизация решает может ли пользователь выполнить те или иные действия. Например, Алиса может иметь право на чтение ресурса, но не может создать новый ресурс.


Первая серия статей дает общий обзор аутентификации и авторизации в ASP.NET Web API. Другие статьи описывают общие сценарии аутентификации для WebAPI.
1081
33
Ogoun 19,4
сегодня в 19:15

Новый рекорд скорости передачи данных — 43 терабита в секунду одним лазером по одному оптоволокну

image

Учёные из Датского технического университета установили новый рекорд скорости передачи данных по оптоволокну. Им удалось передать 43 терабита в секунду по одному волокну с помощью одного лазера. Хотя ещё в 2011 был преодолен порог в 100 терабит/с, сделано это было с помощью нескольких сотен лазеров, что малоприменимо в реальных условиях.
6807
9
ilya42 697,0
сегодня в 18:11

Фильтр для комментариев Хабрахабра в виде userscipt: версия 2

Некоторое время назад я написал простой userscript, позволяющий фильтровать комментарии на Хабре по рейтингу. И вот сейчас вышла 2-ая версия с новым функционалом, более быстрой фильтрацией и стабильной работой в Firefox и Chrome.

1970
15
ShpuntiK 17,9
сегодня в 17:09

Samsung представила флагманский UHD-монитор 9-ой серии U32D970Q

Компания Samsung Electronics анонсировала выпуск флагманского монитора ультравысокого разрешения (3840x2160) — модели Samsung U32D970Q. Новый профессиональный UHD-дисплей с диагональю 31,5" специально разработан для тех, чья профессиональная деятельность связана с графикой, фото, видео, а также системами проектирования. Новинка может похвастаться PLS-матрицей, разрешение эквивалентно четырем установленным рядом мониторам Full HD, а по количеству отображаемых цветов Samsung U32D970Q превосходит стандартный монитор в 64 раза.
8610
10
flyant 41,4