Comments / Profile of RealSpeaker / Habr

Спасибо за Ваш комментарий.
Сначала поместил отрывок в статью из видео лекции. Но после Вашего замечания решил дополнить. Спасибо.
1. Бакфиксинг рассматривали (теперь дополнено) — очень важный пункт
2. С приоритетами тоже добавился материал. Как их определять вместе с продукт оунером. И как важно ходить на первые спринты продукт оунеру, чтобы откоррелировать приоритеты.
3. Скрам ради скрама, это не есть хорошо. Надо этого избегать — Вы правы. Панацеи нет как таковой. Можно лишь использовать некоторые полезные инструменты.
Спасибо огромное за ценные замечания!

Look

Scrum — как эффективно работать без project-менеджера

RealSpeaker Aug 10 2014 at 15:52

Окей, сделаем. Пока полностью выложил весь материал в статью. Беседа получилась очень интересной!

Look

Перспективы развития систем распознавания речи (выдержка из исследования)

RealSpeaker Aug 8 2014 at 13:19

Литература по клонированию речи:
Б. М. Лобанов, Л. И. Цирульник «Компьютерный синтез и клонирование речи», Минск «Белорусская Наука», 2008, 316 стр.
Abe M., Nakamura S., Shikano K. and Kuwabara H. «Voice conversion through vector quantization», in Proc. of the Int. Conf. on Acoust., Speech and Sig. Proc. ICASSP, New York, USA, Apr. 1988, vol. 1, pp. 655–658.
Patent No.: US 6615174B1, Sep. 2, 2003.
ITU-T Rec. G.729, «Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear — prediction (CS-ACELP)», Mar. 1996.
Levine S. and Smith J.O. «A sines+transients+noise audio representation for data compression and time/pitch scale modifications», in Proc. 105th Conv. Audio Eng. Soc., preprint #4781, Sep. 1998.
Talkin D. «Robust algorithm for pitch tracking» in «Speech Coding and Synthesis», Kleijn, W.B. and Palival, K.K. Eds. Elsevier, Amsterdam, Netherlands, 1995.
Grocholevski S. «First Database for Spoken Polish», in Proc. Int. Conf. On Language Resources and Evaluation, Grenada, 1998, pp. 1059–1062.
KY Lee, Y Zhao, «Statistical Conversion Algorithms of Pitch Contours Based on Prosodic Phrases». Proceedings of the International Conference «Speech Prosody 2004». (SP 2004)", Nara, Japan March 23-26 2004.
Huang X., Acero A., Hon H-W. «Spoken Language Processing: a guide to theory, algorithms, and system development», Prentice Hall, NJ, 2001. — p. 980.
Голос часто подделывают через софт типа ScreamingBee: www.screamingbee.com/
Там есть утилита VoiceChanger. За деталями надо спросить, конечно, у звукооператоров и звукозаписывающих студий.

Look

Перспективы развития систем распознавания речи (выдержка из исследования)

RealSpeaker Aug 8 2014 at 11:16

Кстати наклейки содрал уже давно. Ноутбук до сих пор служит. Сам сейчас не понимаю как — но наклейки какое-то время висели.

Look

Перспективы развития систем распознавания речи (выдержка из исследования)

RealSpeaker Aug 8 2014 at 08:40

Согласен, голос можно легко подделать. Мне лично перспективным видится направление аудио-видео верификации, так как микрофоны и видео камеры на большинстве устройств уже есть и не нужно придумывать велосипед. А если система сможет сделать предварительную аутентификацию и сможет задать пользователю уникальный вопрос, на который он знает ответ, то точность идентификации пользователя будет выше.

Look

Перспективы развития систем распознавания речи (выдержка из исследования)

RealSpeaker Aug 8 2014 at 00:04

Исправил повторы. Спасибо!

Look

Перспективы развития систем распознавания речи (выдержка из исследования)

RealSpeaker Aug 7 2014 at 19:20

Без проблем, почищу. Как закончу — напишу. Спасибо!

Look

Эксперимент интеграции видео расширения в систему аудио-распознавания речи

RealSpeaker Aug 1 2014 at 12:40

Передадим, она из Ульяновска

Look

Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции

RealSpeaker Aug 1 2014 at 12:13

Принял к сведению, спасибо!

Look

Эксперимент интеграции видео расширения в систему аудио-распознавания речи

RealSpeaker Aug 1 2014 at 10:17

Действительно, Вы правы различий между решениями десяти летней давности мало. Только технологии стали мощнее, базы перенесли в сервер, словарь пополнился, появились более качественные микрофоны с встроенными системами шумоотчистки. Но в целом и общем главенствует математический подход. Когда есть голосовой запрос и нейронная сеть сравнивает свои значения с накопленной базой данных, выбирая наиболее релеватное решение на основе статистического анализа. Системы распознавания речи еще не научились должным образом понимать контекст и осуществлять дораспознавание на основе определение смысловой нагрузки слов диктора. Видео конечно может быть подспорьем. Однако, например чтение по губам — это только 15-25% информации. Те кто занимался изучением этой техники у глухонемых может подтвердить, что человек таким образом воспринимает около 20% информации. Остальное он домысливает исходя из своего опыта. Научить это же самое компьютер очень не просто (так как у него такого опыта нет). Поэтому на текущем этапе было принято решение использовать видео как средство улучшения на уровне ввода информации, чтобы хотя бы более точно определить речь диктора и сделать предварительную шумоотчистку.

Look

RealSpeaker Jul 31 2014 at 13:16

Спасибо, исправил!

Look

RealSpeaker Jul 31 2014 at 11:34

Спасибо за справедливое замечание. В следующей статья я предоставлю протоколы испытания, которые проводил. Хорошо?

Look

RealSpeaker Jul 31 2014 at 09:53

В предыдущей статье я рассматривал системы распознавания речи с открытым исходным кодом и они ничем не хуже. Мне например больше нравиться решение CMU Sphinx. Однако основная проблема — это емкость базы данных. Ни один опенсорс не может этим похвастаться, что есть например у Нюанс.

Look

Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода

RealSpeaker Jul 17 2014 at 16:02

Когда писал статью, сам был фанатом опенсорса и сидел на Убунту. Наивно верил, что вот оно будущее! Программа — это общественное достояние, не будут корпораций, все индивидуально. Статья пронизана этой юношеской романтикой молодости. Хоть и времени не так много прошло, но многое в моих представлениях поменялось однако. Аттракциона невиданной щедрости пока и не видно. А жаль.)

Look