Pull to refresh
13
0
Виктор Осетров @RealSpeaker

User

Send message
Мы прошли собседование и пригласили на финальную защиту. Думаю стоит или не стоит. Спасибо за пост!
Привет! А деньги они дают? например plugandplayaccelerator.com/programs/IOT#apply их осенняя программа
Вам спасибо и всем, кто принял участие в обсуждении!
Ждем Кубика! Отличная статья!
Да, немного сказано про ретроспективу. Одна это не умоляет важность ее использования.
Спасибо. Будет здорово прочитать от Вас практический разбор работы Вашего коллектива со Скрам.
Спасибо за Ваш комментарий.
Сначала поместил отрывок в статью из видео лекции. Но после Вашего замечания решил дополнить. Спасибо.
1. Бакфиксинг рассматривали (теперь дополнено) — очень важный пункт
2. С приоритетами тоже добавился материал. Как их определять вместе с продукт оунером. И как важно ходить на первые спринты продукт оунеру, чтобы откоррелировать приоритеты.
3. Скрам ради скрама, это не есть хорошо. Надо этого избегать — Вы правы. Панацеи нет как таковой. Можно лишь использовать некоторые полезные инструменты.
Спасибо огромное за ценные замечания!
Окей, сделаем. Пока полностью выложил весь материал в статью. Беседа получилась очень интересной!
Литература по клонированию речи:
Б. М. Лобанов, Л. И. Цирульник «Компьютерный синтез и клонирование речи», Минск «Белорусская Наука», 2008, 316 стр.
Abe M., Nakamura S., Shikano K. and Kuwabara H. «Voice conversion through vector quantization», in Proc. of the Int. Conf. on Acoust., Speech and Sig. Proc. ICASSP, New York, USA, Apr. 1988, vol. 1, pp. 655–658.
Patent No.: US 6615174B1, Sep. 2, 2003.
ITU-T Rec. G.729, «Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear — prediction (CS-ACELP)», Mar. 1996.
Levine S. and Smith J.O. «A sines+transients+noise audio representation for data compression and time/pitch scale modifications», in Proc. 105th Conv. Audio Eng. Soc., preprint #4781, Sep. 1998.
Talkin D. «Robust algorithm for pitch tracking» in «Speech Coding and Synthesis», Kleijn, W.B. and Palival, K.K. Eds. Elsevier, Amsterdam, Netherlands, 1995.
Grocholevski S. «First Database for Spoken Polish», in Proc. Int. Conf. On Language Resources and Evaluation, Grenada, 1998, pp. 1059–1062.
KY Lee, Y Zhao, «Statistical Conversion Algorithms of Pitch Contours Based on Prosodic Phrases». Proceedings of the International Conference «Speech Prosody 2004». (SP 2004)", Nara, Japan March 23-26 2004.
Huang X., Acero A., Hon H-W. «Spoken Language Processing: a guide to theory, algorithms, and system development», Prentice Hall, NJ, 2001. — p. 980.
Голос часто подделывают через софт типа ScreamingBee: www.screamingbee.com/
Там есть утилита VoiceChanger. За деталями надо спросить, конечно, у звукооператоров и звукозаписывающих студий.
Кстати наклейки содрал уже давно. Ноутбук до сих пор служит. Сам сейчас не понимаю как — но наклейки какое-то время висели.
Согласен, голос можно легко подделать. Мне лично перспективным видится направление аудио-видео верификации, так как микрофоны и видео камеры на большинстве устройств уже есть и не нужно придумывать велосипед. А если система сможет сделать предварительную аутентификацию и сможет задать пользователю уникальный вопрос, на который он знает ответ, то точность идентификации пользователя будет выше.
Без проблем, почищу. Как закончу — напишу. Спасибо!
Действительно, Вы правы различий между решениями десяти летней давности мало. Только технологии стали мощнее, базы перенесли в сервер, словарь пополнился, появились более качественные микрофоны с встроенными системами шумоотчистки. Но в целом и общем главенствует математический подход. Когда есть голосовой запрос и нейронная сеть сравнивает свои значения с накопленной базой данных, выбирая наиболее релеватное решение на основе статистического анализа. Системы распознавания речи еще не научились должным образом понимать контекст и осуществлять дораспознавание на основе определение смысловой нагрузки слов диктора. Видео конечно может быть подспорьем. Однако, например чтение по губам — это только 15-25% информации. Те кто занимался изучением этой техники у глухонемых может подтвердить, что человек таким образом воспринимает около 20% информации. Остальное он домысливает исходя из своего опыта. Научить это же самое компьютер очень не просто (так как у него такого опыта нет). Поэтому на текущем этапе было принято решение использовать видео как средство улучшения на уровне ввода информации, чтобы хотя бы более точно определить речь диктора и сделать предварительную шумоотчистку.
Спасибо за справедливое замечание. В следующей статья я предоставлю протоколы испытания, которые проводил. Хорошо?
В предыдущей статье я рассматривал системы распознавания речи с открытым исходным кодом и они ничем не хуже. Мне например больше нравиться решение CMU Sphinx. Однако основная проблема — это емкость базы данных. Ни один опенсорс не может этим похвастаться, что есть например у Нюанс.
Когда писал статью, сам был фанатом опенсорса и сидел на Убунту. Наивно верил, что вот оно будущее! Программа — это общественное достояние, не будут корпораций, все индивидуально. Статья пронизана этой юношеской романтикой молодости. Хоть и времени не так много прошло, но многое в моих представлениях поменялось однако. Аттракциона невиданной щедрости пока и не видно. А жаль.)
1

Information

Rating
Does not participate
Location
Казань, Татарстан, Россия
Date of birth
Registered
Activity