i-Free Group
Компания
50,13
рейтинг
10 декабря 2013 в 15:22

Дизайн → Задача изменения голоса. Часть 1. Что такое голос?

Этим постом мы хотели бы начать цикл статей, посвященных задаче изменения голоса. В зарубежной литературе данную задачу часто именуют термином voice morphing, в отечественной литературе данная задача ещё не получила достаточного освещения как в научных, так и в инженерных кругах. Тема является достаточно обширной и во многом творческой. В результате работы в данном направлении у нас накопился определенный опыт, который мы планируем систематизировать и изложить, а также передать основную суть некоторых алгоритмов.

image

Изменение голоса может преследовать разную цель. Два основных направления, которые тут однозначно можно выделить – это получение реалистичного звучания измененного голоса и получение некоторого причудливо-фантастичного звучания. Неплохих результатов во втором случае вполне можно добиться, обрабатывая речевой сигнал как обычный звук, не заостряя внимание на его особенностях и делая многие допущения. Например, индустрия электронной музыки породила колоссальное количество разнообразных аудио-эффектов и результат их применения к речевому сигналу помогает создать самый невероятный образ говорящего.
В задаче реалистичного изменения голоса применение «музыкальных» (назовем их так) аудио-эффектов может привнести искажения, не характерные для натуралистичного звучания речи. В подобном случае необходимо более точно понимать, из каких звуков состоит речь, как они образуются и какие их свойства являются критическими для восприятия. Проще говоря — необходимо производить анализ сигнала перед его обработкой. При автоматизированной обработке речевого сигнала в реальном времени этот анализ усложняется многократно, т.к. умножается количество неопределенностей, которые надо как-то попытаться разрешить, и сокращается количество применимых алгоритмов.
В ближайших статьях мы рассмотрим варианты простейшей реализации таких эффектов, как изменение пола говорящего и изменение возраста говорящего. Чтобы читатель лучше понимал, какие параметры сигнала будут изменяться, в первых статьях будут затронуты основные вопросы образования звуков речи и способы формального описания речевого сигнала. После этого уже будут обсуждаться конкретные предлагаемые алгоритмы изменения голоса, их сильные и слабые стороны.

P.S.
Добавил дополнительные ссылки на первоисточники



Введение

Если рассматривать звуки речи отдельно друг от друга, на первый взгляд может показаться, что ничего особенного они из себя не представляют — типичный гласный звук по сути не так уж и далек от звука, скажем, флейты. Однако обработка отдельно стоящих «в вакууме» звуков вряд ли многим принесет практическую пользу — гораздо более привлекательной затеей выглядит обработка слитного речевого сигнала. Вдвойне привлекательной кажется идея натуралистичного звучания обработанной речи. Данная задача уже значительно сложнее — в натуральной слитной речи звуки настолько быстро и плавно перетекают один в другой, что даже человек с опытом не всегда может четко поставить границу при обработке. А если ко всем звукам речи подходить одинаково — никакого натурального звучания не выйдет.

Речевой сигнал является более «разносторонним», если можно так выразиться, сигналом, нежели например звук музыкальных инструментов. Занимая сравнительно узкую частотную полосу, речь состоит из огромного разнообразия элементарных звуков, которые вдобавок могут коартикулировать самым причудливым образом даже в обыденной речи, не говоря уже об осознанном изменении голоса профессиональным актером. При этом эти элементарные звуки имеют разную природу и, как следствие, разные характеристики с точки зрения стандартных алгоритмов анализа и обработки сигналов.

Речевой тракт человека является едва ли не наиболее совершенным и гибким в сравнении со всеми известными животными и по разнообразию производимых звуков оставляет позади большинство музыкальных инструментов. Основная сложность в анализе и изменении голосового сигнала кроется именно в данном разнообразии и вытекающей большой неопределенности, связанной с вычленением и обработкой элементарных звуковых единиц. Не существует алгоритмов, хорошо подходящих для обработки всех звуков речи. К тому же, один и тот же элементарный звук человек может произносить по-разному в зависимости от своего эмоционального, физического состояния, от места звука в слове, etc. Индивидуальные особенности произношения, культурный и языковой фактор, медицинские патологии — все это также оказывает влияние на произносимый звук.

Звукообразование, общие сведения

Для понимания специфики обработки голосового сигнала, рассмотрим более подробно вопрос звукового состава речи и каким образом данные звуки образуются. Процесс звукообразования принято описывать с помощью двух основных понятий: фонация и артикуляция, опишем их по порядку.

Фонация — часть процесса звукообразования, происходящая в гортани человека. Начинается все с сжатия легких — это приводит в движение воздух, который из легких через трахею поступает в гортань. Данный воздушный поток имеет практически постоянную, медленно меняющуюся скорость. В гортани находится голосовая щель, образуемая двумя голосовыми складками, к которым «прикреплены» голосовые связки. При напряжении связок голосовая щель периодически смыкается/размыкается и формирует таким образом воздушные импульсы из входного воздушного потока. Каждый импульс можно описать объемной скоростью воздуха, который проходит через голосовую щель, обозначим её мгновенное значение как U(t). Человеческое ухо воспринимает колебания в давлении, которые пораждаются изменением скорости воздушного потока, и нас, таким образом, более интересует первая производная от объемной скорости — dU/dt. Для более наглядной иллюстрации можно обратить внимание на картинку ниже. Показана модель U(t) и её первая производная, оба графика полученны с помощью модели Розенберга:

Рисунок 1

Верхний график отражает значение U(t) во времени на выходе голосовой щели. Нижний график показывает первую производную U(t) по времени — суть изменение давления на выходе голосовой щели. Это периодическое изменение давления уже является звуком само по-себе. Данный звук состоит из шумовой и гармонической составляющих. Шумовая составляющая образуется турбулентностью из-за резкого увеличения U(t) и неполного смыкания голосовой щели (модель на картинке выше не учитывает шумовую составляющую). Гармоническая составляющая может быть представлена гармоническим рядом, где частоты всех вторичных гармоник (которые ещё называют обертонами) кратны частоте первой самой низкой гармоники, называемой частотой основного тона. (см. рисунок ниже).

Рисунок 2

Физику образования данных гармоник в двух словах объяснить не получится, для этого лучше написать отдельную статью. Главное пока запомнить, что из гортани при работе связок уже может выходить вполне гармонический звук. Численное значение частоты основного тона равно частоте сокращения голосовых связок и является функцией от их длины, плотности и натяжения.

При расслабленных связках и постоянно открытой голосовой щели воздушный поток ничем не «нарезается», если можно так выразиться, скорость воздуха в таком случае слабо колеблется около некоторого постоянного значения и формируемый звук имеет шумовую природу, пример спектра данного сигнала приведен ниже.

Рисунок 3

Результатом фонации является некий звук, который часто называют «сигналом возбуждения голосового тракта». Из этого базового сигнала (гармонического или нет) по мере его прохождения через голосовой тракт далее будет формироваться конечный звук, который мы слышим при разговоре.

Краткое резюме: главный «инструмент» фонации — две голосовые складки, которые образуют собой голосовую щель и которые приводятся в движение голосовыми связками. Связки могут периодически сокращаться или находиться в расслабленном состоянии, что приводит к образованию вокализованного или невокализованного звуков соответственно.

Исследованию фонации, особенно вокализованной, посвящено огромное количество работ, рассматривающих данный процесс с самых разных точек зрения — механической, термодинамической, акустической, статистической, психоакустической. Достоверно установлено, что неидеальность формируемых воздушных импульсов при вокализованной фонации, случайное изменение их формы и частоты, сильно влияет на натуральность звучания. Для примера можно послушать звук по приведенной ссылке — он как раз синтезирован с помощью модели с первого рисунка, а также параметров речевого тракта автора статьи, при произнесении звука «А». Не думаю, что кому-то данный звук покажется «живым» и натуральным. Человеческое ухо достаточно точно определяет звук, синтезированный с помощью искусственного сигнала возбуждения, что значительно повышает значимость статистического исследования данного процесса.

Рисунок 4

Артикуляция заключает в себе процесс изменения состояния всех элементов речевого тракта при звукопроизнесении. Фонация является частью артикуляции. Речевой тракт можно упрощенно представить совокупностью камер и трубок (см. рисунок справа), через которые проходит сигнал возбуждения. Сужения и расширение смычек голосового тракта, лежащих выше гортани, дополнительно влияют на скорость прохождения воздушного потока, формируют дополнительные (помимо голосовой щели) зоны турбулентности. Вместе с тем полости речевого тракта аналогичны акустическим резонаторам при прохождении через которые усиливаются одни и ослабляются другие частоты звука. Мышцы речевого тракта позволяют человеку контролировать геометрию камер речевого тракта, создавать препятствия на пути воздушного потока (язык, зубы, губы).

В грубом приближении можно резюмировать вышесказанное, как:
артикуляция = фонация + работа мышц речевого тракта,
где фонация может быть вокализованной или не вокализованной, а сокращение каждой отдельной мышцы — некоторая функция от времени.

В процессе обучения разговорной речи человек учится координировать работу органов артикуляции для получения определенных звуков. Из-за индивидуальных анатомических особенностей один и тот же звук у всех людей звучит немного по-разному, и это один из важных факторов, по которым мы отличаем голоса людей. При согласованной работе голосовых связок и остальных мышц речевого тракта, возможно образование гласных, согласных, смешанных и переходных звуков. Далее предлагается кратко рассмотреть эти группы, в общих чертах описать их артикуляцию и основные признаки.

Простейшая классификация звуков речи


Рисунок 5

Со школы известно, что все звуки речи изначально принято делить на гласные и согласные. Гласные звуки формируются при прохождении вокализованного сигнала возбуждения от голосовой щели через остальной речевой тракт, который при этом занимает некоторую фиксированную геометрическую форму. Этот процесс во многом подобен тому, как звук колеблющейся струны проходит через корпус гитары. В случае с человеческим голосом, «струной» выступает периодически сокращаемая голосовая щель, а корпусом — все, что выше её. Если представить себе, что корпус гитары может принимать одну из нескольких «заранее выученных» форм, то возможно провести аналогию с гласными звуками: гортань создает вокализованный сигнал возбуждения, а речевой тракт принимает одну из форм, в итоге получается гласный звук.

Меняя геометрию речевого тракта, человек меняет его акустические резонансные свойства. В итоге некоторые частоты усиливаются, некоторые напротив заметно ослабляются. Зоны усиления принято называть формантными частотами или формантами. Гласные звуки отличаются друг от друга именно своей формантной структурой (см. рисунок справа), зависящей от геометрии речевого тракта в момент речеобразования — именно так их и различает человек на слух. Точные численные значения формантных частот индивидуальны для каждого человека. Однако их относительное расстояние между друг другом имеет примерно одинаковые пропорции у всех людей (иначе как бы мы могли распознать, например, звук «О», произносимый разными людьми).

Теперь перейдем к согласным звукам. Их количество значительно превышает количество гласных звуков и по своему звучанию они могут быть разбиты на подклассы. Как это часто бывает в реальной жизни, многие феномены имеют признаки многих классов и однозначная классификация весьма затруднительна. Согласные звуки в данном случае не являются исключением. Их разбиение на классы зависит от рассматриваемого языка и применяемой фонетической теории. Мы рассмотрим наиболее общую классификацию, состояюшую из трех основных групп:
— фрикативные согласные
— смычные согласные
— сонорные согласные

Фрикативные согласные образуются «трением» воздушного потока о сужения речевого тракта и препятствия на пути следования воздуха. Данные сужения и препятствия могут быть созданы небом, языком, зубами, губами, etc (звуки Ф, Х, Ш, С ...). Полости речевого тракта при этом занимают некоторую (условно)фиксированную позицию. Сужения и препятствия вызывают локальные изменения в давлении воздушного потока, что в свою очередь создает зоны турбулентности. Порождаемый таким образом турбулентный шум уже не белый — он имеет окрас

Рисунок 6

Генерируемый шумовой сигнал, как и в случае с гласными звуками, проходит через некоторое количество акустических фильтров (камеры речевого тракта), которые придают этому шуму некоторую характерную спектральную форму и звучание.

Смычные согласные образуются путем полного перекрытия речевого тракта каким-либо органом артикуляции при открытой голосовой щели. При этом воздух, поступающий из легких через открытую голосовую щель, нагнетает давление и при резком размыкании препятствия создает «взрывной» звук (звуки K, П, Т …). Например при произнесении звука «П», человек смыкает губы, но легкие при этом продолжают нагнетать давление. Затем губы резко размыкаются и создаваемый скачкообразный перепад в давлении порождает знакомый всем звук «П». Изображение во временной области представлено ниже:



Следует обратить внимание, что все три попытки произношения звука значительно отличаются друг от друга во временной области. При этом на слух их отличить весьма тяжело.
Пример спектрограммы слова с несколькими смычными звуками изображен ниже.

Рисунок 7

Также нельзя не отметить, что и фрикативные, и смычные согласные могут быть «звонкими». «Звонкие» согласные по своей природе являются смешанными звуками, образуемыми путем произнесения согласного звука одновременно с работой голосовых связок. Например, если проделать действия, описанный при произнесении звука «П» и добавить при этом работу голосовых связок, то получится звук «Б». Однако нельзя утверждать, что они являются простой суперпозицией некоторого гласного и некоторого согласного звука во временной области. Нельзя просто взять записать звук «С», сложить с записанным звуком «Э» и получить на выходе звук «З». Однозначно можно лишь сказать, что звонкие согласные образуются с помощью вокализованного сигнала возбуждения.

В некоторую обособленную группу принято выделять сонорные согласные, которые не содержат в себе сильного турбулентного шума, т. к. при их произнесении для воздуха создается дополнительный проход (Л, Р, М, Н, Й). Однако некоторое препятствие все-таки создается (язык, язык + зубы, язык + небо), из-за этого:
— значительно ослабляются многие гармоники из начального гармонического ряда
— в целом уменьшается энергия произносимого звука
— появляются некоторые шумовые призвуки.
Звуки «М» и «Н» являются носовыми — в ротовой полости создается значительное препятствие, а носоглотка полностью открыта для прохода воздуха. Ротовая полость в таком случае является дополнительной резонансной полостью, а носовая полость становится основным излучателем звука. Звук «Р» относится к группе так называемых «дрожжащих» звуков. Сонорные звуки своим спектром достаточно сильно напоминают гласные звуки. Глядя на спектрограмму, их кратковременные появления бывает тяжело выделить, особенно при их переходе в гласные звуки. Звуки «Л», «Р», «Й» многие авторы относят к полугласным из-за возможности выделить в их составе яркие доминирующие форманты.

Стоит сказать несколько слов о призвуках и переходных звуках. Их образование связано с тем фактом, что органы артикуляции человека в слитной речи не могут взять и мгновенно изменить свое положение. Это процесс происходит плавно во времени. В фонетике принято выделять три стадии произнесения отдельного звука: экскурсия, выдержка и рекурсия. Во время экскурсии артикуляционные органы принимают начальное положение, необходимое для формирования звука. Во время выдержки произносится сам звук. Во время рекурсии органы либо приходят в состояние покоя, либо перестраиваются для начала произнесения следующего звука — рекурсия одного звука накладывается на экскурсию другого. Подобная коартикуляция пораждает множество призвуков, которые, как правило не вносятся в алфавиты, но вполне могут быть классифицированы и выделены в голосовом сигнале (к сожалению, далеко не всегда автоматически). В качестве иллюстрации можно привести спектрораммы уже измученного автором звука «П», при его отдельном произношении и в составе слога «ПЕ».



Разница между вариантами произношения звука «П» может быть видна невооруженным взглядом. В момент размыкания губ голосовой тракт уже занял позицию для произнесения смягченного «Э», что отразилось и на произношении «П». Подобные метаморфозы происходят практически со всеми согласными звуками — их положение относительно гласных звуков значительно влияет на их «внешний вид» и звучание.

Несколько фактов про гласные и согласные звуки:
1. Гласные звуки имеют гармоническую природу и четко выраженную формантную структуру. Согласные звуки имеют шумовую природу, но могут иметь ярковыраженную гармоническую составляющую (рисунок ниже, звуки «В», «Л»).

2. Гласные звуки несут в себе большее количество энергии, нежели согласные, основная её часть (1-я и 2-я форманты) лежат в диапазоне от 400 до 3000 Гц. Согласные звуки имеют значительно меньшую энергию. У большой части согласных звуков значительная часть этой энергии сосредоточена в области 2-10 КГц. Один из примеров показан ниже:

Рисунок 8

3. Гласные звуки имеют в среднем большую продолжительность, нежели согласные (100-300 мсек против 30-100 мсек, хотя конкретные точные цифры сильно зависят от языка и человека)

4. Несмотря на меньшую энергию и длительность, согласные звуки, как ни странно, несут в себе основную речевую информацию. В качестве наглядного примера можно рассмотреть неплохую задачку из Рабинера:
Восстановить фразу
«Th_y n_t_d s_gn_f_c_nt _mpr_v_m_nts _n th_ c_mp_n_s _m_g_, ...» (they noted significant improvement in the company's image, …),
против
«A__i_u_e_ _o_a___ _a_ __a_e_ e_e__ia___ __e _a_e, ...» (Attitudes towards pay stayed essentially the same, …).

Речевой сигнал при слитной речи может условно считаться стационарным на отрезках от 5 до 100 миллисекунд в зависимости от особенностей диктора и произносимого звука. На более длительных интервалах анализа возрастает вероятность существенного изменения свойств сигнала, что может привести к несостоятельности оценок его усредненных параметров. Как и в любой другой области обработки сигналов, большие проблемы могут создать шумовые помехи, особенно те из них, которые имеют гармоническую природу и/или некоторые подобия формант — частотные области со сравнительно большой энергией.

В данном сжатом обзоре приведены только основные сведения о процессе речеобразования и классификации звуков речи. Даже в самом первом приближении каждый произносимый звук зависит от немалого числа параметров, индивидуальных для каждого отдельно взятого человека. Точное измерение данных физиологических параметров не всегда возможно даже современными медицинскими приборами. Если ставить себе цель получить максимально реалистичное звучание обработанного сигнала, многие из этих параметров так или иначе необходимо оценивать и единственным средством остается поиск оптимальных значений. Подобный подход почти всегда привносит артефакты в восстановленный речевой сигнал, иногда более, иногда менее слышимые. Если ещё усложнить себе жизнь и поставить задачу обработки голоса в реальном времени, то поиск этих оптимальных значений возможен только по мере обработки поступающего сигнала, так сказать, «на ходу», что также не может не отразиться на конечном звучании.
В следующей статье будет дан обзор основного инструментария, помогающего в той или иной мере решить многие задачи — кратко будут рассмотрены модели представления речевого сигнала. Также будет показано, какие параметры этих моделей можно подстраивать при ресинтезе для изменения выходного звучания.

___________
Используемая литература:
[1] И. Алдошина, Основы психоакустики, сборник статей.
[2] L.R. Rabiner, B.-H. Juang, Fundamentals of Speech Recognition
[3] L.R. Rabiner, R.W. Schafer, Digital Processing of Speech Signals
[4] В.Н. Сорокин, Синтез речи
[5] www.phys.unsw.edu.au/jw/glottis-vocal-tract-voice.html
Автор: @peterglushkov
i-Free Group
рейтинг 50,13
Компания прекратила активность на сайте

Комментарии (31)

  • +4
    Интересная тема.
  • –3
    Вот как раз недавно думал о голосовом управлении с помощью слогов. Это позволит собирать любые слова… Как дальше бы работало — все, думаю, понимают. И база небольшая — такую програмку можно при желании в телефон запихать, все только упирается в настройке и поиске совпадения (хотя бы близжайшего).
    Я 100% могу сказать, что через несколько лет это появится.
  • 0
    Подскажите, каким софтом пользовались для написания статьи? Ну кроме gnuplot. Вижу, что всё opensourse?
    • 0
      Повторно перечитал, очень похоже на заготовку статьи в научный журнал к диссертационной работе. Какую работу пишете, если не секрет?

      На счёт графика habr.habrastorage.org/post_images/ee1/2f2/164/ee12f2164543c2359f5041deacc4a09d.jpg — смущает количество гармоник, наводит на мысль, что не очень хорошо подобран механизм БПФ и окна. Поскольку вряд ли столько кратных гармоник будет. Есть ли проверочное АЧХ, снятия вашим прибором, например звучания чистого синуса?

      Даже учитывая нелинейности звуковоспроизводящего тракта и микрофона, можно провести калибровку преобразования.
      • 0
        Здравствуйте!

        Диссертационную работу сейчас к сожалению не пишу, надеюсь когда-нибудь дойти и до этого.

        По-поводу заинтересовавшего Вас графика — конкретно данный график, и непосредственно за ним следующий были взяты с ресурса www.phys.unsw.edu.au/jw/glottis-vocal-tract-voice.html Я сначала забыл указать данный ресурс в первоисточниках — оплошность уже исправлена. В нашей компании нету исследовательской лаборатории с рабочим электроглатографом, а хотелось показать именно «живой», а не восстановленный сигнал. Ответить на Ваши вопросы касательно настройки измерительных приборов я к сожалению не смогу.
        • 0
          Забыл ответить про софт. Для данной работы использовался Matlab, Audacity и OpenOffice Draw :) Опять же в Матлабе не применялось ничего такого, чего не было бы, скажем, в Octave.
          • 0
            Во, узнал Audacity. У него весьма хреновый БПФ. Для домашнего развлечения подойдёт, а вот для серъёзных работ имеет смысл смотреть в свёртки прямо в Matlab. Это ИМХО, и готов ошибаться.

            А на счёт диссертации, редко на хабре встретишь статьи написанные таким сухим научным языком. Это не замечание или снобизм, просто отметил. В любом случае очень интересно! И диссертацию советую сделать, есть хорошее начало :)
            • 0
              Поясните, что понимается под «хреновым БПФ»? Особая, ухудшенная версия алгоритма, или что? Как оно может быть «хреновым»?
              • +2
                Проблема БПФ, что он в чистом виде выводимые данные не соответствуют действительности. Одну мы знаем из теоремы Котельникова. Другое дело, что выбор временного окна свёртки делает нам ложными некоторые гармоники. Можно кратко посмотреть тут

                ru.wikipedia.org/wiki/%D0%9E%D0%BA%D0%BE%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BF%D1%80%D0%B5%D0%BE%D0%B1%D1%80%D0%B0%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%A4%D1%83%D1%80%D1%8C%D0%B5

                Пример ошибок преобразования. У нас есть двухмерная волновая функция чистого синуса, с одной гармоникой (в данном случае беру это, т.к. есть под рукой картинки).


                Синусоида, высоты определяются градацией серого.

                Если представить в виде трёхмерного объекта, то выглядит вот так:



                Делаем БПФ её, получаем не одну чистую гармонику, а множество гармоник:



                В трёхмерном виде:



                При правильном подобранном окне, когда период чётко умещается должны были получить вот такую картину:



                Трёхмерной картинки нет, но должны были получиться ровные столбцы.

                Надеюсь ответил на ваш вопрос.
                • +2
                  Нет, не ответили. Кстати, теперь я ещё не понимаю, зачем вам понадобились трёхмерные картинки, физический смысл третьего измерения ускользает от меня.

                  Я прекрасно представляю, что такое БПФ, оконирование, что такое преобразование Фурье, знаю про предельный переход в интеграл Фурье и так далее. В общем, в теории пробелов, я думаю, нет.

                  Вопрос был вполне конкретным. Вот есть алгоритм, БПФ скажем, Кули-Тьюки (именно он в аудасити). Он очень простой. Есть функции оконирования. Они тоже довольно простые и в каждом конкретном случае вырождаются в таблицу значений, на которые умножаются отсчёты сигнала.

                  Итого: выбираем окно подходящего размера (степень двойки для Кули-Тьюки), считаем таблицу значений оконной функции, потом для каждого очередного окна входного сигнала умножаем окно на сигнал и результат преобразуем БПФ. Получили наш образ.
                  Как это может быть в одной программе это «хреновым», а в другой — нет? Вы сравнивали на одинаковых данных, с одинаковым размером окна и одинаковой функцией оконирования результаты БПФ в аудасити и где-то ещё? Аудасити даёт другой результат?

                  Потому как если сигнал периодический и «умещается» в окно, аудасити даёт острые пики, как положено. Если не умещается, кто угодно даст ненулевые боковые «лепестки», и многое зависит от оконной функции.

                  Вообще меня в аудасити расстраивает только отсутствие оконной функции Натолла (подавляет боковые лепестки до -98 дБ).
                  • 0
                    Трёхмерные картинки были под рукой. Я просто учился обрабатывать их в своё время, и картинки остались на фотохостинге. Всё просто. Считайте измерения всего два. И я тут не поумничать пришёл. Вы бы сразу говорили, что владеете матчастью.

                    Коллега, я не хочу спорить. Просто мне показался аудасити не дотасточно полным для обработки, ибо я много поюзал осцилогрофических программ (например отечественный осциллограф Актаком даёт в плане софта просто фантастические возможности по обработке аналоговых данных — фильтрации, АЧХ, с разными окнами и т.п.). После которых звуковые программы выглядят мягко скажем малофункциональными.

                    >>Потому как если сигнал периодический и «умещается» в окно, аудасити даёт острые пики, как положено. Если не умещается, кто угодно даст ненулевые боковые «лепестки», и многое зависит от оконной функции.

                    Здесь полносттью согласен.

                    Не судите строго, говорю — могу ошибаться.
                    • 0
                      Добрый день! merlin-vrn совершенно правильно изложил суть проблеммы. Если необходимо быстро и наглядно получить спектрограмму для анализа, audacity — вполне приемлемый софт. Самые базовые вещи, такие как длина окна анализа и тип оконной функции, audacity вполне позволяет выбрать, и тут уже все в руках инженера. Если анализировать речевой сигнал с частотой дискретизации 44 кГц, длина окна в 1024, либо 2048 самплов дает достаточно реалистичные результаты, позволяющие увидеть основные тенденции в изменении спектра сигнала.
                      В случае, если необходимо «дотошно» анализировать каждую гармонику и её поведение во времени, возможно использовать другие подходы к рассчету спектра (банки фильтров например) и выбирать меньший шаг во времени при рассчете спектрограммы. В данной работе такой цели не стояло.
                      • 0
                        Никто этого не отрицает. Умываю руки, был не прав. Сам пользуюсь audacity!
  • 0
    Как раз сегодня размышлял на эту тему. Спасибо!
  • 0
    Отдельно стоит напомнить про наличие вокодеров. Если упростить, то это устройство для преобразования звуков голоса в двоичный поток, те кодирование его. За счет учета того факта, что передается именно голос, эффективность кодирования была гораздо выше, чем обычное кодирование уровней. Речь разбивается на фонемы, и уже о них передается информация. В свое время при изучении устройства старой военной аппаратуры связи очень подробно вникали в эту теорию по книгам, которые рассыпались в руках, годов 70х-80х. Реализовано это было на железе в котором кроме простейшей логики никаких микросхем не было. Но потом почти все вокодеры дружно поменяли на липредеры, ибо звук, синтезированный на основе информации с вокодера, терял узнаваемость, те вне зависимости от того, кто говорил, голос из трубки шел «железный». Потому отличить командира от противника было достаточно сложно.
  • 0
    Вопрос, немного не по теме, но всё же.
    С Вашей точки зрения, возможно ли распознавание звуков, слов, слогов во временной области, без использования частотной?
    • +1
      Здравствуйте!

      Я не являюсь специалистом по части распознавания и мои знания в данной области весьма ограничены. «На вскидку» можно сказать следующее:
      1) Обработка во временной области как правило является вычислительно более дорогой.
      2) Существуют алгоритмы обработки звука, работающие исключительно во временной области. Но там какого-либо серьезного распознавания звуков не делается, лишь решается вопрос «является ли текущий обрабатываемый сегмент вокализованным, либо нет?».
      3) Сама процедура рассчета спектра подразумевает под собой интегрирование, и это позволяет получить усредненные оценки свойств сигнала на некотором интервале. Таким образом устраняются незначительные флуктуации анализируемого сигнала от «ожидаемого». Хорошо это или плохо — зависит от задачи.
      4) Насколько я знаю, в алгоритмах распознавания очень важна размерность вектора характеристик, описывающих распознаваемый объект. Частотная область здесь пожалуй более удобна, т.к. позволяет более компактно описать основные свойства сигнала.

      Большинство работ по разпознаванию, которые я видел, используют характеристики сигнала в частотной област (MFCC, LPC, кепстр, банки фильтров, etc). Есть работы, которые использую частотную область и при этом опираются на какие-то характеристики во временной области, что во многом оправданно. Работы, в которых используется исключительно временная область для решения задачи распознавания, мне лично не попадались. Но опять же, как было упомянуто, в этой области я не силен.

      P.S. Гугл на запрос «time domain speech recognition» выдает ссылки на различные диссертации, но насколько эффективны данные методы мне сказать тяжело.
      • 0
        Спасибо за такой развёрнутый ответ =)
        MFCC, LPC, кепстр, банки фильтров, etc — это всё хорошо, но пока убедительных результатов 100% достоверности распознавания нет, значит, что-то тут не то…

        Будет очень интересно почитать продолжение!
        • +2
          но пока убедительных результатов 100% достоверности распознавания нет


          И никогда не будет :)
  • 0
    Что значит «коартикулировать»?
    • 0
      Коартикуляция это когда звуки влияют друг на друга. Вот здесь можно почитать
    • 0
      мне тоже это слово понравилось
  • 0
    Если вдруг опытный исследователь оглохнет, то сможет ли понять собеседника, глядя на показания приборов?
    • –1
      «В круге первом» Солженицына не читали? Вопрос фактически оттуда :)
      • –1
        К сожалению, не читал. Только сериал смотрел немного. Буду читать. Спасибо.
      • 0
        Читал. Книга, как всегда, оказалась интереснее сериала.
    • 0
      Да, сможет. Проводились эксперименты по визуальному распознаванию речи по спектрограммам. Вроде как довольно успешно. Только давно это было.
      • 0
        Круто! Удивлён, что достаточно только спектрограмм. Думал, нужны ещё какие-то технологии, вроде тех, из которых состоит Siri. А в давних экспериментах была обычная речь или говорящий знал, что его будут «слушать» по приборам?
  • 0
    А почему у вокалоида-II Мику Хацунэ (Первый Звук Будущего) русский текст так сложно сделать? :)

    На самом деле — вопрос про фонетику звуков в разных языках. Есть ли общие паттерны? Прослеживается ли генеалогическое родство фонетики (с точки зрения спектральной обработки) в языковых группах? Есть ли какие-то ФИЗИЧЕСКИЕ причины у лингвистических законов типа «озвончение лабиального согласного после неударной е» (пример высосан из пальца для имитации терминологии). Интересно, этим кто-нибудь занимается?

    Грубо — можно ли опознать язык по фрагменту речи?
    • 0
      Здравствуйте. Не смогу однозначно ответить на Ваш вопрос, поскольку не имею опыта в решении подобных задач. Позвольте внести свои «5 копеек». Опознавание языка диктора по записи фрагмента его речи — особая задача, которая решается не только силами одной фонетики, но с привлечением в первую очередь лингвистических знаний. Как и в остальных задачах распознавания, достигнуть 100% правильного результата не видится возможным. Некоторые авторы утверждают о достигаемой точности порядка 90% при поддержке вплоть до 12 языков и при анализе фрагмента речи буквально в несколько секунд. Конечно сразу возникают вопросы о базе, на которой проводилось тестирование, о качестве записи обрабатываемых сигналов и многие другие вопросы, сопутствующие НЕ лабораторному применению любой системы.
      Немало работ можно найти просто набрав в Гугле automatic language indentification. А если заглянуть в первоисточники данных работ — информации для исследования станет ещё больше :)

      Насчет «патернов» в произношении звуков, возможно процитировать Ирину Алдошину:
      «Артикуляционные возможности речевого тракта при образовании звуков чрезвычайно разнообразны, и могут быть использованы для создания огромного многообразия звуков. Однако для речи используется ограниченный набор звуков (количество фонем в разных языках мира в основном не превышает 50…70). Такой разрыв между возможностями голосового аппарата и его применением объясняется с помощью квантальной теории, в соответствии с которой из всех звуков в речи используются только те, которые создают достаточно четкие слуховые контрасты и легко различимы слуховой системой (т.е. речь была приспособлена к слуху). Например, гласные „и“, „у“, „а“ резко контрастируют на слух, поэтому они используются почти во всех языках мира. Поэтому для разных звуков для речи были отобраны те виды артикуляции, которые создают существенные акустические и слуховые различия.»
  • 0
    Сколько времени ушло на изучение темы и написания статьи?

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Дизайн