Pull to refresh

Измерение разборчивости речи: формантный подход

Reading time3 min
Views23K
Форманты – это такие области в спектре звука речи, где концентрация энергии максимальна. Впервые формантный подход был предложен еще в 1929 году Д. Коллардом. Он прочно держал свои позиции до 70-х, пока не был предложен модуляционный подход, позволяющий учесть не только шумовую, но и реверберационную помеху, эхо и нелинейные искажения.

За 80 лет существования формантный подход обрел много сторонников и модификаций, однако самой распространенной стала зарубежная версия формантного метода, известная как индекс артикуляции (AI). К нему мы придем, рассмотрев версию Н. Б. Покровского и базирующийся на нем современный отечественный метод измерения разборчивости речи.

Покровский метод


Согласно этому методу всю анализируемую область частот разбивают на несколько смежных полос, в пределах каждой из которых плотность вероятностей формант, спектры речи и шума приближенно считаются постоянными. Артикуляционная разборчивость представляет собой сумму разборчивостей формант каждой полосы:



K — количество смежных полос;
pk — вероятность пребывания формант в k-ой полосе частот;
F1(f) — функция распределения вероятностей формант;
fok — центральная частота полосы;
fнk — нижняя граничная частота полосы;
fвk — верхняя граничная частота полосы;
P(E'k) — коэффициент восприятия речи, иначе вероятность отсутствия маскировки речи шумом.

Коэффициент восприятия речи зависит от разности уровней формантного спектра и спектра помехи. При достаточно больших уровнях шума это отношение сигнал/шум в каждой из полос частот.


Откровенно говоря, кривая коэффициента восприятия речи для каждой полосы частот разная, однако в методе Н. Б. Покровского им же и было предложено не обращать на это внимания и использовать какую-то одну кривую для упрощения расчетов. Методическая погрешность на лицо.

Конечно, для полноценного описания метода Покровского нужно привести еще как минимум методику построения коэффициентов восприятия, ряд формул и замечаний, однако так как это не есть целью данной статьи, будем двигаться дальше.

Почти AI


Современный российский метод был предложен в 2000-м году Железняком Я. И., Макаровым Ю. К. и Хоревым А. А. Фактически он повторяет метод Покровского Н. Б. с тем лишь отличием, что анализ сигнала производится в пяти октавных полосах частот. Также предполагается автоматизация вычислений, что потребовало аппроксимацию измеряемых величин аналитическими соотношениями.
f0, Гц 250 500 1000 2000 4000
∆f, Гц 180...355 355...710 710...1400 1400...2800 2800...5600
∆f — полоса частот; f0 — средняя частота полосы

Как и прежде, артикуляционная разборчивость определяется выражением:


Аналитические соотношения:





E'k — эффективный уровень ощущения формант в полосе частот;
Ek — эффективный уровень ощущения речевого сигнала в полосе частот, при относительно большом уровне шума равный отношению сигнал/шум SNR;
∆B(f) — разница между усредненным спектром речи и спектром формант;


Dsk, Dnk — дисперсии сигнала и шума соответственно;


Словесную разборчивость вычисляют с помощью формантной:


В. Л. Каргашиным было высказано мнение, что данная версия должна быть усовершенствована, а именно:
  • нужно добавить еще одну полосу анализа с центральной частотой 8 кГц;
  • должна быть реализована возможность расчета в третьоктавных полосах;
  • желательно аппроксимировать коэффициент восприятия более простой функцией

Выше перечисленное присутствует в методе AI.

AI


Использование индекса артикуляции было предложено Г. Флетчером 1940 году. Существует две версии данного метода:
  • для двадцати равноартикуляционных полос;
  • для шести октавных либо пятнадцати третьоктавных полос

Рассмотрим данный метод для двадцати равноартикуляционных полос. Разборчивость речи определяют все по той же формуле:


Однако так как вычисления производятся в двадцати полосах, формула выше принимает вид:


∆Li — разница между пиковым уровнем речи и эффективным уровнем маскирующего шума


Таким образом


Может возникнуть вопрос, имеем ли мы право аппроксимировать коэффициент восприятия такой линейной зависимостью? Имеем, поскольку результат, полученный с использованием кривых по Покровскому, будет таким же усредненным, как и результат, полученный с аппроксимацией линейной зависимостью.


Bр пик — пиковый уровень речи;
Bш — эффективный уровень шума;
Пр — пик фактор – отношение пикового значения уровня к среднеквадратическому;
E — эффективный уровень ощущения речевого сигнала

Пересчет индекса артикуляции в словесную и фразовую разборчивости осуществляют по графику:


Различные оценки по индексу артикуляции представлены ниже:




В методе учитываются:
  • влияние реверберационной помехи;
  • влияние АЧХ тракта передачи;
  • нестационарный характер маскирующего шума, если известен его рабочий цикл или время включения/выключения;
  • влияние клиппирования;

Метод неприменим:
  • если на речевой сигнал влияет несколько разных типов помех;
  • в случае смешанного приема сигнала от диктора и громкоговорителя

Подвал


  1. Акустическая экспертиза каналов речевой коммуникации. Монография / Дидковский В. С., Дидковская М. В., Продеус А. Н. – Киев, 2008. 420.
  2. electrovoice.com.ua
Tags:
Hubs:
Total votes 24: ↑23 and ↓1+22
Comments9

Articles