doxtarzlo Sep 11 2011 at 21:43

Измерение разборчивости речи: формантный подход

3 min

23K

Форманты – это такие области в спектре звука речи, где концентрация энергии максимальна. Впервые формантный подход был предложен еще в 1929 году Д. Коллардом. Он прочно держал свои позиции до 70-х, пока не был предложен модуляционный подход, позволяющий учесть не только шумовую, но и реверберационную помеху, эхо и нелинейные искажения.

За 80 лет существования формантный подход обрел много сторонников и модификаций, однако самой распространенной стала зарубежная версия формантного метода, известная как индекс артикуляции (AI). К нему мы придем, рассмотрев версию Н. Б. Покровского и базирующийся на нем современный отечественный метод измерения разборчивости речи.

Покровский метод

Согласно этому методу всю анализируемую область частот разбивают на несколько смежных полос, в пределах каждой из которых плотность вероятностей формант, спектры речи и шума приближенно считаются постоянными. Артикуляционная разборчивость представляет собой сумму разборчивостей формант каждой полосы:

K — количество смежных полос;
p_k — вероятность пребывания формант в k-ой полосе частот;
F₁(f) — функция распределения вероятностей формант;
f_ok — центральная частота полосы;
f_нk — нижняя граничная частота полосы;
f_вk — верхняя граничная частота полосы;
P(E^'_k) — коэффициент восприятия речи, иначе вероятность отсутствия маскировки речи шумом.

Коэффициент восприятия речи зависит от разности уровней формантного спектра и спектра помехи. При достаточно больших уровнях шума это отношение сигнал/шум в каждой из полос частот.

Откровенно говоря, кривая коэффициента восприятия речи для каждой полосы частот разная, однако в методе Н. Б. Покровского им же и было предложено не обращать на это внимания и использовать какую-то одну кривую для упрощения расчетов. Методическая погрешность на лицо.

Конечно, для полноценного описания метода Покровского нужно привести еще как минимум методику построения коэффициентов восприятия, ряд формул и замечаний, однако так как это не есть целью данной статьи, будем двигаться дальше.

Почти AI

Современный российский метод был предложен в 2000-м году Железняком Я. И., Макаровым Ю. К. и Хоревым А. А. Фактически он повторяет метод Покровского Н. Б. с тем лишь отличием, что анализ сигнала производится в пяти октавных полосах частот. Также предполагается автоматизация вычислений, что потребовало аппроксимацию измеряемых величин аналитическими соотношениями.

∆f — полоса частот; f₀ — средняя частота полосы
f₀, Гц	250	500	1000	2000	4000
∆f, Гц	180...355	355...710	710...1400	1400...2800	2800...5600

Как и прежде, артикуляционная разборчивость определяется выражением:

Аналитические соотношения:

E^'_k — эффективный уровень ощущения формант в полосе частот;
E_k — эффективный уровень ощущения речевого сигнала в полосе частот, при относительно большом уровне шума равный отношению сигнал/шум SNR;
∆B(f) — разница между усредненным спектром речи и спектром формант;

D_sk, D_nk — дисперсии сигнала и шума соответственно;

Словесную разборчивость вычисляют с помощью формантной:

В. Л. Каргашиным было высказано мнение, что данная версия должна быть усовершенствована, а именно:

нужно добавить еще одну полосу анализа с центральной частотой 8 кГц;
должна быть реализована возможность расчета в третьоктавных полосах;
желательно аппроксимировать коэффициент восприятия более простой функцией

Выше перечисленное присутствует в методе AI.

AI

Использование индекса артикуляции было предложено Г. Флетчером 1940 году. Существует две версии данного метода:

для двадцати равноартикуляционных полос;
для шести октавных либо пятнадцати третьоктавных полос

Рассмотрим данный метод для двадцати равноартикуляционных полос. Разборчивость речи определяют все по той же формуле:

Однако так как вычисления производятся в двадцати полосах, формула выше принимает вид:

∆L_i — разница между пиковым уровнем речи и эффективным уровнем маскирующего шума

Таким образом

Может возникнуть вопрос, имеем ли мы право аппроксимировать коэффициент восприятия такой линейной зависимостью? Имеем, поскольку результат, полученный с использованием кривых по Покровскому, будет таким же усредненным, как и результат, полученный с аппроксимацией линейной зависимостью.

B_{р пик} — пиковый уровень речи;
B_ш — эффективный уровень шума;
П_р — пик фактор – отношение пикового значения уровня к среднеквадратическому;
E — эффективный уровень ощущения речевого сигнала

Пересчет индекса артикуляции в словесную и фразовую разборчивости осуществляют по графику:

Различные оценки по индексу артикуляции представлены ниже:

В методе учитываются:

влияние реверберационной помехи;
влияние АЧХ тракта передачи;
нестационарный характер маскирующего шума, если известен его рабочий цикл или время включения/выключения;
влияние клиппирования;

Метод неприменим:

если на речевой сигнал влияет несколько разных типов помех;
в случае смешанного приема сигнала от диктора и громкоговорителя

Подвал

Акустическая экспертиза каналов речевой коммуникации. Монография / Дидковский В. С., Дидковская М. В., Продеус А. Н. – Киев, 2008. 420.
electrovoice.com.ua

Tags:

Hubs:

Sound