Основные свойства речевых сигналов

Спектральные свойства звуков речи. Спектры гласных звуков представляют собой (в первом приближении) периодическую последовательность спектральных пиков. Период следования этих пиков называют частотой основного тона. Выраженные всплески уровня «огибающей» спектральных пиков именуют «формантами» (рис.3).

Рис.3. Вид спектра гласного звука

Полезная информация о гласном звуке речи содержится в описании соответствующих формант. Принято каждую форманту описывать ее граничными частотами. В русском языке достаточно ограничиться одной-двумя формантами, чтобы достигнуть приемлемой разборчивости речи.

Спектры согласных звуков либо полностью сплошные, т.е. совсем не содержат дискретных компонентов, либо сплошные в отдельных полосах частот. Эти спектры также содержат локальные всплески. Некоторые из них являются формантами, некоторые - нет.

Чтобы решить, какие всплески уровня спектра являются формантами, следует помнить, что физическая природа формант – явление резонанса в полостях глотки и носоглотки (рис.4).

Рис.4. Полости глотки (1) и носоглотки (2-4)

В отдельных звуках можно заметить до 6 спектральных подъемов. К формантам относятся только те, которые обусловлены явлением резонанса в речевом аппарате человека. Часть формант (как указывалось – одна-две в русском языке) обеспечивают разборчивость речи, другая часть обеспечивает индивидуальность голоса диктора, что может быть использовано в задачах распознавания голоса (идентификации) диктора.

Форманты звуков речи расположены в области частот от 200 до 8600 Гц. Однако подавляющая часть формант звуков речи находится в пределах от 300 до 3000 Гц, поэтому такую полосу обычно считают достаточной для хорошей разборчивости речи.

Спектральные различия между звуками речи являются главными, хотя и не единственными. Например, при распознавании согласных звуков важны и временные характеристики.

Интегральные спектральные характеристики речи. Как следует из названия, интегральные спектральные характеристики речи характеризуют свойства речевого процесса в целом [6]. Сюда относят:

· спектр речи ;

· спектр формант ;

· относительную встречаемость формант по спектру .

Спектром речи называют оценку спектральной плотности мощности речевого сигнала , вычисленную по отрезку речевого сигнала значительной протяженности (более минуты). Спектр речи характеризует распределение мощности речевого сигнала по частоте.

Спектром формант называют зависимость наиболее вероятного уровня формант от частоты. Чтобы оценить спектр формант, необходимо также располагать отрезком речи большой протяженности. Спектр формант на всех частотах меньше спектра речи (рис.5):

.

Рис.5. Соотношение спектра речи и спектра формант [6]

Относительная встречаемость формант по спектру может быть оценена так. Разобьем весь диапазон частот на полоски, например, по 100 Гц, и подсчитаем относительное число формант (в %) каждой полоске. Результат такого подсчета даст нам кривую (рис.6).

Рис.6. Относительная встречаемость формант [6]

Основные свойства слуха

Для оценивания разборчивости речи наибольшее значение имеют следующие характеристики слуховой системы человека, именуемые «постоянными слуха» [6]:

· порог слышимости ;

· логарифмическая ширина критической полосы слуха ;

· маскировка слуха .

Порог слышимости – это минимальное звуковое давление, ниже которого ухо не воспринимает звук (рис.7). Выражается в децибелах, по отношению к давлению , соответствующему пороговой величине давления звука на частоте 1000 Гц.

Рис.7. Порог слышимости и болевой порог [6]

Рис.8. Критическая полоса слуха [6]

Ширина критической полосы слуха - это разрешающая способность слухового аппарата человека, который можно уподобить гребенке фильтров. Например, на частоте 100 Гц критическая полоса слуха близка 100 Гц, а на частоте 8000 Гц – близка 600 Гц (рис.8). Для удобства расчетов вводят понятие логарифмической критической полосы слуха (рис.9):

.

Рис.9. Логарифмическая критическая полоса слуха [6]

Маскировка слуха – это явление ослабления слышимости или полного пропадания полезного звука на фоне мешающего звука. Количественно выражается как разница:

,

где - порог слышимости при наличии мешающего звука. На рис.10 приведено семейство индивидуальных кривых маскировки для различных уровней маскирующего сигнала . Здесь - разность высот тона маскирующей и маскируемой компонент, причем высота тона измеряется в Барках:

.

Рис.10. Семейство индивидуальных кривых маскировки [19]

Измерение разборчивости

Различают [6] следующие виды (меры) разборчивости речи:

· разборчивость формант ;

· разборчивость звуков ;

· разборчивость слогов ;

· разборчивость слов ;

· разборчивость фраз .

При расчете разборчивости приходится иметь дело с частотно-зависимыми функциями. Поэтому результаты количественного расчета для различных участков спектра различны. Ввиду этого задача расчета решается разделением диапазона частот, используемого для передачи речи, на узкие полосы, внутри которых можно не считаться с указанной частотной зависимостью и относить полученные результаты к средней частоте полосы. Далее вычисляется разборчивость для каждой полосы частот, а общая разборчивость находится суммированием «полосовых» разборчивостей.

Поскольку свойством аддитивности обладает только формантная разборчивость:

,

где - формантная разборчивость в -той полосе частот, идея расчета сводится к предварительному вычислению величины , с последующим пересчетом ее в величины , , , , на основании имеющейся информации о зависимости между разными мерами разборчивости.

Разборчивость в каждой полосе можно представить в виде:

,

где - формантная разборчивость в отсутствие мешающих факторов (шум, влияние тракта передачи); - коэффициент восприятия, учитывающий потери разборчивости из-за наличия мешающих факторов.

Разделение диапазона частот речевого сигнала на полосы можно производить по-разному. В [6] называется два способа:

· деление на полосы одинаковой ширины;

· деление на равноартикуляционные полосы,

причем предпочтение отдается второму способу, позволяющему упростить выкладки. Количество полос при этом предлагается выбрать равным . В работе [13] также выбран способ деления на равноартикуляционные полосы.

В [11-14] указывается иной способ – деление на октавные или третьоктавные полосы. Количество полос при этом предлагается выбрать равным .

По-видимому, выбор способа деления на полосы частот – вопрос не столько принципиальный, сколько зависящий от «вкуса» исследователя.

Рассмотрим далее идею расчета разборчивости речи, исходя из принципа деления на равноартикуляционные полосы [6]. При этом

,

поскольку, в силу вероятностного характера формантной разборчивости, справедливо соотношение

.

Таким образом,

.

Величины определяют, исходя из эмпирической функциональной зависимости (функцию называют «постоянной артикуляционной характеристикой речи» [6]), где уровень ощущения формант вычисляют по формуле:

,

где - значение спектра формант на входе тракта; - порог слышимости; - маскировка от шумов всех видов; - затухание в тракте; - логарифмическая ширина критической полосы слуха.

Для достаточно высоких уровней шума:

выражение для уровень ощущения формант можно вычислять по упрощенной формуле:

.

Вид зависимости приведен на рис.11.

Рис.11. Вид зависимости

Отметим два важных обстоятельства. Во-первых, функция не зависит от полосы частот. Во-вторых, в литературе можно встретить весьма различающиеся кривые . Например, даже в работе [6] встречаем две такие кривые: для «идеализированной артикуляционной бригады» и для «типовой артикуляционной бригады». А в работе [10] приводится аналогичная зависимость, существенно отличающаяся от соответствующих кривых в работе [6]. Более внимательный анализ работы [10] показывает, что здесь вместо спектра формант используют спектр речи , и, как следствие, вместо уровня ощущения формант используют уровень ощущения речи:

.

Таким образом, в [10] вместо зависимости предлагают использовать сходную, но количественно отличающуюся зависимость .

Таким образом, хотя аналитическая методика расчета разборчивости речи на сегодняшний день проработана теоретически и экспериментально весьма глубоко, при практическом ее использовании следует помнить о существовании множества модификаций такой методики. Непродуманное «перекрестное» использование элементов этих методик может привести к неверным результатам расчета разборчивости речи.