Фонетический и фонологический анализ

Представление речи во временной и частотной областях

Речевая волна это медленно изменяющийся во времени сигнал в том смысле, что его характеристики почти неизменны на временном отрезке от 5 до 100 мсек. Тем не менее, на более длительных интервалах времени речевой сигнал меняется, что соответствует произнесению различных звуков.

Рис. 2.6. Речевая волна, соответствующая началу фразы «It’s time». Каждый отрезок на графике соответствует временному отрезку в 100 мсек.

Речевая волна обычно представляется во временной области как квазипериодическое колебание для гласных звуков и низкоамплитудный высокочастотный сигнал для согласных (Рис. 2.6). Альтернативное представление возможно в спектральной области (Рис. 2.7). Наиболее распространено квази-трехмерное представление интенсивности звука в различных частотных диапазонах.

Рис. 2.7. Широкополосная и узкополосная спектрограммы и речевая волна для последовательности «Every salt breeze comes from the sea».

Рис. 2.8. Еще один способ представления речи в виде формантных траекторий. Например, для последовательности «Why do I owe you a letter». Особенностью речевой волны является несовпадение признаков фонем для разных дикторов (см. Рис. 2.9).

Рис. 2.9. Измеренные частоты первой и второй формант для большого числа дикторов для нескольких гласных. Наблюдается перекрытие областей формантных частот для различных звуков для различных дикторов.

Рис. 2.10. Тем не менее, имеется некоторое усредненное представление о положении центроидов основных гласных в фазовом пространстве первых двух формант.

Фонетический и фонологический анализ

Несомненно, наиболее важная область в обработке речи, нуждающаяся в исследованиях, - это акустическо-фонетический анализ. Его цель — найти фонемное представление слова. Если акустическо-фонетический анализ слабый, то ошибочные гипотезы выдадут в итоге неправильный анализ. Сегментация и идентификация акустического сигнала в последовательности лингвистических единиц чрезвычайно трудна, поскольку акустическое сигналы, ассоциирующиеся с сегментами, непосредственно с ними не связанны; на эти сигналы сильно влияют соседние сегменты.

Акустическо-фонетический компонент необходим для любой обрабатывающей речь системы, основанной на знаниях, потому что система требует знания относительно фонологических процессов, активных в языке и в прикладных программах, чтобы восстанавливать канонические произношение слов, которые могут быть сопоставлены с соответствующими входами словаря, и получать дальнейшие сигналы к синтаксической и семантической/прагматической интерпретации речевого высказывания. Однако, фонологические компоненты в значительной степени ограничены лексическими, сегментными процессами и обычно имеют дело с фонологически управляемыми изменениями, генерируя альтернативное произношение для индивидуальных лексических единиц и сохраняя их в дополнительном словаре. Этот подход не может иметь дело адекватно с фонологическими процессами, которые соединяют границы слова, типа палатализации (смягчения). В этом случае полезна сегментация, которая, разлагая на слоги и слова речь, может обеспечить сведения для синтаксического анализа. Палатализация соединяет границы слова, но блокирована на границах главных синтаксических составляющих, так что ее отсутствие может использоваться, чтобы решить неоднозначность относительно присутствия такой границы в данном месте речевого сигнала.

Согласно артикуляционной теории звук образуется в 3 стадии:

1. экскурсия (приготовление);

2. произнесение;

3. рекурсия (расслабление).

В русском языке, так же как и во многих других, два типа звуков: гласные и согласные.

Гласные звуки характеризуются по ряду, длительности, лабиализации, напряженности; согласные — характеризуются по месту образования, способу, твердости/мягкости, глухости/звонкости, придыхательности.

Так как звуки речи произносятся неизолированно, а в звуковой цепи связной речи, то звуки могут, во-первых, влиять друг на друга, когда рекурсия предыдущего звука взаимодействует с экскурсией последующего, и, во-вторых, испытывать влияние общих условий произношения. В результате появляются следующие фонетические процессы:

· редукция (изменение длительности звуков в безударных словах: количественная/качественная). Она тесно связана с ударением: -силовое -количественное(ударный звук произносится более долго) -тоновое(изменение высоты тона).

· аккомодация - взаимное приспособление гласных и согласных(малый-мяло), качество согласного влияет на качество гласного и наоборот.

· ассимиляция - качественное уподобление смежных по произношению звуков. Бывает -прогрессивной (когда предыдущий звук влияет на последующий) -регрессивной (когда последующий звук влияет на предыдущий, например вокзал - [вогзал], лодка - [лотка]).

· диссимиляция - расподобление, когда из 2 одинаковых или подобных звуков получается 2 различных звука. Процесс, противоположный ассимиляции(кто - [хто]).

Фонема и звук - разные понятия, поскольку фонема - психическое явление, а звук — акустико-физиологическое.

Фонема – полифункциональная единица языка, которая: различает звуковые оболочки слов и морфем; доводит звуки речи до восприятия; является смыслоразличительная. При этом фонема - целиком психическое явление, равно как и аллофон, реализацией их в речи является звук. Одной фонеме могут соответствовать несколько различных ее реализаций или аллофонов. Аллофон - группа звуков, в которых реализуется данная фонема в зависимости от характера выполняемой ими функции, места в слове и соседства с другими звуками, а также ударности и безударности.

Для нахождения канонического фонемного представления слова русского языка в словаре по его фонетической форме произнесения необходимо учитывать следующее.

В русском языке существуют определенные буквенно-звуковые соотношения. К наиболее частотным и обычно вызывающим затруднение при написании транскрипции слова, или его звукового состава, относятся следующие:

- буква обозначает несколько звуков (е, ё, ю, я начале слова, после гласного, после разделительных Ь и Ъ): юла - [йула]. В отдельных случаях после Ь два звука может обозначать и гласная и: ручьи -[ручйи];

- несколько букв обозначают один звук (сч, жч, зч = [щ]; дс, тьс, тс = [ц]): возчик - [вощик], детский - [д'эцк'ий].

В зависимости от характера слога, в котором гласные звуки находятся, а их шесть: [а, о, э, у, ы, и] - они делятся на ударные и безударные. Все гласные могут находиться в ударном и безударном положении, но безударный гласный о встречается лишь в отдельных заимствованных словах: радио - [рад'ио].

Согласные звуки (их 36) характеризуются по твердости/мягкости и звонкости/глухости.

30 согласных образуют пары по твердости/мягкости: [б - б', в - в', г - г', д - д', з - з', к - к', ,л - л', м - м', н - н', п - п', р - р', с - с', т - т', ф - ф', х - х'].

Всегда твердыми, или твердыми непарными, являются [ж, ш, ц], а всегда мягкими, или мягкими непарными, - [й, ч, щ].

Всегда звонкими, или звонкими непарными, являются [й, л, м, н, р], а всегда глухими, или глухими непарными, - [х, ц, ч, щ].

Следует учитывать и наличие фонетических процессов, т.е. влияния звуков друг на друга в потоке речи. Например, произношение предлога к в положении перед глухим и звонким (к тебе - [кт'эб'э], к дому - [гдому]), начальную и в изолированном употреблении и при наличии предлога (идеал - [ид'эал], в идеале - [выд'эал'э]).

В некоторых случаях допускается несколько вариантов произношения того или иного слова: мясной - [м'исной] и [м'эсной], (о) терпении - [т'эрп'эн'ии], [т'эрп'эн'ийэ], [т'ирп'эн'ии] и [т'ирп'энийэ], цепочка - [цэпочка] и [цыпочка].

Основные прикладные аспекты фонетических исследований в речевых технологиях - автоматическое распознавание речи, синтез речи, идентификация говорящего по характеристикам речевого сигнала.