Повышение разборчивости речи путем ее обработки

Для последнего времени характерен повышенный интерес к проблеме создания систем автоматического распознавания речи, идентификации человека по голосу. Очевидна тесная связь такой проблемы с проблемой защиты речевой информации. Действительно, как в задачах автоматического распознавания речи, так и в задачах защиты речевой информации, «результирующий» речевой сигнал можно представить в виде:

где - исходный речевой сигнал; - импульсная переходная характеристика канала передачи; - шумовая помеха; - символ свертки.

Очевидно, разборчивость речи можно повысить, если поставить задачу такой коррекции (фильтрации) сигнала , результат которой максимально возможно приближался бы к исходному сигналу .

Постановка задачи коррекции речевых сигналов изображена на рис11.

Рис.11

Существует большое количество подходов к коррекции речевых сигналов, среди которых можно выделить две основные группы:

1) общие фильтрационные подходы, не учитывающие специфику речевых сигналов;

2) методы, основанные на специальных моделях речеобразования.

Вторая группа методов является более эффективной. Задача восстановления речевого сигнала при этом разбивается на три этапа:

1) оценивание параметров авторегрессионной модели речеобразования;

2) оценивание параметров передаточной функции среды и фоновых помех;

3) применение фильтрационной процедуры, на основе полученных оценок параметров, с целью восстановления искаженного сигнала.

Успешное развитие современных речевых технологий стало возможным во многом благодаря внедрению авторегрессионной (АР) модели речеобразования (рис.12).

Рис.12

Данная модель учитывает основные механизмы генерирования речевых сигналов и в то же время удобна при практическом применении. Однако искажения, вводимые в речевой сигнал вследствие его прохождения через акустическую среду или канал связи, приводят к отклонениям от данной модели, что влечет за собой существенное ухудшение характеристик систем обработки речи. Поэтому возникает необходимость в использовании систем предварительной коррекции речевых сигналов, обеспечивающих устранение или сведение к приемлемому уровню описанных искажений.

В [18] произведен обзор работ, посвященных системам цифровой коррекции речевых сигналов, а также предложены собственные методы такой коррекции. В качестве одного из наиболее эффективных методов фильтрации речевых сигналов называется калмановская фильтрация. Традиционные методы калмановской фильтрации речевых сигналов имеют итерационную структуру, что удобно при проведении обработки в реальном масштабе времени, однако требуют перевычисления всех внутренних переменных алгоритма при поступлении каждого нового отсчета речевого сигнала. Как следствие, существующие алгоритмы являются низкоэффективными в вычислительном плане. Вместе с тем, попытки модифицировать алгоритм калмановской фильтрации зачастую приводят к неприемлемому снижению точности вычислений. В [18] называется еще один недостаток существующих методов калмановской фильтрации – неспособность обрабатывать сигналы «блоками» - и предлагается эффективный алгоритм блочной калмановской фильтрации. Этот недостаток является принципиальным в задачах передачи речи по коммуникационным каналам. Заметим, однако, что он вряд ли важен в задаче защиты речи от утечки в акустическом и вибрационном каналах.

Интерес представляет рассмотренный в [18] метод «слепой деконволюции» речевых сигналов, направленный на устранение влияния передаточной функции среды . Спецификой предложенного в [18] подхода является использование единственного канала приема речевой информации, тогда как большинство существующих работ рассматривает ситуации многоканального приема информации.

Литература

1. Хорев А.А. Технические каналы утечки акустической (речевой) информации (http://st.ess.ru/publications/articles/tspi/tspi.htm)

2. Хорев А.А. Классификация и характеристика технических каналов утечки информации, обрабатываемой ТСПИ и передаваемой по каналам связи (http://st.ess.ru/publications/articles/tspi/tspi.htm)

3. ОАО “Электрозавод”, Лаборатория 11 (http://lab11.ess.ru/index.htm ) Система комплексной защиты “СКИТ-М” и трехканальный генератор виброакустических помех.

4. Барсуков В.С. Интегральная защита информации (http://st.ess.ru/publications/articles/tspi/tspi.htm)

5. Барсуков В.С. Интегрированная защита специальных экранированных помещений (http://st.ess.ru/publications/articles/tspi/tspi.htm)

6. Покровский Н.Б. Расчет и измерение разборчивости речи. – М.,Связьиздат,1962,390с.

7. ГОСТ Р 50840-95. Государственный стандарт Российской Федерации. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. Издание официальное. – М.: Госстандарт России, 1997.

8. Сапожков М.А. Речевой сигнал в кибернетике и связи. – М.,Связьиздат,1963.

9. Вахитов Я.Ш. Слух и речь. – Л., изд.ЛИКИ, 1973.

10. Сапожков М.А., Михайлов В.Г. Вокодерная связь. –М.,Радио и связь,1983,247с.

11. Железняк В.К., Макаров Ю.К.,Хорев А.А. Некоторые методические подходы к оценке эффективности защиты речевой информации//Специальная техника. – М.: 2000.– № 4.

12. Хорев А.А., Макаров Ю.К. К оценке эффективности защиты акустической (речевой) информации (http://st.ess.ru/publications/articles/tspi/tspi.htm)

13. Котович А.Е., Рябенький В.М. Спектрально-адаптированные нормы защиты речевой информации от утечки по акустическому каналу. – Безопасность информации, №1(9), 1998,сс.32-35.

14. Хекл М., Мюллер Х.А. Справочник по технической акустике. – Л.,Судостроение, 1980.

15. Каргашин В.Л. Проблемы активной защиты виброакустических каналов (http://st.ess.ru/publications/articles/tspi/tspi.htm)

16. Применение цифровой обработки сигналов. Под ред. Оппенгейма. – М., Мир, 1980, 544с.

17. Дідковський В.С., Луньова С.А. Основи архітектурної і фізіологічної акустики. – К., 2001

18. Семенов В.Ю. Разработка адаптивных методов коррекции речевых сигналов на основе авторегрессионной модели голосового тракта. – Диссертация канд.техн.наук, К., 2004, 172с.

19. Ковалгин Ю.А., Володин Э.И. Цифровое кодирование звуковых сигналов. С-Пб, КОРОНА принт, 2004, 231с.

Приложение