Современное состояние исследований и разработок в области информационных систем распознавания речи

1 1950-1965гг.: Начало исследований

Первые системы распознавания речи могли понимать только цифры, потому что компьютеры того времени были примитивными.

2 1970-е: Системы постепенно приобретают популярность

Системы распознавания речи сделали большие шаги в семидесятых благодаря интересу и спонсированию от министерства обороны США.

70-е годы отмечены еще несколькими этапами в данной технологии, например основанием первой коммерческой компании Threshold Technology, которая представила систему, интерпретирующую различные голоса.

3 1980-е: Распознавание речи оправдывает прогнозы

В следующей декаде благодаря новым подходам и технологиям словарный запас подобных систем вырос с нескольких сотен до нескольких тысяч слов и имел потенциал распознавания неограниченного количества слов. Одной из причин был новый статистический метод, больше известный как скрытая марковская модель.

Используя шаблоны для слов и звуковые паттерны, она рассматривала вероятность того, что неизвестные звуки могли быть словами. Эта база использовалась другими системами еще на протяжении двадцати лет

4 1990-е: Автоматическое распознавание речи получает широкое распространение

В девяностых компьютеры наконец-то получили быстрые процессоры, и программы по распознаванию речи стали жизнеспособными.

5 2000-е: Застой в распознавании речи

К 2001 году распознавание речи поднялось до 80-процентной точности, и прогресс технологии остановился. Технология распознавания речи получила второе дыхание после появления приложения Google Voice Search для iPhone.

В 2010 году Google добавил персональное распознавание в голосовой поиск телефонов под управлением Android

Также компания добавила распознавание голоса в свой браузер Chrome в середине 2011 года. Система Google теперь позволяет распознать 230 миллиардов слов.

Потом появилась Siri. Так же, как и система Goggle Voice Search, она полагается на облачные вычисления. Она использует те данные, которые ей известны о тебе, чтобы сгенерировать вытекающий из контекста ответ и отвечает на твой запрос, как некая личность.

6 Будущее: Точная и повсеместная речь

Итак, большое количество приложений указывает на то, что время распознавания речи пришло, эти приложения не только позволят контролировать компьютер с помощью голоса или конвертировать голос в текст — они будут также способны различать разные языки, позволят выбирать голос помощника из различных вариантов.

 

3.Для оценки эффективности систем распознавания речи применяют много показателей, интегральными же критериями оценки производительности таких систем служат точность распознавания речи (звуков, слов или фраз) и скорость обработки речевого сигнала.

учитывая ограниченные возможности существующих вычислительных ресурсов при решении таких сложных интеллектуальных задач как автоматическое распознавание речи человека, приходится находить компромисс между точностью и скоростью обработки. И тем не менее, главной проблемой остается точность распознавания, которая непосредственно завит от способа распознавания речи.

Выделяют несколько основных способов распознавания речи:

 

Способ распознавания Суть технологии Техническая реализация Применение
По отдельным командам Раздельное произнесение и последующее распознавание слова или словосочетания из небольшого заранее заданного словаря Точность распознавания ограничена объемом заданного словаря. При соблюдении этого условия данная технология позволяет достичь самой высокой достоверности распознавания Голосовая навигация по сайтам, системы «Умный дом», управление устройствами
По грамматике Распознавание фраз, соответствующих определенным заданным правилам (грамматике) Для задания грамматик используются стандартные XML-языки, обмен данными между системой распознавания и приложением, как правило, осуществляется по протоколу MRCP Системы голосового самообслуживания
По ключевым словам Распознавание отдельных участков речи Произнесенная речь не полностью преобразуется в текст - в ней автоматически находятся лишь те участки, которые содержат заданные слова или словосочетания. Поисковые системы, системы мониторинга речи
Слитная речь на большом словаре Эта технология самый труднореализуемый тип взаимодействия человека и машины – все, что сказано, дословно преобразуется в текст. Задача полноценного распознавания слитной речи не решена нигде в мире, однако, достоверность распознавания уже достаточно высока для использования технологии на практике Широкая сфера применения.

Как видно из сравнения самая высокая точность распознавания речи по отдельным командам. Эта технология за счет относительной простоты реализации и достаточно широкой сферы применения получила самое большое распространение, поэтому создание системы именно такого уровня будет наиболее востребованным в ближайшие годы. Исходя из этого, дальнейшее исследование по созданию информационной системы (ИС) голосового управления персональным компьютером (ПК) будет проводиться на основе этого способа.

 

4.Непосредственно для распознавания речевого сигнала в ИС голосового управления ПК целесообразно использовать готовое программное решение. Для этого проведем исследование рынка и обзор существующих программных продуктов.

Название системы Назначение Структур-ная единица Обуче-ние Поддерж- ка русского языка Дикторо-независи-мость Коэфф. расп., зависит от словаря Стоимость
Voice Digger   Поиск ключевых слов Слово, фраза Да Да Да до 97% ,
Typle Premium 2.0 Голосовое управление ПК Слово, фраза Да Да Да до 95% 0$-13$
Google Voice Search Голосовой поиск Слово, фраза Нет Да Да
Dragon NaturallySpeaking Голосовое управление, распознавание речи Нет Нет Нет до 98% 85-100$
ViaVoice Голосовое управление, распознавание речи Нет Нет Да до 95% 100-110$

Таким образом, для моделирования ИС голосового управления персональным компьютером наиболее подходящей по критерию цена-качество является система Typle Premium 2.0.

 

5.Основными проблемами существующих систем являются: отличие длительности звуков речи, голосовые различия отдельных людей, сильное влияние эмоционального состояния говорящего на изменения в его речи, потери и искажение звука при распространении в пространстве, усложнение системы обработки в связи с почти бесконечным числом вариаций звуков речи. Решение перечисленных проблем в проектируемой ИС будет осуществляется с помощью качественных устройств ввода команд, фильтрации и улучшения характеристик сигнала.

6.Моделирование процесса распознавания голосовых команд

Обобщенный процесс распознавания голосовых команд представлен на слайде В начале работы на экран выводится главное окно, и пользователь выбирает режим работы программы. После этого на динамик микрофона подается звуковой сигнал, за который отвечает подсистема ввода сигнала. Если выбран режим создания эталона, за который отвечает подсистема хранения базы данных (БД) голосовых команд и их идентификации, то программа обрабатывает и сохраняет входной сигнал с микрофона. Если же выбран режим распознавания, то программа обрабатывает результаты и сравнивает с заранее записанным эталоном в БД, сохраняет входной сигнал и переходит к его распознаванию с помощью программного продукта результат распознавания выводится на дисплей.