Системы автоматического распознавания речи

СОДЕРЖАНИЕ

Введение

1. Естественный языковой интерфейс. Основные понятия

2. Системы автоматического распознавания речи

3. Диалоговые информационные системы (ИС)

4. Программная и аппаратная реализация диалоговых ИС

Заключение

Библиографический перечень

Введение

С момента появления первых ЭВМ одним из наиболее важных вопросов развития компьютерной техники был процесс взаимодействия человека с машиной. Долгое время это было доступно только узким специалистам – технологи «общались» с машиной через посредника-программиста. Такая ситуация просуществовала вплоть до появления диалогового интерфейса, когда пользователь смог лично вводить с клавиатуры адресованную машине команду и получить осмысленный ответ. Дальнейшее появление графического интерфейса, в котором отпала необходимость в знании человеком каких-либо команд, привела к повсеместному распространению персональных компьютеров.

Однако человек всегда стремился к более универсальному и естественному способу взаимодействия с ЭВМ. Еще в эпоху перфокарт в научно-фантастических романах человек с компьютером разговаривал, как с равным себе. Тогда же были предприняты первые шаги по реализации речевого интерфейса [1]. В 1971 г. была начата разработка самого крупного проекта, когда-либо предпринимавшегося на то время в области распознавания речи, после того, как Advanced Research Project Agency (ARPA) министерства обороны США приняло 5-летний проект по созданию машин, которые позволяют «понимать» произносимые слитно предложения и объем словаря которых составлял 1000 слов. В конце 1976 г. было представлено несколько систем, одной из которых была HARPY. Эта система правильно понимала 95% произносимых пятью операторами предложений, используя словарь объемом 1011 слов и строго ограниченную грамматику предложений.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking,VoiceNavigator) переводят голос пользователя в текст, таким обра-

зом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

В настоящее время широкое распространение получили системы распознавания голоса для мобильных телефонов: GOOGLE SEARCH для ANDROID

и SIRI для iOS5.Основным преимуществом голосовых систем является дружественность к пользователю — он избавляется от необходимости продираться сквозь сложные и запутанные лабиринты голосовых меню. Теперь достаточно произнесения цели звонка, после чего голосовая система автоматически переместит звонящего в нужный пункт меню.

 

Естественно-языковой интерфейс. Основные понятия

Естественно-языковой пользовательский интерфейс, рассматривается как специализированная интеллектуальная система, обеспечивающая диалог между прикладной вопросно-ответной системой и пользователем. Являясь интеллектуальной системой, естественно-языковой интерфейс включает в себя базу знаний, машину обработки знаний и пользовательский интерфейс.

Функционал естественно-языкового интерфейса можно выделить следующий:

-возможность ввода сообщения в естественно-языковой форме посредством текста или речи;

-трансляция сообщения пользователя на внутренний язык интеллектуальной системы;

-трансляция ответа системы в тексты естественного языка в форме текста или речи.

Данный функционал естественно-языкового интерфейса интеллектуальной справочной системы определяет структуру интеллектуальной системы естественно-языкового интерфейса.

Структура естественно-языкового интерфейса должна состоять из следующих составляющих:

-пользовательский интерфейс, посредством которого происходит ввод сообщений пользователем и вывод ответа системы пользователю;

-трансляторы естественно-языковых запросов на sc-язык вопросов;

-трансляторы sc-конструкций на естественный язык.

Общая структура естественно-языкового пользовательского интерфейса представлена на рис. 1

Рис.1 – Структурная схема ЕЯИ

 

Машина обработки знаний естественно-языкового интерфейса включает в себя операции обеспечивающие обработку различных лингвистических конструкций, перевод внешних языков на семантические языки интеллектуальной системы и обратно. Все компоненты машины обработки знаний естественно-языкового интерфейса можно разделить на трансляторы и анализаторы. Задачей трансляторов является перевод знаний из одного языка представления знаний в другой, к примеру, транслятор фактографических знаний по предметной области в текст на естественном языке. Задачей анализаторов является анализ фрагментов знаний и выявления ранее неизвестных фактов, к примеру, анализатор запроса пользователя направленный на поиск цели и задачи вопроса.

Трансляторы естественно-языкового интерфейса, в минимальной конфигурации, должны включать в себя транслятор ограниченного естественного языка на язык вопросов и транслятор фактографических знаний на ограниченный естественный язык.

Трансляторы естественно-языкового пользовательского интерфейса должны осуществлять обработку информационных структур полагаясь исключительно на описание синтаксиса используемого языка и описание семантики предметной области. Описание синтаксиса используемого языка записывается в лингвистической и предметной базах знаний. В лингвистической базе знаний так же должны быть описаны специфические для данной области знания о языке. Такой фрагмент базы знаний может представлять собой отдельный ip-компонент, т.к. он представляет ценность только в совокупности с предметной и лингвистической базой знаний.

Цикл работы естественно-языкового интерфейса начинается с ввода пользователем сообщения на естественном языке, посредством ввода текста или голосового ввода. По введенному в систему тексту строиться его формальное отображение в памяти системы. Все предшествующие результаты анализа используются в анализе последующих запросов, что позволяет системе сохранять ход диалога с пользователем и разрешать спорные моменты, связанные с использованием одних и тех же терминов в разных предметных областях.

Первым этапом анализа запроса пользователя является морфологический анализ. На данном этапе для каждой словоформы, в формальной записи предложения, строятся отношения в соответствии значений её грамматических категорий, т.е. совокупности грамматических значений (род, падеж, склонение и т.д.). Грамматические категории могут присутствовать в базе знаний естественно-языкового интерфейса явно (словоформа присутствует в словаре с описанием её грамматических категорий), либо грамматическая категория может выявляться на основании морфологических правил используемого естественного языка. Такой подход позволяет разработчику, при проектировании естественно-языкового интерфейса, выбирать между быстродействием и объемом проектируемой базы знаний.

На этапе лексического анализа строятся отношения синтаксических связей внутри предложения, выделяются главные и второстепенные члены предложения, выявляется тип предложения и т.д. Такой анализ протекает поэтапно “наращивая” формальное описание структуры предложения, используя информацию, полученную на этапе морфологического анализа. На этом этапе используются лексические и синтаксические правила используемого языка. В общем случае, такие правила описывают критерии существования синтаксических связей в предложении, при анализе предложения проверяется соответствие таким критериям, и в зависимости от результата создаются либо удаляются соответствующие связи в предложении.

Результатом этапа лексического анализа является формальное описание лексического разбора предложения в памяти естественно-языкового интерфейса. На следующем этапе, семантический анализ, строятся отношения эквивалентности элементов предложения и узлов в памяти системы.

Данный этап является наиболее сложным этапом обработки естественно-языкового текста. В рамках используемой технологии, семантический анализ, представляет собой обработку семантической сети, отражающую результат анализа естественно-языкового текста на всех предыдущих этапах, а так же присутствующих в системе знаний о языке и предметной области основной системы. На этом этапе происходит соотношение лингвистической конструкций и

конструкций в памяти системы, для выявления отношения соответствия, эквивалентности и т.д.

Результатом семантического анализа является конструкция запроса к системе. Сложность в получении такого результата заключается в семантической неполноте исходного естественно-языкового вопроса. Например, вопрос «В какой класс многоугольников входит понятие квадрата?» в развернутом виде будет выглядеть следующим образом: «Какое понятие является подмножеством понятия многоугольника и надмножеством понятия квадрат?». Из примера видно, что, в процессе развертки, произошли следующие подстановки: высказывание «входит»

было развернуто в «является подмножеством», «квадрата» - «понятие квадрата», «класс многоугольников» - «понятие, являющееся подмножеством понятия многоугольника», «многоугольник» - «понятие многоугольника». Вопросы, сгенерированные естественно-языковым интерфейсом, обрабатывает универсальный решатель вопросно-ответных систем, являющийся частью вопросно-ответной системы по соответствующей предметной области. Стоит заметить, что универсальный решатель использует знания и лингвистической базы знаний, таким образом, система может отвечать на вопросы связанные с используемым естественным языком.

Системы автоматического распознавания речи

Система автоматического синтеза речи, синтезатор речи, модель генерации речевых параметров, модель генерации речевого сигнала, синтезатор речевых параметров, синтезатор речевого сигнала, оценка качества синтеза речи, разборчивость, фразовая разборчивость, словесная разборчивость, слоговая разборчивость, звуковая разборчивость, естественность (натуральность) речи, мультимодальность речи, многоязычие.

Под системами автоматического синтеза речи (иначе их еще называют синтезаторами речи) понимают системы, преобразующие орфографический текст и другую информацию в звучащую речь. Общепринятое в английской литературе обозначение – TTS (Text ToSpeech) System – системы преобразования текста в речь.

Упрощенная структурная схема системы автоматического синтеза речи представлена на рис. 1.2.

 

Под моделью анализа речевого сигнала понимают блок, в задачи которого входит анализ входного сигнала, во-первых, с целью отнесения его к числу речевых, а во-вторых, для выделения в составе полученного сигнала компонент, которые являются основными для распознавания полученного сообщения. К таким компонентам относятся параметры, описывающие речь, аналогичные тем, которые формируются в процессе синтеза речи. Набор указанных параметров

зависит от избранного метода распознавания, что более подробно будет рассмотрено ниже, в разделе.

Модель распознавания речи и принятия решения – это блок, в рамках которого осуществляется формирование распознанного сообщения на основе анализа последовательности параметров, полученных из первого блока. Например, если используется формантная модель описания речи, то на основе полученных в первом блоке частот формант строится последовательность распознанных фонем, составляющих входное сообщение. При этом осуществляется принятие решения о том, распознано ли входное сообщение правильно. При принятии решения, в частности, возможны следующие решения: сообщение распознано правильно (подтверждением этого является текст, соответствующий нормам естественного языка) либо сообщение не распознано или распознано не правильно (такое решение принимается в случае наличия в распознанном сообщении явных, трудно исправимых автоматически ошибок или вообще полной бессмыслицы).

Очевидно, что главным показателем качества системы распознавания речи является точность распознавания. При этом на СРР накладываются разного рода ограничения, так как в целом задача распознавания речи является на порядок сложнее задачи синтеза. При распознавании речи очень многое зависит от условий распознавания, так как «уши» компьютера существенным образом отличаются от органов слуха человека. Для разработки высококачественной СРР не достаточно знаний только физических (акустических) особенностей речи. Необходимо также знание особенностей восприятия речи человеком и строения его органов слуха. Например, человек способен из услышанного им сообщения выявлять главное, что позволяет ему слышать даже в очень неблагоприятных условиях. Понимая смысл услышанного, человек может автоматически восполнять пробелы, т.е. догадываться о том, что ему не удалось расслышать. Комплекс указанных проблем исследуется в области биологии и психологии (в частности, в рамках когнитивной психологии [7]

(Андерсон Дж.2002кн-Когни_П)).

В качестве ограничений, накладываемых на САРР, можно привести следующие характеризующие их параметры:

• вид распознаваемой речи (пословное произношение с паузами в стиле речевых команд, четкое произношение без пауз в стиле “диктант”; спонтанная речь);

• объём словаря (ограниченный до 100, 200 и т.д. слов; неограниченный);

• степень зависимости от диктора (дикторозависимые; дикторонезависимые);

• синтаксические ограничения (отдельные слова; типовые фразы; искусственный язык; естественный язык);

• условия приёма речевых сигналов (контактные микрофоны; удаленные на расстояние более 1 м микрофоны);

• условия применения СРР (слабые или сильные помехи);

• надежность распознавания.