Разработка естественноязыковых интерфейсов и машинный перевод

165

166

167

168

В 50-х гг. одной из популярных тем исследований искусственного интеллекта являлась область машинного перевода. Первая программа в этой области – переводчик с английского языка на русский. Первая идея – пословный перевод, оказалась неплодотворной. В настоящее время используется более сложная модель, включающая анализ и синтез естественноязыковых сообщений, которая состоит из нескольких блоков. Для анализа это:

морфологический анализ – анализ слов в тексте;

синтаксический анализ – анализ предложений, грамматики и связей между словами;

семантический анализ – анализ смысла каждого предложения на основе некоторой предметно-ориентированной базы знаний;

прагматический анализ – анализ смысла предложений в окружающем контексте на основе собственной базы знаний.

Синтез включает аналогичные этапы, но несколько в другом порядке.

Распознавание образов

Традиционное направление искусственного интеллекта, берущее начало у самых его истоков. Каждому объекту ставится в соответствие матрица признаков, по которой происходит его распознавание. Это направление близко к машинному обучению, тесно связано с нейрокибернетикой.

Новые архитектуры компьютеров

Это направление занимается разработкой новых аппаратных решений и архитектур, направленных на обработку символьных и логических данных. Создаются Пролог- и Лисп-машины, компьютеры V и VI поколений. Последние разработки посвящены компьютерам баз данных и параллельным компьютерам.

Интеллектуальные роботы

Роботы – это электромеханические устройства, предназначенные для автоматизации человеческого труда.

Идея создания роботов исключительно древняя. Само слово появилось в 20-х гг. Его автор – чешский писатель Карел Чапек. Со времени создания сменилось несколько поколений роботов.

Роботы с жесткой схемой управления. Практически все современные промышленные роботы принадлежат к первому поколению. Фактически это программируемые манипуляторы.

Адаптивные роботы с сенсорными устройствами. Есть образцы таких роботов, но в промышленности они пока не используются.

Самоорганизующиеся, или интеллектуальные, роботы. Это конечная цель развития робототехники. Основная проблема при создании интеллектуальных роботов – проблема машинного зрения.

В настоящее время в мире изготавливается более 60 тыс. роботов в год.

Специальное программное обеспечение

В рамках этого направления разрабатываются специальные языки для решения задач невычислительного плана. Эти языки ориентированы на символьную обработку информации – LISP, PROLOG, SMALLTALK, РЕФАЛ и др. Помимо этого создаются пакеты прикладных программ, ориентированные на промышленную разработку интеллектуальных систем, или программные инструментарии искусственного интеллекта, например KEE, ARTS[10]. Достаточно популярно создание так называемых пустых экспертных систем, или "оболочек", – EXSYS, M1 и др., в которых можно наполнять базы знаний, создавая различные системы.

Обучение и самообучение

Активно развивающаяся область искусственного интеллекта. Включает модели, методы и алгоритмы, ориентированные на автоматическое накопление знаний на основе анализа и обобщения данных. Включает обучение по примерам (или индуктивное), а также традиционные подходы распознавания образов.

ДАННЫЕ И ЗНАНИЯ

При изучении интеллектуальных систем традиционно возникает вопрос – что же такое знания и чем они отличаются от обычных данных, десятилетиями обрабатываемых ЭВМ. Можно предложить несколько рабочих определений, в рамках которых это становится очевидным.

Данные– это отдельные факты, характеризующие объекты, процессы и явления в предметной области, а также их свойства.

При обработке на ЭВМ данные трансформируются, условно проходя следующие этапы:

данные как результат измерений и наблюдений;

данные на материальных носителях информации (таблицы, протоколы, справочники);

модели (структуры) данных в виде диаграмм, графиков, функций;

данные в компьютере на языке описания данных;

базы данных на машинных носителях.

Знания связаны с данными, основываются на них, но представляют результат мыслительной деятельности человека, обобщают его опыт, полученный в ходе выполнения какой-либо практической деятельности. Они получаются эмпирическим путем.

Знания– это выявленные закономерности предметной области (принципы, связи, законы), позволяющие решать задачи в этой области.

При обработке на ЭВМ знания трансформируются аналогично данным:

знания в памяти человека как результат мышления;

материальные носители знаний (учебники, методические пособия);

поле знаний - условное описание основных объектов предметной области, их атрибутов и закономерностей, их связывающих;

знания, описанные на языках представления знаний (продукционные языки, семантические сети, фреймы – см. далее);

базы знаний.

Часто используются такие определения знаний:

знания – это хорошо структурированные данные, или данные о данных, или метаданные.

Существует множество способов определять понятия. Один из широко применяемых способов основан на идее интенсионала. Интенсионал понятия – это определение через понятие более высокого уровня абстракции с указанием специфических свойств. Этот способ определяет знания. Другой способ определяет понятие через перечисление понятий более низкого уровня иерархии или фактов, относящихся к определяемому. Это есть определение через данные, или экстенсионал понятия.

Пример 16.1.Понятие "персональный компьютер". Его интенсионал: "Персональный компьютер – это дружественная ЭВМ, которую можно поставить на стол и купить менее чем за $2000 - 3000".

Экстенсионал этого понятия: "Персональный компьютер – это Mac, IBM PC, Sinkler...".

Для хранения данных используются базы данных (для них характерны большой объем и относительно небольшая удельная стоимость информации), для хранения знаний – базы знаний (небольшого объема, но исключительно дорогие информационные массивы). База знаний – основа любой интеллектуальной системы.

Знания могут быть классифицированы по следующим категориям:

поверхностные – знания о видимых взаимосвязях между отдельными событиями и фактами в предметной области;

глубинные - абстракции, аналогии, схемы, отображающие структуру и процессы в предметной области.

Современные экспертные системы работают в основном с поверхностными знаниями. Это связано с тем, что на данный момент нет адекватных моделей, позволяющих работать с глубинными знаниями.

Кроме того, знания можно разделить на процедурные и декларативные. Исторически первичными были процедурные знания, т.е. знания, "растворенные" в алгоритмах. Они управляли данными. Для их изменения требовалось изменять программы. Однако с развитием искусственного интеллекта приоритет данных постепенно изменялся, и все большая часть знаний сосредоточивалась в структурах данных (таблицы, списки, абстрактные типы данных), т.е. увеличивалась роль декларативных знаний.

Сегодня знания приобрели чисто декларативную форму, т.е. знаниями считаются предложения, записанные на языках представления знаний, приближенных к естественному и понятных неспециалистам.

Существуют десятки моделей (или языков) представления знаний для различных предметных областей. Большинство из них может быть сведено к следующим классам:

продукционные;

семантические сети;

фреймы;

формальные логические модели.