Информационное построение текста 5 страница

⇐ Назад

В итоге, комбинаторно-лексемная оценка гипотезы f_h, нормирован-ная относительно всей длины цепочки, определяется с помощью равенства

_L-_{1 L}

E_lex = 1/ C²_LS ·S j_{(h)k, (h)i}, k < s.

h_k_,=1 h_s=h_k_,+1

Подобно акустико-графической оценке оценка E_lex имеет штрафной характер: рост ее значения указывает на уменьшение совпадения двоек (троек) слово-форм гипотезы с аналогичными словосочетаниями в эталоне.

7.1.3. Ситуативный фильтр. Этот фильтр, направлен на выбор такой гипотезы, описывающей содержание текста-сигнала T или его фрагмента, ко-торая соответствовала бы прагматической информации, заложенной отправи-телем в T. Однако возможности его реализации сильно ограничены. Заглав-ный фильтр может эффективно работать при условии, что ЛА располагает, исчерпывающим и жестко-структурирован-ным описанием той предметной области, к которой принадлежит T. Формальная процедура, реализующая задачу “понимания”, строится в этом ситуации следующим образом.

Предположим, что имеется ПО, представляющая собой конечное множество ситуаций запросов, ответов, сообщений и управляющих команд

ПО = {St₁, St₂,...St_i,...St_n}.

Каждая ситуация может быть реализована с помощью конечного множества актов

St_i = {A₁, A₂,...A_j,..A_m},

причем за каждым актом A_j закреплены канонический запрос, команда, или указание К^k_j. Участники реального управленческого диалога часто отходят от канонических форм, используя их синонимические варианты. Поэтому каж-дый акт оформляется с помощью потенциально бесконечного подмножества реплик К_j, называемого классом условных эквивалентностей (КУЭ), который состоит из канонической команды (запроса) и их синонимов

A_j® К_j= {К^k_j.., К_j₁ , К_j₂..., К_jh }.

КУЭ, реализующий акт разрешения посадки самолета без дополнительных ограничений в ПО “Управление воздушным движением” см. в табл. 19.

На следующем шаге процедуры оценивается лингвистическое рассто-яние, отделяющее от канонической команды К^k_j и ее вариантов К_jhкаждую из пропущенных предыдущими фильтрами гипотезу о входном сигнале f_h . Эта задача решается исходя из следующих соображений:

 поскольку лексическая и особенно синтаксическая вариативность КУЭ практически ничем не ограничена, гипотеза

f_h =f_{(h)1, f(h)2},... f_(h)i,...f_(h)n

и команды K* (т. е. К^k_j, К_jh) будут сопоставляться не как кортежи, но как множества словоформ,

 каждой словоформе из команды K* приписывается экспертным путем семантический вес Ф_i, при этом естественно служебные и общеупотребите-льные ЛЕ имеют меньший вес, чем ключевые термины типа посадка, разрешите, разрешаю и т.п.,

 сумма весов словоформ команды есть постоянная величина

S Ф_i = const.

ⁱ⁼¹

Тогда каждую команду K* можно представить как неупорядоченное множество пар <ЛЕ, семантический вес>, т.е.

K* ® {< w₁, Ф₁>, <w₂, Ф₂>, < w_i, Ф_i>,...< w_L, Ф_L>}, L = çK*ç

В поступающем на вход ЛА потоке текстов-сигналов практически невозможно рассчитать семантический вес каждой с/ф. Поэтому гипотеза о лексико-грамматическом наполнении входного предложения-сигнала записывается как

f_h ={w₁, w₂, w_i,... w_M}, M = çf_hç.

Теперь последовательно оценим семантические несходства между гипотезой f_hи командами К*. Эти расхождения зависят от лексического соста-ва f_h, К*, а также от величин L, M, Ф_i . Количественно оценить эти расхожде-ния можно путем использования разностей и пересечения множеств f_h, К*:

Z₁= f_h\K*; Z₂= K*\ f_h; Z₃= f_hÇ K*, (см. рис. 21).

Z ₁Z ₃Z ₂

Рис. 21. Расхождение гипотезы f_h и команд K*.

Легко заметить, что величина расхождения между гипотезой и командой растет вместе с увеличением ½Z₁½и½Z₂½, а также с ростом суммарного веса команды SФ_i. Нормализовав функционал по длине гипотезы и команды с помощью множителя 1/(L + M), а также используя заранее заданные экспер-тами семантические оценки p₁ для Z₁и p₂ для Z₂, получаем прагматические оценки расхождения гипотезы и команды

D_pr(f_h,K*) = (p₁½Z₁½ + p₂½Z₂½)( Ф_i+1)/(L+M).

текста-сигнала T конкретной команде K* из множества команд K_j, реализующих акт A_j. Отсюда следует, что

E_pr = min D(f_h, K*)

есть наилучшая прагматическая оценка входного Т.

Обобщающая оценка гипотез, описывающих значение входного тек-ста-сигнала представляет собой взвешенную сумму синтактической, семан-тической и прагматической оценок

E_integr = [aE²_ag + a₂E²_lex + a₃E²_pr(A_j)]^½,

где a₁, a₂, a₃ являются заранее задаваемыми экспертами весовыми коэффи

циентами каждого из описанных фильтров. E_integr указывает на степень несответствия, существующего между каждой гипотезой и командой, реализующей акт А_j. Гипотеза, характеризующаяся наименьшей величиной E_integr, рассматривается как окончательное “озарение” ЛА, завершающее процесс рас-познания и “понимания” текста-сигнала. При необходимости ЛА может вы-дать пользователю несколько наиболее вероятных гипотез, интерпретирую-щих входной сигнал Т (cм. ниже 7.2).

Таблица 23. Канонический запрос пилота и КУЭ команда диспетчера

в переговорах "борт  земля" (Пулково, 1981г.), см. [16а; 44, c. 34 - 35]

Ситуация (St_i)	Запрос на посадку (П.)	Разрешение на П.	Частота употреб-ления команд
Акт (A_j)	П.без ограни -чений	П. Без ограничений
Канонический запрос	Разрешите посадку	Посадку разрешаю
Синонимические Варианты	Дайте посадку и др.	Посадка разрешена Посадку подтвер-ждаю К посадке готовы Разрешаю посадку Садитесь Посадка разреша-ется Посадку подтвер- дили Разрешено в сто- рону Пулкова посадку Вам и т.д.	......
		Всего команд

Как было сказано, описанная процедура, особенно ее последний фильтр, хорошо работает на текстах, которые порождаются закрытыми, жест-ко структурированными подъязыками-исчислениями типа языка управления воздушным движением. Планом содержания таких языков является заранее заданное дерево ситуаций и актов, каждому из которых соответствует опре-деленный КУЭ. Поэтому отождествление входного предложения-сигнала с одной из фраз КУЭ сигнализирует о том, что ЛА “понял” этот сигнал. Если же возникает необходимость перевести сигнал Т на другой язык, например, английский, то ЛА использует заранее введенный эквивалент (в нашем слу-чае cleared to land, соответствующий канонической команде K^k_j посадку раз-решаю, табл. 23). При этом отпадает всякая необходимость в сложном семан-тико-синтаксическом анализе входного и синтезе выходного предложений.

7.2. Рспознавание смысла фрагментов нежестко структурирован-

Ого документа

К текстам этого типа относятся типовые договоры и соглашения, про-гнозы погоды, отчасти тексты служебных (реже частных) телеграмм. Наряду с основной задачей, состоящей в автоматическом извлечении смысла и перево-де этих документов, заглавная процедура применяется при нормализации устных текстов, автоматическое распознавание которых дает большое количе-ство ошибочных решений. Она необходима и при пакетной переработке боль-ших массивов несегментированных письменных документов. Чаще всего та-кая нужда возникает при пакетной переработке китайских и японских текстов, в которых пробелы между "словами", записанными иероглифами или знака-ми слоговых азбук, специально не отмечаются. Если такой текст записан в

цифровых кодах (J IS или Плейна), то применение указанной процедуры не-обходимо для обнаружения ЛЕ (словоформ и словосочетаний), являющихся смысловыми квантами текста [1. С. 20; ср. 107. С. 73 - 92]. Тем более необхо-дим этот анализ при переработке потоков иероглифических документов, вво-димых в ЛА с помощью читающих устройств. Дело в том, что современные сканеры обычно предлагают потребителю практически для многих иерогли-фов несколько альтернативных интерпретаций.

Так, следящая автоматическая система, включающая сканер и ЛА, мо-жет распознать непрерывную цепочку китайских иероглифов

祝您幸福健康和一切都好(Zhù nín xìngfú jiànkāng hé yīqiē dōu hǎo), которая является традиционным поздравлением (желаю Вам счастья, здоровья и всего хорошего) только при условии, что эта цепочка будет заранее задана в китайско-русском автоматическом словаре. При пословном же пере-воде автомат будет выдавать не вполне осмысленные цепочки типа поздрав-лять Ваше благополучие здоровье и (мир/согласие/в сумме/подпевать) и т.п.

Выбрать из этих переводов правильный вариант (т.е. метеозапрос) по-могает процедура, включающая описанные акустико-графический, комбина-торно-лексический и ситуативный фильтры. Однако встречается немало не-сложных по своему построению документов, распознать смысловой образ ко-торых удается с помощью простого позиционного анализа текста.

В качестве простейшего примера рассмотрим пакетную перера-ботку ЛА потоков китайских телеграфных сообщений [78, с. 95 - - 100]. Все они строятся по следующей традиционной схеме:

АДРЕС ПОЛУЧАТЕЛЯ + СОДЕРЖАНИЕ ТЕЛЕГРАММЫ +

ПОДПИСЬ +АДРЕС ОТПРАВИТЕЛЯ

(последний указывается не всегда).

Это дает возможность сравнительно легко снимать многозначность

тех иероглифов и их сочетаний, которые, обозначая предметы, понятия и действия, одновременно являются географическим названиями. Так, попадая в адресную часть телеграммы иероглифы и их комбинации

1) 吉林 jílín, 2) 旅顺口lüshùnkôu

становятся сокращенными обозначениями следующих городов Китая:

1) Гирин, уезд Линьсянь в пров. Хэнань;

2) Люйшунькоу (Порт-Артур).

Если эти иероглифы попадут в содержательную часть телеграммы, то

ЛА с большой вероятностью правильного решения переведет их как:

1) свадьба, лесное хозяйство (лес),

2) бригада (отряд), вдоль по (приятный и др.), рот (отверстие, устье, порт и др.).

Более сложная ситуация возникает при переводе и каталогизации па-тентов. Хотя патентный документ ориентирован на каноническую организа-цию и использует большое количество традиционных штампов, обычно толь-ко первая часть, содержащая служебно-библиографическую информацию о стране патентования, номере патента, дате подачи заявки имеет стандартный вид и может быть "понята" и переведена ЛА с помощью простых приемов но-менклатурной обработки или исчисления. При этом, если говорить о патен-тах, написанных на английском языка, то указанная стандартизация выдержи-вается обычно в американских патентах. Британские патенты стандартизова-ны в меньшей степени. Что касается содержательной части патента, то здесь вариативность достаточно велика. Так, раздел, посвященный тому классу изо-бретений, к которому относится англоязычный патент, может быть озаглавлен и как Bakground of the Invention, и как Field of Invention. Раздел, где излагается суть изобретения, обозначается как Summary of the Invention или Description of the Invention и т.д.

Таким образом, если служебно-библиографические фрагменты патента мож-но перерабатывать, пользуясь описанными выше приемами, то к содер-жательным разделам приходится применять менее надежную методику ф р е й м о в. Сущность ее состоит в том, что автомату заранее сообщается тот сценарий, по которому будет предположительно развертываться обрабатыва-емый документ. Сценарий строится в виде системы фреймов. Каждый из них имеет шаблон-заголовок и набор информационных и чисто лингвистических признаков. По этим признакам ЛА находит в тексте фрагменты, содержащие сведения, которыми следует заполнить пустые поля (с л о т ы) фреймов сцена-рия [25. С. 213]. Эти текстовые фрагменты обрабатываются либо путем лекси-ческого анализа, т.е. через отождествление их ЛЕ с единицами автоматичес-кого словаря, либо по многоуровневому алгоритму анализа текста (см. ниже).

⇐ Назад