Фрейм и автоматическая переработка текста

 

Исследования 60 – 70-х гг. нечеткой природы когнитивных и комму-нкативи-ных процессов, в том числе механизмов образования речемыслитель-ных кате-горий, порождения и приема сообщения, привели к важным теорети-ческим выводам. Выяснилось, что рациональное сознание, на моделирование которо-го были нацелены системы искусственного интеллекта (ИИ) в 60-е – 80-е гг., является вторичным по отношению к нерефлексивному опыту, на ко-торый опирается человек при переработке речевой информации. Оказалось также, что эти процессы не универсальны. Они реализуются неодинаково кон-кретными индивидуумами или их коллективами. Каждый из них по-своему использует универсальные ментальные пространства, опираясь при этом на свой индивидуальный опыт, мировоззренческие и культурные ценности, свое целеполагание и скрытые мотивы, свою телесную организацию и эмоциона-льное состояние [108а]. Поэтому языковое поведение отдельного человека и коллектива сравнительно редко бывает последовательной реализацией зара-нее спланированной схемы. Чаще всего оно зависит от меняющегося контек-ста и субъективных оценок коммуникантов.

Отсюда следует, что при планировании и построении новых “интеллек-туальных” систем автоматической переработки текста (АПТ) и ЛА в частно-сти необходимо связать компьютерную метафору человеческого мышления и логистическую технологию инженерии знаний, выработанные в период пер-вой когнитивной революции 60-70-х гг., с идеями второй когнитивной рево-люции рубежа 80-х и 90-х гг. [93a. С. 25 – 35; 106a. С.. 3 и сл.].

Как известно, одним из популярных приемов организации выходного ре-зультата в системах ИИ, АПТ и обучающих лингвистических автоматов 60-х

– начала 90-х гг. (см. ниже) явилось использование заранее заготовленных шаблонов-ожиданий или фреймов. Этот прием был подсказан машинной

 

Таблица 24. Фреймовая аннотация французского патента и её перевод

Заполненные строки фрейма С Л О Т Ы
иноязычный вход русский выход
1 2 3
Страна патентования République Française Франция
Номер патента 2.046.469 2.046.469
Регистр. № заявки 70.15001 70.15001
Вид публикации Brevet d'invention Патент
Дата подачи заявки 24 avril 1970, 17 h. 24 апреля 1970, 17 h.
Дата опубл.патента 22 février 1971 22 февраля1971
Дата опубл. форм. изобретения и № бюллетеня 5.03.1973, B.O.P.I. "Listes" 5.03.1973, B.O.P.I. "Listes"
Международная классификация изобретения B 60 K 17/00 B 60 K 17/00
Заявитель Porsche AG: RFA Porsche AG: RFA
Название изобретения Transmission compound pour véhicule Сложная трансмиссия для транспортных средств
Текст патента на входном языке Transmission compound pour véhicule avec un convertisseur hydrodyna-mique de couple pouvant être ponté par un embra-yage friction... и т.д.  
Формула патента (набор ключевых слов и с/с)   Транспортных средств, сложная трансмиссия, гидро-трансформатор, крутящий момент, фрикционное сцепление и др.
Сегментирование текста на концептуальные поля и их перевод
Название предмета изобретения .   Сложная трансмиссия для транспортных средств
1 2 3
Назначение предме-та изобретения   Для транспортных средств с гидротранс-форматором крутя-щего момента, кото- рый можно монти-ровать при помощи и т.д.
Совокупность отли-чительных характе-ристик предмета изобретения   Отличающийся тем, что он монтирован/ собран/установлен в промежуточном кар-тере в двух частях и т.д.

метафорой человеческого интеллекта, предложенной в период первой ког-нитивной революции. Вторая когнитивная революция, как уже говорилось, поставила под сомнение предположение о жестко фреймовом характере са-мого человеческого мышления. Вследствие этого некоторые разработчики систем АПТ и ИИ спешат отказаться от применения фреймовой методики. Это выплескивание из “ванны информатики” вместе с водой (т.е. логиисти-ческой концепцией человеческого мышления) ребенка (иначе говоря, оправ-давшей себя технологии АПТ) еще раз свидетельствует о том, что многие со-временные специалисты в области компьютерной лингвистики и ИИ до сих пор не понимают сущности тех барьеров, которые отделяют речемыслитель-ную деятельность человека от "языка" компьютера.

Многолетний опыт построения промышленных и эксперименталь-ных систем машинного перевода (МП) и автоматического аннотирования в группе Статистика речи и выделившихся из нее в 90-х гг. коммерческих коллек-тивах показывает, что при помощи фреймов эффективно обрабаты-ваются стандартизованные документы типа устных реплик переговоров «борт – земля» (табл. 23), аннотируются и переводятся патенты (табл. 24, ср. [62a]). Неплохо обрабатываются с помощью фреймов стандартные пун-кты коммерческих дооворов (табл. 25), переводятся телеграммы (табл. 26), проводится атрибуция научно-технических документов (см. выше).

Как это следует из приведенных примеров, фреймы строятся по традиционной схеме, в которой заранее заполненные топиковые (тематиче-ские) строки сопровождаются пустыми "дырами" – слотами. В них ЛА должен вставить обнаруженные им в тексте рематические комментарии. Задача алгоритмизатора состоит в том, чтобы передать в базу знаний ЛА индикаторы, выявляющие с достаточно большой вероятностью и отправ-ляющие в слоты те рематические фрагменты текста, которые комментиру-ют соответствующие им топиковые строки. Алгоритм, достаточно полно учитывающий вероятности коммуникативно- семантических связей между заранее заданными во фрейме топиками и попадающими в слоты тексто-выми фрагментами или их переводами, не только дает возможность ЛА передать содержание текста, но также обеспечивает пользователю опре-деленный психологический комфорт при восприятии машинной аннотации, перевода и т.п.

 

Таблица 25.Фрейм для анализа и синтеза начального фрагмента

коммерческого договора

Заполненные строки фрейма С Л О Т Ы  
Предприятие Вставляется название предприятия
- Именуемое в дальнейшем ЗАКАЗЧИК, с одной стороны, и предприятие Вставляется название предприятия
-Именуемое в дальнейшем ИСПОЛНИТЕЛЬ, с другой стороны, заключили настоящий Контракт о нижеследующем: Вставляются формули-ровки существа догово-ра и обязанностей заказ-чика и исполнителя)

Уязвимой стороной фреймовой методики является то, что выбранный систе- мой рематический фрагмент может попасть в “чужой” слот. Так, если ЛА, анализирующий китайскую телеграмму, поместит лексические единицы lüshùnkŏu или jílín не в адресный, а в текстовой слот, то ЛА переведет их в первом случае как бригада (отряд)вдоль по (приятный и др.) - устье (от-верстие, рот, порт), а во втором – как свадьба, лес (лесное хозяйство), но не как названия городов Порт-Артур (Люйшунькоу) и Гирин.

 

Таблица 22. Фрейм для анализа и перевода китайской телеграммы

Заполненные строки фрейма Слоты
китайский текст русский перевод
АДРЕС lüshùnkŏu 12/324 Порт-Артур 12/324
АДРЕСАТ Zhāng Wèn-huāng Чжан Вэнь-хуан
СОДЕРЖАНИЕ ТЕЛЕГРАММЫ Zhù nín giànkāng Желаю Вам крепкого здоровья
ОТПРАВИТЕЛЬ Bèi Gùei-mài Бэй Гуэй-май
АДРЕС ОТПРАВИТЕЛЯ jílín 10/517 Гирин 10/517

Развивая фреймовую методику, группа “Статистика речи” работает над созданием шаблонов, позволяющих организовать нормативный пере-вод многокомпонентных терминологических словосочетаний, а затем в бу-дущем и простых предложений. Этот подход, наиболее подробно разрабо-танный в кандидатской диссертации А.В.Ивкиной, опирающийся на сов-мещение тезаурусного описание лексики подъязыков с ориентирован-ным на эти подъязыки набором текстовых фреймов, представляет собой попыт-ку смоделировать в ЛА функционирование триады система языкасис-тема речитекст. Преимуществом этого подхода является то, что фрей-мовая матрица заранее задает нормализованную семантико-синтаксичес-кую и морфологическую структуру выходного текста, упрощая тем самым его синтез. Одновременно у адресата создается иллюзия того, что система стремится понять содержание входного текста. Такая иллюзия повышает комфортность восприятия реферата или перевода со стороны потребителя. Рассмотрим аспекты тезаурусно-фреймовой технологии.

Предварительно строится древесный тезаурус, представляющий собой ментальную модель указанной ПО. На узлах тезауруса помещены термино-логические лексические единицы (с/ф или с/с), каждой из которых припи-сан код узла (см. рис. 22, cр. [88a]). Затем создаются входные и выходные фреймы-матрицы, причем каждой входной матрице соотнесена одна и толь-ко одна выходная матрица (но не наоборот). Последовательность и коды слотов матриц отражают, с одной стороны, соотношение узлов отраслевого тезауруса; с другой – они моделируют семантико-синтаксические схемы терминологических с/с в соответствующем языке. На том же рисунке пока-заны схемы английской и соответствующих ей русской и французской фрей-мовых матриц, которые организуют терминологические с/с из подъязыков «Телекоммуникация» и «Телефония» вместе с вводящими их служебными словами, а также следующими за этими с/с предикативными реляторами типа is used in ‘используется в’.


 

 

 
32.12.2 Time division multiple access  
6.Data transmission ББК 32.973.202  
5.Post УДК 656.8
4.Radio service УДК 654.19 ББК 32.884
3. Telephony УДК 621.395 ББК 32.882  
2. Television УДК 621.397.13
1.Телеграфия УДК 621.394 ББК 32.881
Telecommunication



Английский язык  
Препозиционные текстовые реляторы Слоты зависимых препозиционных компонентов и их коды Центральный слот для ядерной словоформы Постпозиционные текстовые реляторы  
Предлоги, союзы, союзные c/с Артикли, прилагате-льные, местоимения Типы телефонной сети по удалённости соеди- по используемым няемых абонентов программным и тех- ническим средствам Система, объединя- яющая воедино час- ти сети Предлоги, союзы, прилагательные, глаголы, причастия, словосочетания
If, when a, the, this 31.12.1 (31.12.2; 31.12.3) long distance 31.12 telephone 31.1 network is used for…
             

 
 

 


если, когда этот, такого рода телефонная сеть дальней связи используется для...
Предлоги, союзы, союзные словосочетания Прилагательные, местоимения, словосочетания Способ использования программных и тех- нических средств Система, объеди- няющая воедино части сети Тип по удалённости соединяемых абонентов Предлоги, союзы, прилагательные, гла-голы, причастия, с/с
Препозиционные текстовые реляторы Слот зависимых препозиционных компонентов и их коды Центральный слот для ядерной словоформы Слот зависимых пост-позиционных компо-нентов с предложными реляторами и их коды Постпозицион-ные текстовые реляторы
Русский язык

 
 

 


Si, quand un, le, ce   réseau   téléphonique á grandes distances est utilisé pour  
Предлоги, союзы, союзные словосочетания Артикли, прилагательные, Местоимения Система, объеди- няющая воедино части сети Способ использования программных и тех- нических средств Тип по удалённости соединяемых абонентов Предлоги, союзы, с/с прилагательные, глаголы, причастия,
Препозиционные текстовые реляторы Центральный слот для ядерной словоформы Слот зависимых постпозиционных беспредложных компонентов и их коды Слот зависимых постпозиционных компонентов с предложными реляторами и их коды Постпозиционные текстовые реляторы
Французский язык

 
 

 


Рис. 22. Фрагмент тезаурусной сети с иерархическими отношениями подъязыка «Телефония» в сочетании с фреймовым переводом английского многокомпонентного термина и его окружения на русский и французский языки.

 

 
 
 


 


7.4. Многоуровневая переработка неструктурированного текста

 

Наиболее сложной задачей является переработка неструктурованных текстов, таких как общественно-политические документы, научные статьи и т. п. Единый типовой алгоритм их АПТ создать не удается, поскольку возмо-жность типовой алгоритмизации и виды cамих алгоритмов зависят от устро-йства и синергетики языка. Так, алгоритм анализа и синтеза тюркской с/ф выглядит иначе, чем схемы разбора и сборки русской с/ф [66. С. 49 - 50]. Не удается также применить алгоритм лексико-грамматического анализа англий-ского предложения к близкородственному голландскому языку. В то же вре-мя обнаруживается, что некоторые блоки английского семантико-синтаксиче-ского анализа оказываются пригодными при построении анализа китайского предложения. Поэтому придется ограничиться изложением общих принци-пов многоуровневой АПТ, опирающейся на информационно-статистический подход. Используем для этого описание организации алгоритмов МП, приве-денную в работах [5. С. 38 - 46; 38. С. 42 - 50; 79. С. 26 - 35]. Весь процесс работы МП=модуля организован здесь в виде многоуровневой блочной иерар-хии, каждый блок которой осуществляет перевод лингвистических единиц на следующих уровнях:

1) словарном, на котором производится перевод с/ф и устойчивых лексикализованных с/с;

2) микросегментном, на котором выполняется перевод отдельных суб-стантивных с/с, а также вербальных групп, ядром которых служат личные и неличные формы глагола;

3) макросегментном, на котором достигается опознание и обработка -

функциональных сегментов, т.е. групп подлежащего, сказуемого, дополнения, обстоятельств;

4) уровне предложения, на котором выявляется синтаксическая струк-

тура входного предложения и подбирается соответствующая ей выходная -

структура;

5) конечном (текстовом) уровне, на котором должна быть осуществлена окончательная корректировка и разметка результатов МП, исходя из тема-тики, структуры и прагматики текста.

Поскольку функционирование модулей начального ("нулевого") уров-ня было описано в разделах 6.1.1, 7.1.1 и 7.1.2, ограничимся общим описанием работы блоков, соответствующих названным уровням.

Каждый блок отвечает здесь за опознание входных лингвистических единиц (или групп) соответствующего уровня, их описание и подбор выход-ных эквивалентов. При этом входное предложение Т преобразуется на каждом уровне в цепочку пар:

входная единица/группа (u) + ее лексико-грамматическая или семантико-синтаксическая характеристика (c) и выходная единица/группа (u') + ее характеристика (c'), т.е.

 

T = u1c1,u'1c'1, u2c2,u'2c'2,...uic i,u'ic'i,...uncn,u'nc'n.

 

Само собой разумеется , что характеристики c и c' потребителю обычно не сообщаются.

Переработка текста опирается здесь на идею пошагового уменьшения неопределенности. Она идет снизу вверх от лексических фактов к семанти-ко-синтаксической цели. На низшем уровне ЛЕ и фразы-шаблоны, о кото-рых говорилось выше, получают свои лексико-грамматические характери-стики c и c' прямо из автоматического словаря. Для единиц или групп более высоких уровней семантико-синтаксические ко характеристики пере-даются снизу либо вырабатываются в соответствующем блоке. Как уже говорилось, при па-кетной переработке больших потоков ненормали-зованных, а иногда и дефек-тных текстов каждая система АПТ постоянно сталкивается со "сбойными" ситуациями. Рассмотрим наиболее типичные случаи таких сбоев и приемы их преодоления.

1. Если на n-ом уровне процесса МП происходит отказ от формирования структуры выходного текста, потребителю выдаются те результаты перевода, которые получены ЛА на предыдущем уровне.

2. Если на n-ом уровне автомат вырабатал несколько выходных схем,

- то на (n+1)-й уровень передаются все выходные варианты, чтобы эта многозначность была разрешена на следующих уровнях пользователем или самим ЛА;

- ЛА выбирает тот выходной вариант, который структурно оказывается ближе всего к семантико-синтаксической схеме входа и поэтому нуждается в минимальном ее преобразовании.

Проиллюстрируем эти ситуации на двух примерах.

Предположим, что ЛА перерабатывает заголовок английского докумен-та "Hierarchical indexed direct-access method", русским эквивалентом которого является сложный термин иерархический индексно-прямой метод доступа. Поскольку речь идет об именном словосочетании, то в переводе участвует только два блока: словарный и микросегментный. Поведение автомата и ре-зультаты его работы зависят здесь от информации, заложенной в автоматиче-ском словаре (АС), и от правил построения выходной именной группы, кото-рыми располагает микросегментный блок. Рассмотрим случай, при котором

1) АС содержит только английские словоформы и их русские переводы, а словосочетания и слова, соединенные дефисом в нем отсутствуют;

2) микросегментный уровень содержит правило, согласно которому анг-лийская группа "существительное1 + существительное2" (stone wall) транс-формируется в словосочетание "существительное2 + (предлог) + существи-тельное1 в косвенном падеже" (стена [из] камня). В этом случае МП нашего заглавия будет выглядеть как Иерархический индексный прямой метод доступа (*).

Введем для микросегментного уровня еще одно правило, согласно кото-рому прилагательные, входящие в именную группу, рассматриваются как определения к ближайшему правому существительному. Тогда перевод примет вид Метод иерархического индексного прямого доступа.

Далее преобразуем АС, вводя в него такие машинные обороты, как direct access ― прямой доступ, access methode ― метод доступа, без указания на их приоритеты. В этом случае ЛА будет выдавать наряду с двумя первыми вариантами еще один перевод ― иерархический индексный метод прямого доступа. Исходя из названных правил, автомат должен передать на макро-сегментный уровень либо первый перевод (*), поскольку он структурно бли-же всего к английскому оригиналу, либо все три варианта.

Однако ни один из перечисленных вариантов не соответствует приве-денному выше и зафиксированному во всех терминологических словарях рус-скому обозначению рассматриваемого понятия. Причина здесь в том, что построение русского нормативного терминологического словосочетания идиоматично, т.е. неизоморфно по отношению к английскому прототипу. Чтобы получить адекватный перевод английского заголовка в автоматичес-кий словарь следует включить устойчивое с/с direct access method - прямой метод доступа, снимающее противоречие между оборотами direct access и access methode.

Второй пример иллюстрирует проход системы МП по всем пяти уров-ням переработки текста (детали, связанные с устранением лексико-грамма-тической неоднозначности, мы опустим).

Исправленная спеллером на нулевом уровне и адаптированная к линг-вистическому обеспечению системы английская фраза A man attacking and eating fish called the piranha is found in the tropical fresh-water region of South America поступает на лексический уровень переработки, который способен выдать грамматически неоформленный пословно-пооборотный подстрочник типа Человек атакующий/охотящийся и питающийся/поедающий рыба называемый пиранья есть/является найденный/найден в тропический пресная вода/пресноводный регион Южная Америка.

На микросегментном уровне осуществляется формирование именных и глагольных групп, в результате чего образуется два варианта пооборотного перевода:

1) человек, охотящийся на и поедающий рыба, называемая пиранья, есть найден в тропические/тропических пресноводные/пресноводных реги-оны/регионах Южная Америка;

2) человека атакующая и поедающая рыба, называемая пираньей, * есть найден... и т.д. (значком * обозначены границы сегментов).

Несмотря на то, что на макросегментном уровне осуществляется распо-знание и формирование групп подлежащего, сказуемого и косвенного допол-нения, вариативность "понимания" и перевода устранена быть не может, и мы снова имеем два варианта:

1) человек, охотящийся на и поедающий рыбу, называемую пираньей найден в тропических пресноводных регионах Южной Америки,

2) атакующая и поедающая человека рыба, называемая... и т.д.

Не удается устранить неоднозначность и на четвертом уровне, поско-льку и здесь семантико-синтаксический анализ нашего предложения, взятого вне широкого контекста, не дает возможность определить, кто является субъ-ектом суждения ― человек или рыба. Эту вариативность можно снять с вы-сокой вероятностью правильного решения лишь на 5-м уровне переработки при условии, что автомат уже располагает информацией о тематике текста. Так, если речь идет об этнографическом описании, то ЛА должен выдать пе-ревод типа человек, охотящийся на рыбу, называемую пираньей, и поедаю-щий ее, найден... и т.д. Если же текст на нулевом уровне отнесен к ихтиоло-гическому подъязыку, то субъектом суждения становится рыба, атакующая и поедающая человека.

Кстати, знание широкого контекста очень часто является обязатель-ным условием для осуществления правильного перевода человеком. Так, по информации проф. Л.Н.Беляевой, приведенное выше английское предложе-ние было предъявлено для перевода в группе старшего курса филологичес-кого факультета РГПУ им. А.И.Герцена. Из десяти участников этого теста только четыре, знакомых, очевидно, с реалиями Амазонии, поняли, что субъ-ектом суждения является рыба, а не человек. Остальные шесть предлагали переводы типа человек, охотящийся и питающийся рыбой, называемой пира-нья, обнаружен в тропическом пресноводном районе Южной Америки.

Экспериментальная и промышленная эксплуатация систем АПТ, ко-торая проводилась в 80 – 90-х гг. показала, что основным недостатком те-заурусно-фреймовых систем является их изначально заданная жесткая стру-ктура (86a; 86б. С. 172 и сл.; 108д. С. 205 – 211). Она не позволяет раегиро-вать на изменения в содержании и организации конкретного текста, не гово-ря уже о разнообразии семантики и форматов текстов, которые входят в ин-формационные потоки, обрабатываемые в режиме реального времени. Жесткость этих систем затрудняет также их адаптацию к постоянным измене-ниям в лексико-грамматической организации (точнее к терминологическо-му развитию) предметных областей, т.е. подъязыков. Поиски преодоления этих недостатков ве-лись по двум направлениям: во-первых, путем исполь-зования динамичных сценарных фреймов, с помощью которых АПТ после-довательно анализирует все фрагменты документа, во-вторых, с помощью семантико-прагматической рубрикации этих фрагментов. Создание массива сценарных фреймов, который был бы достаточен для эффективного анали-за больших текстовых потоков, наталкивается на кризис размерности. По-этому более реалистичным приемом оказывается семантико-прагматиче-ская рубрикация с помощью лексических сигнализаторов, в качестве кото-рых используются ЛЕ (с/ф и с/c), способные с достаточно высокой степе-нью вероятности указывать на появление в тексте (или в потоке текстов) новых ситуаций, которые релевантны относительно одной из заданных те-матических рубрик. Выбор сигнализаторов-ключевых ЛЕ и их системати-зация производится на основе предварительного статистического обследо-вания обучающих тематических выборок, а также на основе информации о референтных ситуациях, получаемой от экспертов.

 



8-99881.php">25
  • 26
  • 27
  • 28
  • 29
  • 30
  • Далее ⇒