ОБЗОР ЛИНГВИСТИЧЕСКИХ ПРОГРАММ

. ■ 2.1. ВИДЫ ЛИНГВИСТИЧЕСКИХ ПРОГРАММ

В наше время технологии автоматической обработки тек­стов на естественном языке являются весьма перспективными, и результаты их исследований представляют собой определен­ный коммерческий интерес, в связи с чем оказывается довольно трудным найти какую-либо специфическую информацию по данным темам, выходящую за рамки популярной литературы.

Компьютерная лингвистика (КЛ) — наука, родившаяся на стыке информатики и языкознания из потребности в общении с компьютером на естественном языке.

Спектр приложений КЛ простирается от простейших про­граммок обработки текста (транслитерации, проверки правопи­сания и других) до более сложных, например, программы авто­реферирования, поисковые системы и программы машинного перевода.

Изучением многообразия лингвистических программ, их ти- пологизацией и другими проблемами компьютерной лингвисти­ки в России занимается междисциплинарный семинар ДИАЛОГ, который проводился с 1975 по 1989 г. и был возобновлен в 1995 г. Это самое представительное российское мероприятие, целиком посвященное компьютерной лингвистике и ее приложениям, со­бирающее каждый год большое число ведущих специалистов в области интеллектуальных языковых технологий из компьютер­ных фирм, вузов и научных институтов со всей России и из-за ру­бежа. Постоянными участниками ДИАЛОГа являются Московс­кий государственный университет, РГГУ, Институт языкознания РАН, компании «ABBYY», «Яndex», «ПРОМТ»; РосНИИ искус-


ственного интеллекта, Институт проблем информации РАН. На­учная программа семинаров ДИАЛОГ охватывает основные на­правления фундаментальных исследований и коммерческих раз­работок, находящихся на пересечении лингвистики, методов представления и обработки знаний и самых современных инфор­мационных технологий. В 2007 г. обновился сайт семинара http:// www.dialog-21.ru/. Теперь этот профессионально сделанный веб-ресурс предоставляет самые свежие новости из мира компьютер­ной лингвистики и интеллектуальных технологий. На сайте ра­ботает конференция, публикуется еженедельный дайджест наи­более интересных новостей. Кроме того, здесь можно найти все материалы семинаров ДИАЛОГ за последние три года.

Возрожденный в 1995 г. в статусе международного ДИАЛОГ на сегодня остается единственным мероприятием подобного рода, собирающим не только цвет российской лингвистической науки, но и крупнейшие компании, работающие в области ком­пьютерной лингвистики, а также авторитетных представителей смежных наук. Он играет ключевую роль в развитии связей между отечественными фирмами, научными институтами и ву­зами, интересующимися данной тематикой. Аудитория семина­ра постоянно растет, а число докладов, опубликованных в тру­дах семинара, увеличилось по сравнению с 1995 г. втрое.

В определенный момент ДИАЛОГ достиг масштаба, требую­щего некоторой реорганизации для его дальнейшего развития. Поэтому в прошлом году было принято решение о создании Ас­социации «Компьютерная лингвистика и интеллектуальные технологии» (КОЛИНТ). Ее учредителями стали постоянные участники ДИАЛОГа: компании «ABBYY», «Яndex», «ПРОМТ», «Ашманов и партнеры», SCIPER (Париж), а также Российская ассоциация искусственного интеллекта, научные институты ИПИ и ИППИ РАН, РосНИИ искусственного интеллекта, ИМ СОРАН, ИИ Казанского госуниверситета, филологический фа­культет МГУ.

Это позволило вывести ДИАЛОГ на новый уровень органи­зации и представительности. Без преувеличения можно сказать, что именно ДИАЛОГ позволяет сегодня оценить текущее состо-


яние отечественной прикладной лингвистики и ее приложений в информационных технологиях, задать ориентиры для их раз­вития.

Предлагается выделить в области интересов ассоциации сле­дующие тематические направления КОЛИНТ (данный список открыт для обсуждения):

• теоретическая и когнитивная лингвистика;

• синтаксис, семантика, прагматика и их взаимодействие;

• диалог и речевой акт;

• модели национальных языков;

• интерфейсы на естественном языке;

• понимание связного текста и модель предметной области;

• речевое взаимодействие с компьютером: анализ и синтез;

• технологии представления и обработки знаний;

• естественный язык и Интернет;

• машинный перевод;

• автоматическая обработка полнотекстовых документов;

• корпусная лингвистика;

• словарь, тезаурус, онтология.

Большое количество лингвистических программ собрано в Каталоге лингвистических программ и ресурсов в Сети (www.rvb. ru/soft/-catalogue-/catalogue.html).

Данный каталог включает в себя описание программ, свя­занных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных сегодня в Интер­нете. Упор при составлении каталога делался на бесплатные программы, доступные для загрузки. Однако описаны также не­которые on-line и коммерческие версии программ. Тематически каталог разбит на следующие разделы:

— программы анализа и лингвистической обработки текстов;

— программы преобразования текстов;


психолингвистические программы; генераторы текстов и «говорящие» программы; системы обработки естественного языка; коллекции ресурсов; словари и тезаурусы.

 

Текстовые процессоры

Текстовые процессоры — программные средства, предназ­наченные для создания, редактирования и форматирования простых и комплексных текстовых документов.

Принцип WYSIWYG (what you see is what you get) был реали­зован в версии программы Microsoft Word 6.0. Благодаря этому принципу значительно упростились и стали наглядными при­емы форматирования документов.

Типы документов

Современные текстовые процессоры позволяют создавать до­кументы трех типов.

1. Печатные документы, которые создаются и распечатыва­
ются на одном рабочем месте или в одной рабочей груп­
пе. Дальнейшее движение документа происходит только
в бумажной форме. Состав допустимых средств оформ­
ления в данном случае определяется только технически­
ми возможностями печатающего устройства.

2. Электронные документы в формате текстового процессора.
Такие документы передаются заказчику в виде файлов.
Электронный документ, как правило, не является окон­
чательным. В большинстве случаев заказчик может его
дорабатывать, редактировать, форматировать, распеча­
тывать или использовать его компоненты для подготов­
ки своих документов (книг, журналов, сборников статей


и т.п.). Набор разрешенных средств в данном случае обыч­но минимален и определяется заказчиком.

3. Web-документы. Предполагается, что в этом качестве они останутся навсегда, и их преобразование в печатные до­кументы не планируется. В web-документах большую роль играет управление цветом. Для этой категории наиболее широк выбор средств форматирования и оформления.

Специальные средства Автотекст

Автотекст — это режим автоматического ввода фрагментов тек­ста. Он представлен двумя функциями: автозавершением и соб­ственно автотекстом. Их принцип действия состоит в следующем.

Текстовый процессор хранит словарь автотекста, состоящий из слов и фраз, встречающихся в документах достаточно часто. При вводе первых четырех символов словарного элемента на экране появляется всплывающая подсказка с полным текстом слова или фразы. Если это то, что имел в виду пользователь, он заверша­ет ввод всего фрагмента нажатием клавиши enter — так работает функция автозавершения. Однако пользователь может самостоя­тельно выбрать необходимый элемент текста из списка с иерархи­ческой структурой — это функция автотекста. Список элементов автотекста открывается с помощью панели инструментов Авто­текст (Вид > Панели инструментов > Автотекст).

Настройку словаря автотекста выполняет в диалоговом окне Автозамена (Сервис > Автозамена > Автотекст). Простейший способ наполнения словаря новым содержанием — выделить текст на экране, щелкнуть на кнопке Автотекст на панели ин­струментов Автотекст и в открывшемся диалоговом окне ис­пользовать кнопку Добавить.

Использование средства автозамены при вводе

Последние версии текстового процессора Word позволяют эффективно сократить объем вводимого текста за счет исполь-


зования средства Автозамена (рис. 3). Оно позволяет заменить ввод длинных последовательностей символов произвольным (желательно коротким) сочетанием других символов. Напри­мер, если в тексте очень часто встречается словосочетание «му­ниципальный округ», его можно заменить коротким сочетани­ем «.мг». Соответственно, вместо «муниципальных округов» ис­пользовать «.мв», а вместо «муниципального округа» — «.ма». Точку перед символами ставят специально, чтобы отличать их от двухбуквенных предлогов или союзов.

Рис. 3. Диалоговое окно «Автозамена»

Настройку средства Автозамена выполняют в диалоговом окне Сервис > Автозамена. Для этого надо установить флажок


Заменять при вводе, ввести заменяемую комбинацию в поле Заменить, а замещающую комбинацию в поле На, после чего пополнить список автозамены щелчком на кнопке Добавить.

Как будет показано ниже, средство автоматической замены символов при вводе используется также для ввода специальных символов. Например, выполнив соответствующие настройки, можно вводить греческие буквы обычным русским текстом «пи» или «ро».

Ввод специальных и произвольных символов

При вводе текста часто существует необходимость ввода спе­циальных символов, не имеющих соответствующей клавиши в раскладке клавиатуры, а также произвольных символов, рас­кладка для которых неизвестна. Основным средством для ввода специальных и произвольных символов, а также для закрепле­ния их за избранными клавишами является диалоговое окно Символ (Вставка > Символ). Данное диалоговое окно имеет две вкладки: Символы и Специальные символы (рис. 4).

 

Рис. 4. Диалоговое окно «Символ» 43


На вкладке Специальные символы присутствует их список (например, «длинное» («полиграфическое») тире (—), «копи­райт» (©), «торговая марка»). Для вставки такого символа дос­таточно щелкнуть на кнопке Вставить. Вместе с тем для боль­шинства специальных символов существуют клавиатурные комбинации, они приведены в списке, и их стоит запомнить. На первых порах, пока навык их ввода не закреплен, это окно используют для получения справки.

В том же окне имеются кнопки Автозамена и Клавиша, по­зволяющие либо выполнять ввод специальных символов обыч­ными символами и автоматически производить замену, либо закрепить специальный символ за избранной комбинацией клавиш.

На вкладке Символы представлены элементы управления для ввода произвольных символов любых символьных наборов. Центральное положение в окне занимает таблица символов те­кущего набора. Выбор шрифта выполняют в раскрывающемся окне, выбирают символ и нажимают Вставить.

Использование Тезауруса

Тезаурус представляет собой словарь смысловых синонимов. При подготовке технической документации особую роль игра­ют смысловые синонимы к используемым глаголам. Для выде­ленного слова тезаурус удобно вызывать через пункт Синонимы контекстного меню. Однако этот прием срабатывает далеко не для всех слов (преимущественно для глаголов в неопределенной форме). Общий прием вызова тезауруса состоит в использова­нии команды строки меню Сервис > Язык > Тезаурус (рис. 5).

Окно Тезаурус имеет две панели. Его интересная особен­ность состоит в том, что, в то время как на левой панели ото­бражаются синонимы выделенного слова, на правой панели могут отображаться синонимы к выбранному синониму, т.е. по­иск синонима является как бы двухуровневым. Заменяющий синоним можно выбирать как на левой, так и на правой панели. Замена производится щелчком на командной кнопке Заменить. Кроме синонимов, в некоторых случаях тезаурус позволяет на-


ходить антонимы слов и связанные (как правило, однокорен- ные) слова.

Рис. 5. Диалоговое окно «Тезаурус»

Средства автоматизации проверки правописания

Средства автоматизации проверки правописания включают средства проверки орфографии и грамматики. Текстовый про­цессор позволяет реализовать два режима проверки правописа­ния: автоматический и командный.

Дли работы в автоматическом режиме надо установить флажки Автоматически проверять орфографию и Автоматиче­ски проверять грамматику на вкладке Правописание диалогово­го окна Параметры (Сервис > Параметры > Правописание). В ав­томатическом режиме слова, содержащие орфографические ошибки, подчеркиваются красным цветом, а выражения, со­держащие грамматические ошибки, — зеленым. Для того чтобы узнать характер ошибки, надо щелкнуть правой кнопкой мыши на помеченном фрагменте. В зависимости от характера ошибки контекстное меню содержит пункт Орфография или Граммати­ка. С их помощью открывается диалоговое окно, в котором


имеются элементы управления для получения более точной справки о том, какое правило нарушено, и предложены вариан­ты исправления предполагаемой ошибки.

Встроенное автоматическое средство проверки правописа­ния является, по существу, экспертной системой и допускает на­стройку. Так, например, если рекомендации экспертной систе­мы неточны или неприемлемы, от них можно отказаться ко­мандой Пропустить (обычно такое бывает при проверке грам­матики). Если же слово отмечено как орфографическая ошибка только потому, что оно отсутствует в словаре системы автомати­ческой проверки (например, слово броузер), то его можно доба­вить в словарь.

Встроенный словарь системы проверки правописания не подлежит правке. Все дополнения и изменения вносятся в спе­циальный подключаемый пользовательский словарь. Каждый пользователь может создать несколько специализированных словарей, ориентированных на различные области знаний (эко­номика, право, вычислительная техника и т.п.). Подключение нужного словаря для работы с конкретным документом выпол­няется выбором словарного файла в раскрывающемся списке Вспомогательные словари на вкладке Сервис > Параметры > Пра­вописание. Постепенно наполняясь конкретным содержанием, вспомогательные словари становятся мощным средством повы­шения производительности труда.

В командном режиме проверка правописания выполняется независимо от установки элементов управления на вкладке Сер­вис > Параметры > Правописание. Запуск средства проверки вы­полняют командой Сервис > Правописание. Проверка начинает­ся от начала документа и продолжается до появления первой ошибки. В тех случаях, когда пользователь отказывается от предлагаемых исправлений и дает команду Пропустить, в доку­менте накапливается список пропускаемых слов, т.е. слов и вы­ражений, не подлежащих проверке. Для того чтобы очистить этот список и начать проверку заново, используют командную кнопку Сервис > Параметры > Правописание > Повторная про­верка.


2.1.2. Программы анализа и лингвистической обработки текстов

Российская компания «ABBYY» — один из ведущих миро­
вых разработчиков ПО в области распознавания документов
(OCR), ввода форм (ICR) и прикладной лингвистики — пред­
лагает следующие программы.

1. ABBYY FINEREADER 6.0 PROFESSIONAL http://www.abbyy.
ru/flnereader/ —
программа распознавания, которая удов­
летворяет самым высоким требованиям, касающимся
точности распознавания, сохранения оформления и про­
изводительности. Этот факт подтверждается победами
системы FineReader более чем в 60 тестах по всему миру.

В новой версии программы заметно улучшена точность рас­познавания и сохранение форматирования исходных докумен­тов. Программа стала еще проще в использовании и приобрела ряд новых функций и возможностей, например распознавание и сохранение документов в формате PDF. FineReader позволит легко и точно распознавать отсканированные тексты и экспор­тировать их в офисные приложения. Основными достоинства­ми программы являются:

• непревзойденная точность распознавания;

• безупречное сохранение оформления документа;

• открытие PDF-файлов и сохранение в формате PDF;

 

• полное сохранение оформления в формате HTML;

• простота использования;

• распознавание многоязычных документов;

• поддержка Windows XP и Windows 2000;

• прямой экспорт в Microsoft Word, Excel и Outlook.

2. ABBYY LINGVO 8.0 ENGLISH-RUSSIAN EDITION (АНГЛО­
РУССКАЯ ВЕРСИЯ) http://www.lingvo.ru/.
ABBYY Lingvo 8.0 -
наиболее полный и современный на сегодняшний день


англо-русско-английский электронный словарь. Англо­русская версия словаря ABBYY Lingvo 8.0 содержит более 1 200 000 словарных статей (при этом объем наиболее ав­торитетных бумажных словарей составляет, как правило, не более 300—400 тысяч слов). Словарем ABBYY Lingvo 8.0 удивительно удобно пользоваться: выделите английское или русское слово в любом приложении Windows, нажми­те «горячие клавиши» CTRL-INS-INS или CTRL-C-C, и через 2—3 секунды на экране появится полный перевод этого слова с примерами использования и грамматичес­кими комментариями. Для сравнения: на поиск одного слова в бумажном словаре уходит обычно 20—30 секунд.

Наиболее употребительные слова в ABBYY Lingvo 8.0 озву­чены диктором из Оксфорда (5000 слов). Кроме того, ABBYY Lingvo предоставляет возможность создания собственных пол­ноценных словарей, содержащих лексику, необходимую имен­но вам. В восьмую версию Lingvo вошел также новый граммати­ческий словарь, который делает Lingvo настоящим пособием для изучения иностранного языка. Теперь вы сможете не толь­ко перевести то или иное слово, но и грамотно составить анг­лийское предложение.

ABBYY Lingvo давно пользуются заслуженной популярнос­тью у пользователей благодаря полноте и современности лекси­ческой базы, удобству в работе, быстроте поиска. В независи­мых опросах популярности продуктов на российском рынке в 1999, 2000 и 2001 гг., проводимых одним из самых читаемых из­даний о компьютерах — журналом «Мир ПК», ABBYY Lingvo 5.0/ 6.0/6.5/7.0 занял первое место в категории «Электронные слова­ри и системы перевода текста», значительно обогнав своих кон­курентов.

Основные возможности ABBYY Lingvo 8.0 (англо-русская версия):

перевод из любого Windows-приложения по нажатию «горя­
чих клавиш»
;

— простота использования и продуманный интерфейс;


точность и полнота перевода;

быстрый поиск по словарным статьям;

качественные словари с самой современной лексикой;

английский грамматический словарь;

создание пользовательских словарей;

профессиональное озвучивание 5000 наиболее важных слов;

транскрипция более 50 000 английских слов;

работа по сети.

3. ABBYY LINGVO 8.0 MULTILINGUAL EDITION (МНОГО­
ЯЗЫЧНАЯ ВЕРСИЯ).
В наше время все большее количе­
ство людей использует в работе два языка (английский и
какой-либо еще из европейских). Для них новый ABBYY
Lingvo 8.0 (Многоязычная версия) станет поистине неза­
менимым помощником. Эта версия ABBYY Lingvo 8.0 под­
держивает восемь направлений перевода: с английского,
немецкого, французского, итальянского на русский и
обратно.

4. ABBYY Form Reader (http://www.abbyy.ru/formreader/) — это
система распознавания форм, заполненных от руки. Она
помогает эффективно обрабатывать большие объемы раз­
личных форм: анкет, опросных листов, бланков, заявле­
ний клиентов и т.д.

· Фирма «Гарант-Парк-Интернет» (http://www.rco.ru/) специа­лизируется на технологиях анализа и поиска текстовой инфор­мации. Серия продуктов, выпускаемых под маркой RCOTM, предназначена для поддержки широкого класса систем, ис­пользующих средства поиска и анализа текстовой информа­ции, таких как информационно-поисковые и аналитичес­кие системы, электронные архивы и системы управления документооборотом. Продукты серии RCO задействуют пе­редовые технологии обработки текста, лингвистические и математические алгоритмы, которые могут быть использо­ваны для решения широкого класса задач: от контекстного

4 Заказ 105


поиска документов с учетом всех словоформ, синонимов и опечаток до создания систем поддержки принятия эксперт­ных решений на основе анализа информационных массивов.

Морфология

Библиотека полного морфологического анализа позволяет решать следующие задачи:

• определять все грамматические характеристики слова (часть
речи, род, число, падеж, одушевленность, спряжение и т.п.);

• приводить различные грамматические формы слова к нор­
мальной форме;

• получать все грамматические формы слова;

• проверять орфографию.
Библиотека включает в себя:

 

— алгоритм точного морфологического анализа слов заданно­
го словаря (для русского языка используемый словарь со­
держит более 110 тысяч слов);

— алгоритм вероятностного морфологического анализа неиз­
вестных слов по аналогии с известными на основе оценки
флективной и суффикальной частей слова.

Разработанный подход к описанию морфологической систе­мы языка использует обучение на примерах словоизменения, в ходе которого автоматически выделяются окончания, основы, суффиксы и строятся модели, описывающие изменение различ­ных классов слов. Такие алгоритмы допускают простую на­стройку морфологического модуля практически на любой язык флективного типа.

Используемый словарь лингвистических данных для русско­го языка включает в себя около 110 000 словооснов, 6000 окон­чаний, 1500 моделей словоизменения, 200 суффиксов, что соот­ветствует 2,5 млн распознаваемых словоформ. Объем бинарно­го словаря — 3 Мбайта. Скорость морфологического анализа — 100 тыс. слов в секунду (Pentium-Il, 400МГц).

 


 


 

Средства автоматизированного пополнения словаря морфо- анализа входят в комплект поставки продуктов фирмы «Гарант-Парк-Интернет».

Семантика

В целом в состав тезауруса вошло около 75 тыс. слов и сло­восочетаний, объединенных в 22 тыс. гипонимических рядов (22 тыс. гиперонимов), в том числе 17 тыс. синонимических ря­дов, охватывающих 45 тыс. слов. Основой для лексического на­полнения тезауруса послужил разработанный самой фирмой словарь общей лексики русского языка объемом более 110 тыс. единиц, являющийся расширением грамматического словаря А.А. Зализняка и используемый для морфологического анализа.

■ ..:.-, •: ' ■■■■■.

Синтаксис

Библиотека полного синтаксического анализа текста на рус­ском языке предназначена для решения следующих задач:

• грамматический разбор предложения с построением дерева
синтактико-семантических зависимостей между его словами;

• выделение понятий предложения с определением их синтак­
сических и семантических ролей, генерация канонической
формы понятий с использованием тезауруса;

• разрешение морфологической омонимии.

Скорость работы синтаксического анализатора — около 20 Мбайт текста в час (на Р-П, 400 Мгц).