ОБЗОР ЛИНГВИСТИЧЕСКИХ ПРОГРАММ
. ■ 2.1. ВИДЫ ЛИНГВИСТИЧЕСКИХ ПРОГРАММ
В наше время технологии автоматической обработки текстов на естественном языке являются весьма перспективными, и результаты их исследований представляют собой определенный коммерческий интерес, в связи с чем оказывается довольно трудным найти какую-либо специфическую информацию по данным темам, выходящую за рамки популярной литературы.
Компьютерная лингвистика (КЛ) — наука, родившаяся на стыке информатики и языкознания из потребности в общении с компьютером на естественном языке.
Спектр приложений КЛ простирается от простейших программок обработки текста (транслитерации, проверки правописания и других) до более сложных, например, программы автореферирования, поисковые системы и программы машинного перевода.
Изучением многообразия лингвистических программ, их ти- пологизацией и другими проблемами компьютерной лингвистики в России занимается междисциплинарный семинар ДИАЛОГ, который проводился с 1975 по 1989 г. и был возобновлен в 1995 г. Это самое представительное российское мероприятие, целиком посвященное компьютерной лингвистике и ее приложениям, собирающее каждый год большое число ведущих специалистов в области интеллектуальных языковых технологий из компьютерных фирм, вузов и научных институтов со всей России и из-за рубежа. Постоянными участниками ДИАЛОГа являются Московский государственный университет, РГГУ, Институт языкознания РАН, компании «ABBYY», «Яndex», «ПРОМТ»; РосНИИ искус-
ственного интеллекта, Институт проблем информации РАН. Научная программа семинаров ДИАЛОГ охватывает основные направления фундаментальных исследований и коммерческих разработок, находящихся на пересечении лингвистики, методов представления и обработки знаний и самых современных информационных технологий. В 2007 г. обновился сайт семинара http:// www.dialog-21.ru/. Теперь этот профессионально сделанный веб-ресурс предоставляет самые свежие новости из мира компьютерной лингвистики и интеллектуальных технологий. На сайте работает конференция, публикуется еженедельный дайджест наиболее интересных новостей. Кроме того, здесь можно найти все материалы семинаров ДИАЛОГ за последние три года.
Возрожденный в 1995 г. в статусе международного ДИАЛОГ на сегодня остается единственным мероприятием подобного рода, собирающим не только цвет российской лингвистической науки, но и крупнейшие компании, работающие в области компьютерной лингвистики, а также авторитетных представителей смежных наук. Он играет ключевую роль в развитии связей между отечественными фирмами, научными институтами и вузами, интересующимися данной тематикой. Аудитория семинара постоянно растет, а число докладов, опубликованных в трудах семинара, увеличилось по сравнению с 1995 г. втрое.
В определенный момент ДИАЛОГ достиг масштаба, требующего некоторой реорганизации для его дальнейшего развития. Поэтому в прошлом году было принято решение о создании Ассоциации «Компьютерная лингвистика и интеллектуальные технологии» (КОЛИНТ). Ее учредителями стали постоянные участники ДИАЛОГа: компании «ABBYY», «Яndex», «ПРОМТ», «Ашманов и партнеры», SCIPER (Париж), а также Российская ассоциация искусственного интеллекта, научные институты ИПИ и ИППИ РАН, РосНИИ искусственного интеллекта, ИМ СОРАН, ИИ Казанского госуниверситета, филологический факультет МГУ.
Это позволило вывести ДИАЛОГ на новый уровень организации и представительности. Без преувеличения можно сказать, что именно ДИАЛОГ позволяет сегодня оценить текущее состо-
яние отечественной прикладной лингвистики и ее приложений в информационных технологиях, задать ориентиры для их развития.
Предлагается выделить в области интересов ассоциации следующие тематические направления КОЛИНТ (данный список открыт для обсуждения):
• теоретическая и когнитивная лингвистика;
• синтаксис, семантика, прагматика и их взаимодействие;
• диалог и речевой акт;
• модели национальных языков;
• интерфейсы на естественном языке;
• понимание связного текста и модель предметной области;
• речевое взаимодействие с компьютером: анализ и синтез;
• технологии представления и обработки знаний;
• естественный язык и Интернет;
• машинный перевод;
• автоматическая обработка полнотекстовых документов;
• корпусная лингвистика;
• словарь, тезаурус, онтология.
Большое количество лингвистических программ собрано в Каталоге лингвистических программ и ресурсов в Сети (www.rvb. ru/soft/-catalogue-/catalogue.html).
Данный каталог включает в себя описание программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных сегодня в Интернете. Упор при составлении каталога делался на бесплатные программы, доступные для загрузки. Однако описаны также некоторые on-line и коммерческие версии программ. Тематически каталог разбит на следующие разделы:
— программы анализа и лингвистической обработки текстов;
— программы преобразования текстов;
психолингвистические программы; генераторы текстов и «говорящие» программы; системы обработки естественного языка; коллекции ресурсов; словари и тезаурусы.
Текстовые процессоры
Текстовые процессоры — программные средства, предназначенные для создания, редактирования и форматирования простых и комплексных текстовых документов.
Принцип WYSIWYG (what you see is what you get) был реализован в версии программы Microsoft Word 6.0. Благодаря этому принципу значительно упростились и стали наглядными приемы форматирования документов.
Типы документов
Современные текстовые процессоры позволяют создавать документы трех типов.
1. Печатные документы, которые создаются и распечатыва
ются на одном рабочем месте или в одной рабочей груп
пе. Дальнейшее движение документа происходит только
в бумажной форме. Состав допустимых средств оформ
ления в данном случае определяется только технически
ми возможностями печатающего устройства.
2. Электронные документы в формате текстового процессора.
Такие документы передаются заказчику в виде файлов.
Электронный документ, как правило, не является окон
чательным. В большинстве случаев заказчик может его
дорабатывать, редактировать, форматировать, распеча
тывать или использовать его компоненты для подготов
ки своих документов (книг, журналов, сборников статей
и т.п.). Набор разрешенных средств в данном случае обычно минимален и определяется заказчиком.
3. Web-документы. Предполагается, что в этом качестве они останутся навсегда, и их преобразование в печатные документы не планируется. В web-документах большую роль играет управление цветом. Для этой категории наиболее широк выбор средств форматирования и оформления.
Специальные средства Автотекст
Автотекст — это режим автоматического ввода фрагментов текста. Он представлен двумя функциями: автозавершением и собственно автотекстом. Их принцип действия состоит в следующем.
Текстовый процессор хранит словарь автотекста, состоящий из слов и фраз, встречающихся в документах достаточно часто. При вводе первых четырех символов словарного элемента на экране появляется всплывающая подсказка с полным текстом слова или фразы. Если это то, что имел в виду пользователь, он завершает ввод всего фрагмента нажатием клавиши enter — так работает функция автозавершения. Однако пользователь может самостоятельно выбрать необходимый элемент текста из списка с иерархической структурой — это функция автотекста. Список элементов автотекста открывается с помощью панели инструментов Автотекст (Вид > Панели инструментов > Автотекст).
Настройку словаря автотекста выполняет в диалоговом окне Автозамена (Сервис > Автозамена > Автотекст). Простейший способ наполнения словаря новым содержанием — выделить текст на экране, щелкнуть на кнопке Автотекст на панели инструментов Автотекст и в открывшемся диалоговом окне использовать кнопку Добавить.
Использование средства автозамены при вводе
Последние версии текстового процессора Word позволяют эффективно сократить объем вводимого текста за счет исполь-
зования средства Автозамена (рис. 3). Оно позволяет заменить ввод длинных последовательностей символов произвольным (желательно коротким) сочетанием других символов. Например, если в тексте очень часто встречается словосочетание «муниципальный округ», его можно заменить коротким сочетанием «.мг». Соответственно, вместо «муниципальных округов» использовать «.мв», а вместо «муниципального округа» — «.ма». Точку перед символами ставят специально, чтобы отличать их от двухбуквенных предлогов или союзов.
Рис. 3. Диалоговое окно «Автозамена»
Настройку средства Автозамена выполняют в диалоговом окне Сервис > Автозамена. Для этого надо установить флажок
Заменять при вводе, ввести заменяемую комбинацию в поле Заменить, а замещающую комбинацию в поле На, после чего пополнить список автозамены щелчком на кнопке Добавить.
Как будет показано ниже, средство автоматической замены символов при вводе используется также для ввода специальных символов. Например, выполнив соответствующие настройки, можно вводить греческие буквы обычным русским текстом «пи» или «ро».
Ввод специальных и произвольных символов
При вводе текста часто существует необходимость ввода специальных символов, не имеющих соответствующей клавиши в раскладке клавиатуры, а также произвольных символов, раскладка для которых неизвестна. Основным средством для ввода специальных и произвольных символов, а также для закрепления их за избранными клавишами является диалоговое окно Символ (Вставка > Символ). Данное диалоговое окно имеет две вкладки: Символы и Специальные символы (рис. 4).
Рис. 4. Диалоговое окно «Символ» 43
На вкладке Специальные символы присутствует их список (например, «длинное» («полиграфическое») тире (—), «копирайт» (©), «торговая марка»). Для вставки такого символа достаточно щелкнуть на кнопке Вставить. Вместе с тем для большинства специальных символов существуют клавиатурные комбинации, они приведены в списке, и их стоит запомнить. На первых порах, пока навык их ввода не закреплен, это окно используют для получения справки.
В том же окне имеются кнопки Автозамена и Клавиша, позволяющие либо выполнять ввод специальных символов обычными символами и автоматически производить замену, либо закрепить специальный символ за избранной комбинацией клавиш.
На вкладке Символы представлены элементы управления для ввода произвольных символов любых символьных наборов. Центральное положение в окне занимает таблица символов текущего набора. Выбор шрифта выполняют в раскрывающемся окне, выбирают символ и нажимают Вставить.
Использование Тезауруса
Тезаурус представляет собой словарь смысловых синонимов. При подготовке технической документации особую роль играют смысловые синонимы к используемым глаголам. Для выделенного слова тезаурус удобно вызывать через пункт Синонимы контекстного меню. Однако этот прием срабатывает далеко не для всех слов (преимущественно для глаголов в неопределенной форме). Общий прием вызова тезауруса состоит в использовании команды строки меню Сервис > Язык > Тезаурус (рис. 5).
Окно Тезаурус имеет две панели. Его интересная особенность состоит в том, что, в то время как на левой панели отображаются синонимы выделенного слова, на правой панели могут отображаться синонимы к выбранному синониму, т.е. поиск синонима является как бы двухуровневым. Заменяющий синоним можно выбирать как на левой, так и на правой панели. Замена производится щелчком на командной кнопке Заменить. Кроме синонимов, в некоторых случаях тезаурус позволяет на-
ходить антонимы слов и связанные (как правило, однокорен- ные) слова.
Рис. 5. Диалоговое окно «Тезаурус»
Средства автоматизации проверки правописания
Средства автоматизации проверки правописания включают средства проверки орфографии и грамматики. Текстовый процессор позволяет реализовать два режима проверки правописания: автоматический и командный.
Дли работы в автоматическом режиме надо установить флажки Автоматически проверять орфографию и Автоматически проверять грамматику на вкладке Правописание диалогового окна Параметры (Сервис > Параметры > Правописание). В автоматическом режиме слова, содержащие орфографические ошибки, подчеркиваются красным цветом, а выражения, содержащие грамматические ошибки, — зеленым. Для того чтобы узнать характер ошибки, надо щелкнуть правой кнопкой мыши на помеченном фрагменте. В зависимости от характера ошибки контекстное меню содержит пункт Орфография или Грамматика. С их помощью открывается диалоговое окно, в котором
имеются элементы управления для получения более точной справки о том, какое правило нарушено, и предложены варианты исправления предполагаемой ошибки.
Встроенное автоматическое средство проверки правописания является, по существу, экспертной системой и допускает настройку. Так, например, если рекомендации экспертной системы неточны или неприемлемы, от них можно отказаться командой Пропустить (обычно такое бывает при проверке грамматики). Если же слово отмечено как орфографическая ошибка только потому, что оно отсутствует в словаре системы автоматической проверки (например, слово броузер), то его можно добавить в словарь.
Встроенный словарь системы проверки правописания не подлежит правке. Все дополнения и изменения вносятся в специальный подключаемый пользовательский словарь. Каждый пользователь может создать несколько специализированных словарей, ориентированных на различные области знаний (экономика, право, вычислительная техника и т.п.). Подключение нужного словаря для работы с конкретным документом выполняется выбором словарного файла в раскрывающемся списке Вспомогательные словари на вкладке Сервис > Параметры > Правописание. Постепенно наполняясь конкретным содержанием, вспомогательные словари становятся мощным средством повышения производительности труда.
В командном режиме проверка правописания выполняется независимо от установки элементов управления на вкладке Сервис > Параметры > Правописание. Запуск средства проверки выполняют командой Сервис > Правописание. Проверка начинается от начала документа и продолжается до появления первой ошибки. В тех случаях, когда пользователь отказывается от предлагаемых исправлений и дает команду Пропустить, в документе накапливается список пропускаемых слов, т.е. слов и выражений, не подлежащих проверке. Для того чтобы очистить этот список и начать проверку заново, используют командную кнопку Сервис > Параметры > Правописание > Повторная проверка.
2.1.2. Программы анализа и лингвистической обработки текстов
• Российская компания «ABBYY» — один из ведущих миро
вых разработчиков ПО в области распознавания документов
(OCR), ввода форм (ICR) и прикладной лингвистики — пред
лагает следующие программы.
1. ABBYY FINEREADER 6.0 PROFESSIONAL http://www.abbyy.
ru/flnereader/ — программа распознавания, которая удов
летворяет самым высоким требованиям, касающимся
точности распознавания, сохранения оформления и про
изводительности. Этот факт подтверждается победами
системы FineReader более чем в 60 тестах по всему миру.
В новой версии программы заметно улучшена точность распознавания и сохранение форматирования исходных документов. Программа стала еще проще в использовании и приобрела ряд новых функций и возможностей, например распознавание и сохранение документов в формате PDF. FineReader позволит легко и точно распознавать отсканированные тексты и экспортировать их в офисные приложения. Основными достоинствами программы являются:
• непревзойденная точность распознавания;
• безупречное сохранение оформления документа;
• открытие PDF-файлов и сохранение в формате PDF;
• полное сохранение оформления в формате HTML;
• простота использования;
• распознавание многоязычных документов;
• поддержка Windows XP и Windows 2000;
• прямой экспорт в Microsoft Word, Excel и Outlook.
2. ABBYY LINGVO 8.0 ENGLISH-RUSSIAN EDITION (АНГЛО
РУССКАЯ ВЕРСИЯ) http://www.lingvo.ru/. ABBYY Lingvo 8.0 -
наиболее полный и современный на сегодняшний день
англо-русско-английский электронный словарь. Англорусская версия словаря ABBYY Lingvo 8.0 содержит более 1 200 000 словарных статей (при этом объем наиболее авторитетных бумажных словарей составляет, как правило, не более 300—400 тысяч слов). Словарем ABBYY Lingvo 8.0 удивительно удобно пользоваться: выделите английское или русское слово в любом приложении Windows, нажмите «горячие клавиши» CTRL-INS-INS или CTRL-C-C, и через 2—3 секунды на экране появится полный перевод этого слова с примерами использования и грамматическими комментариями. Для сравнения: на поиск одного слова в бумажном словаре уходит обычно 20—30 секунд.
Наиболее употребительные слова в ABBYY Lingvo 8.0 озвучены диктором из Оксфорда (5000 слов). Кроме того, ABBYY Lingvo предоставляет возможность создания собственных полноценных словарей, содержащих лексику, необходимую именно вам. В восьмую версию Lingvo вошел также новый грамматический словарь, который делает Lingvo настоящим пособием для изучения иностранного языка. Теперь вы сможете не только перевести то или иное слово, но и грамотно составить английское предложение.
ABBYY Lingvo давно пользуются заслуженной популярностью у пользователей благодаря полноте и современности лексической базы, удобству в работе, быстроте поиска. В независимых опросах популярности продуктов на российском рынке в 1999, 2000 и 2001 гг., проводимых одним из самых читаемых изданий о компьютерах — журналом «Мир ПК», ABBYY Lingvo 5.0/ 6.0/6.5/7.0 занял первое место в категории «Электронные словари и системы перевода текста», значительно обогнав своих конкурентов.
Основные возможности ABBYY Lingvo 8.0 (англо-русская версия):
— перевод из любого Windows-приложения по нажатию «горя
чих клавиш»;
— простота использования и продуманный интерфейс;
—точность и полнота перевода;
—быстрый поиск по словарным статьям;
—качественные словари с самой современной лексикой;
—английский грамматический словарь;
—создание пользовательских словарей;
—профессиональное озвучивание 5000 наиболее важных слов;
—транскрипция более 50 000 английских слов;
—работа по сети.
3. ABBYY LINGVO 8.0 MULTILINGUAL EDITION (МНОГО
ЯЗЫЧНАЯ ВЕРСИЯ). В наше время все большее количе
ство людей использует в работе два языка (английский и
какой-либо еще из европейских). Для них новый ABBYY
Lingvo 8.0 (Многоязычная версия) станет поистине неза
менимым помощником. Эта версия ABBYY Lingvo 8.0 под
держивает восемь направлений перевода: с английского,
немецкого, французского, итальянского на русский и
обратно.
4. ABBYY Form Reader (http://www.abbyy.ru/formreader/) — это
система распознавания форм, заполненных от руки. Она
помогает эффективно обрабатывать большие объемы раз
личных форм: анкет, опросных листов, бланков, заявле
ний клиентов и т.д.
· Фирма «Гарант-Парк-Интернет» (http://www.rco.ru/) специализируется на технологиях анализа и поиска текстовой информации. Серия продуктов, выпускаемых под маркой RCOTM, предназначена для поддержки широкого класса систем, использующих средства поиска и анализа текстовой информации, таких как информационно-поисковые и аналитические системы, электронные архивы и системы управления документооборотом. Продукты серии RCO задействуют передовые технологии обработки текста, лингвистические и математические алгоритмы, которые могут быть использованы для решения широкого класса задач: от контекстного
4 Заказ 105
поиска документов с учетом всех словоформ, синонимов и опечаток до создания систем поддержки принятия экспертных решений на основе анализа информационных массивов.
Морфология
Библиотека полного морфологического анализа позволяет решать следующие задачи:
• определять все грамматические характеристики слова (часть
речи, род, число, падеж, одушевленность, спряжение и т.п.);
• приводить различные грамматические формы слова к нор
мальной форме;
• получать все грамматические формы слова;
• проверять орфографию.
Библиотека включает в себя:
— алгоритм точного морфологического анализа слов заданно
го словаря (для русского языка используемый словарь со
держит более 110 тысяч слов);
— алгоритм вероятностного морфологического анализа неиз
вестных слов по аналогии с известными на основе оценки
флективной и суффикальной частей слова.
Разработанный подход к описанию морфологической системы языка использует обучение на примерах словоизменения, в ходе которого автоматически выделяются окончания, основы, суффиксы и строятся модели, описывающие изменение различных классов слов. Такие алгоритмы допускают простую настройку морфологического модуля практически на любой язык флективного типа.
Используемый словарь лингвистических данных для русского языка включает в себя около 110 000 словооснов, 6000 окончаний, 1500 моделей словоизменения, 200 суффиксов, что соответствует 2,5 млн распознаваемых словоформ. Объем бинарного словаря — 3 Мбайта. Скорость морфологического анализа — 100 тыс. слов в секунду (Pentium-Il, 400МГц).
Средства автоматизированного пополнения словаря морфо- анализа входят в комплект поставки продуктов фирмы «Гарант-Парк-Интернет».
Семантика
В целом в состав тезауруса вошло около 75 тыс. слов и словосочетаний, объединенных в 22 тыс. гипонимических рядов (22 тыс. гиперонимов), в том числе 17 тыс. синонимических рядов, охватывающих 45 тыс. слов. Основой для лексического наполнения тезауруса послужил разработанный самой фирмой словарь общей лексики русского языка объемом более 110 тыс. единиц, являющийся расширением грамматического словаря А.А. Зализняка и используемый для морфологического анализа.
■ ..:.-, •: ' ■■■■■.
Синтаксис
Библиотека полного синтаксического анализа текста на русском языке предназначена для решения следующих задач:
• грамматический разбор предложения с построением дерева
синтактико-семантических зависимостей между его словами;
• выделение понятий предложения с определением их синтак
сических и семантических ролей, генерация канонической
формы понятий с использованием тезауруса;
• разрешение морфологической омонимии.
Скорость работы синтаксического анализатора — около 20 Мбайт текста в час (на Р-П, 400 Мгц).