Основные этапы развития машинного перевода

1947 — дата рождения машинного перевода (МП) как научно­го направления. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, написал письмо Норберту Вине­ру, в котором рассматривал задачу перевода текстов с одних язы­ков на другие как еще одну область применения техники дешиф­рования. За этим письмом последовало множество дискуссий.

1947 — А. Бут и Д. Бриттен разработали подробный «код»
для пословного машинного перевода.

1948 — Р. Риченс предложил правила разбиения словоформ
на основу и окончание.

1952 — первая конференция по МП в Массачусетском тех­нологическом институте.

1954 — представлена первая система МП — IBM Mark II — русско-английская, которая имела словарь в 250 единиц и 6


грамматических правил. Последовавшее за этим десятилетие было временем бурного развития МП.

1967 — специально созданная в США Комиссия Националь­ной Академии наук, исходя из реальной ситуации с переводами в США и показателей стоимости различных способов перевода, пришла к выводу о том, что машинный перевод нерентабелен. Доклад существенно затормозил развитие МП в целом.

70-е годы — возрождение интереса к работам в области МП. С развитием вычислительной техники появились новые воз­можности машинной реализации лингвистических алгоритмов.

80-е годы — время работы персональных компьютеров зна­чительно подешевело, машинный перевод наконец-то стал эко­номически выгодным.

90-е годы — отмечается очередной рост интереса к машинному переводу, что связано с появлением и бурным развитием Internet/ Intranet. Преимущества использования машинного перевода осо­бенно очевидны при получении онлайнового перевода.

В 1990 г. Ларри Чаилдс, специалист по машинному перево­ду, предложил следующую классификацию систем машинного перевода:

• FAMT (Fully-automated machine translation) — полностью ав­
томатизированный машинный перевод;

• НАМТ (Human-assisted machine translation) — машинный
перевод при участии человека;

• МАНТ (Machine-assisted human translation) — перевод, осу­
ществляемый человеком с использованием компьютера.

■ ■ ■

Как переводит компьютер

Машинный перевод — это такая специфическая область применения компьютеров, в проблемах которой почти каждый ощущает себя более или менее специалистом.

Во-первых, очевидно, что чем больше словарь, тем лучше перевод, значит, первая проблема — проблема создания боль­ших словарей для систем.


Во-вторых, ясно, что система должна переводить предложе­ния типа «Привет, как дела?». Значит, еще одна проблема — на­учить систему распознавать устойчивые обороты.

В-третьих, понятно, что предложение для перевода пишется по определенным правилам, по определенным правилам пере­водится, а значит, есть еще одна проблема: записать все эти пра­вила в виде программы. Вот, собственно, и все.

Самое интересное, что эти проблемы действительно явля­ются основными при разработке систем машинного перевода, другое дело, что методы их решения известны далеко не всем и отнюдь не так просты, как может показаться.

Словарь

Методы организации больших баз данных достаточно хоро­шо разработаны, но для перевода не менее, а может быть, и бо­лее важно правильно структурировать информацию, которая приписывается элементу базы, правильно выбрать этот самый элемент. Сколько, например, записей в словаре должно соот­ветствовать обыкновенному русскому слову «программа»? И вообще, большой словарь — это словарь, который содержит много словарных статей, или словарь, который позволяет рас­познать много слов из текста?

При ближайшем рассмотрении оказывается, что, например, существительные в русском языке изменяются по падежам и по числам, т.е. для одного существительного может существовать до 12 разных форм, а для глаголов и прилагательных, как прави­ло, существует еще большее количество различных форм (более тридцати). Следовательно, чтобы переводить предложения, со­держащие слова «программу», «программе», «программы» и т.д., хорошо было бы иметь способ соотнесения словарной статьи из автоматического словаря для слова «программа» с соответству­ющей словоформой из текста. Поэтому для описания и входно­го, и выходного языка в системе должен существовать некото­рый формальный метод описания морфологии, на котором ос­новывается выбор единицы словаря.


 


Однако разработка описания морфологии позволяет решить только проблему того, что является заголовком словарной ста­тьи, по которому происходит идентификация единицы текста и единицы словаря. Но ведь идентификация слова из текста со словарной статьей происходит не ради идентификации, она не­обходима для выполнения программой собственно процедур перевода. Какая же информация нужна в словарной статье и как должны быть описаны правила перевода для того, чтобы про­грамма переводила?

Грамматика

Тут необходимо сделать небольшое историческое отступле­ние, поскольку машинный перевод как область прикладной лингвистики имеет драматическую историю. В 1950-х годах прак­тически с появлением первых вычислительных машин возник­ла идея машинного перевода, кстати, сам термин «машинный перевод» существует именно с тех времен. Кажущаяся простота задачи породила некоторую лингвистическую эйфорию, и было начато несколько глобальных проектов по созданию систем пе­ревода для разных языков. Ни один из них не привел к созда­нию работающих систем, и в 1967 г. специальная комиссия На­циональной Академии наук США объявила машинный перевод неперспективным и не заслуживающим финансирования. Толь­ко в начале 80-х годов лингвисты более или менее оправились от столь сурового вердикта и возобновили исследования в обла­сти МП. Конечно, во многом это оживление было связано с развитием вычислительной техники вообще и с интересом к проблемам искусственного интеллекта как области применения компьютеров в частности.

Глобальные проекты по-прежнему были ориентированы на решение задачи перевода в целом. В них рассматривались раз­работка описания лексических единиц в словаре и разработка алгоритмов перевода как разные задачи. Появилось множество лингвистических работ, предлагающих структуру описания свойств живого слова в словарной статье машинного словаря. Не появ-


лялось только реальных коммерческих систем, в которых эти исследования хоть как-то соединялись бы. Все системы, кото­рые так или иначе существовали, имели скромное дополнение «экспериментальная» или «прототип». Но реально ни одна из таких систем никогда не была доработана до системы массового использования. Это происходило потому, что применяемые ме­тоды описания перевода при переносе их в естественную среду (т.е. при применении к произвольным текстам) приходили в противоречие с методами, предлагаемыми для формирования словарных статей.

В то же время локальные проекты были ориентированы на решение только узких задач. Установкой разработчиков было получение хоть каких-то практических результатов.

Хотя оба эти подхода не дали коммерческих систем, работы, которые проводились в этом направлении, позволили осознать сложность задачи и, по крайней мере, установить узкие места в подобных разработках. Так или иначе, но именно из локальных проектов появились системы перевода, которые сейчас предла­гаются конечному пользователю.

Оказалось, что очень продуктивно рассматривать систему перевода не как транслятор, задачей которого является перевод текста, допустимого с точки зрения входной грамматики, а как некоторую сложную систему, задачей которой является получе­ние результата при произвольных входных данных, в том числе и для текстов, которые не являются правильными для грамма­тики, с которой работает система.

Вместо принятого лингвистического подхода, предполагаю­щего выделение последовательных процессов анализа и синте­за предложения, в основу архитектуры систем было положено представление процесса перевода как процесса с объектно-ори­ентированной организацией, основанной на иерархии обрабатыва­емых компонентов предложения.

Сначала поясним некоторые определения. Вместе с разви­тием машинного перевода как области прикладной лингвисти­ки появились и классификации систем. Стало принято делить системы перевода на системы типа TRANSFER и системы типа


 


INTERLINGUA. Это разделение основано на особенностях ар­хитектурных решений для лингвистических алгоритмов.

Алгоритмы перевода для систем типа TRANSFER строятся как композиция трех процессов: анализ входного предложения в терминах структур входного языка, преобразование этой структу­ры в аналогичную структуру выходного языка (TRANSFER) и за­тем синтез выходного предложения по полученной структуре.

Системы типа INTERLINGUA предполагают априори нали­чие некоторого метаязыка структур (INTERLINGUA), на кото­ром можно описать все структуры как входного, так и выходно­го языков в общем случае. Поэтому алгоритм перевода в систе­ме типа INTERLINGUA предполагается как более простой: анализ входного предложения в терминах метаязыка и затем синтез из метаструктуры соответствующего предложения вы­ходного языка. «Единственная» сложность в этом случае — раз­работать сам метаязык и описать естественный язык в соответ­ствующих терминах.

Несмотря на то что эта классификация существует и в среде разработчиков машинного перевода считается хорошим тоном спросить, к какому типу относится ваша система, не было раз­работано еще ни одной реальной системы, основанной на принципе INTERLINGUA.

Хотелось бы надеяться, что эти сведения позволят потенци­альным пользователям систем перевода понять, что создание системы машинного перевода — задача не такая уж простая и, что называется, наукоемкая. Следовательно, количество дей­ствительно пригодных к использованию систем перевода, кото­рое может появляться в единицу времени, принципиально ог­раничено.

 

 

2.2.3. Классификация систем

1. Системы машинного перевода (МП)

Системы машинного перевода — программы, осуществ­ляющие полностью автоматизированный перевод. Главным


критерием программы является качество перевода. Кроме этого, для пользователя важным является удобство интер­фейса, легкость интеграции программы с другими средствами обработки документов, выбор тематики, утилита, пополне­ния словаря. С появлением Интернета основные поставщики систем МП включили в свои продукты web-интерфейсы, обеспечив при этом их интеграцию с остальным программ­ным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода web-страниц, элек­тронных писем и онлайновых разговорных сеансов.

2. Системы с функцией Translation Memory (TM)

Системы с функцией Translation Memory (TM) предостав­ляют средства для так называемого Machine-assisted human translation (МАНТ) — перевода, выполняемого человеком с помощью машины.

Они основаны на технологии Translation Memory (TM) в противоположность МП, машинному переводу. Идея зак­лючается в хранении базы данных переводов, сделанных профессиональным переводчиком, для того чтобы в процес­се перевода предлагать человеку уже готовый перевод фразы или куска текста, если он уже был однажды переведен. При­чем совпадение фразы не обязательно должно быть букваль­ным, а может определяться критериями «похожести», зало­женными в программу, с возможностью их настройки пользо­вателем. ТМ-программы очень полезны в ситуациях, в кото­рых необходимо сделать перевод обновленной версии доку­мента, переведенного ранее. Такая необходимость возника­ет при поддержке мультиязычных сайтов. Программа быст­ро обнаружит в документе места, подвергшиеся изменениям со времени предыдущей версии документа, и человеку оста­нется перевести только эти изменившиеся части. ТМ-про­граммы значительно повышают эффективность работы пе­реводчика, избавляя его от рутинной, повторяющейся рабо­ты. Во многих фирмах, занимающихся переводом, владение одной из таких программ является существенным критери­ем при приеме на работу.


3. Контролируемый язык и машинный перевод на основе базы знаний

В системах на основе контролируемого языка реализован пе­реход от свободного входного языка к контролируемому входно­му языку. Контроль входного языка предусматривает определен­ные ограничения лексики, грамматики, семантики. Контроли­руемый входной язык используется для упрощения выражений исходного текста, чтобы повысить качество перевода.

 

■-

4. On-line переводчики

Службы онлайнового перевода выполняют перевод прямо в окне броузера, не требуя установки программы на компью­тер пользователя. Достаточно большое количество ссылок на бесплатные сервисы машинного перевода с указаниями на­правлений переводов приведено по адресу http://rivendel. com/~ric/resources/free. html.

Как правило, существует ограничение на объем вводимо­го текста.

Бесплатный онлайновый перевод можно сделать также по адресам:

—- http://www.t-mail.com/;

— http://www.freetranslation.com/.

5. Словари on-line

Наиболее полный список словарей представлен по адре­су http://members.aol.com/Mgierhake/trans.html. В словарях on-line существует возможность поиска, есть строка ввода и меню для выбора входного и выходного языка. Среди слова­рей данного вида известны LOGOS ONLINE DICTIONARY (английский, французский, немецкий, испанский, итальян­ский, чешский), TRADOS MultiTerm, Langenscheidt's New College Dictionary on-line и т.д.

6. Услуги по переводу в Интернете

Практически каждая компания — производитель систем МП предлагает услуги по переводу. Например, на странице


 


Languge Partners International (http://www.languagepartners. com/reg-forms/inq-trans.html) организована служба перево­дов, которая обрабатывает любой электронный документ с помощью систем МП и отправляет обратно без редактиро­вания. Пользователь может предоставить термины для по­полнения словаря по своей тематике (за дополнительную плату) или сам его создать. Скорость перевода — 1 рабочий день. Стоимость — 0,04 доллара за слово (приблизительно 8 долларов за страницу). За дополнительную плату предос­тавляются услуги по сканированию. Направления перевода: английский—французский—английский, английский—не­мецкий—английский, английский—итальянский—английс­кий, английский—испанский—английский, английский- португальский —английский, английский—японский—анг­лийский, английский—русский—английский. Однако чаще всего пользователю предоставляется возможность выбора: получить только машинный перевод, либо машинный пере­вод с последующим редактированием профессиональным переводчиком, либо перевод, выполненный профессио­нальным переводчиком. Такого рода сервис можно встре­тить по адресу http://www.plustranslation.com/ (сервис ком­пании Transparent Language). Цена варьируется от 0,01 дол­лара за слово при машинном переводе до 0,38 при переводе с участием переводчика. Подобные услуги есть у SYSTRAN, L&H, Langscheidt, Language Engineering Corporation.

2.2.4. Инновационные технологии компании ПРОМТ

Ведущие сотрудники компании ПРОМТ начали заниматься исследованиями в области прикладной лингвистики и изучать модели построения систем машинного перевода более 20 лет на­зад, в конце 1970-х годов. Исследования велись в лаборатории ин­женерной лингвистики ЛГПИ им. А.И. Герцена (ныне педагоги­ческий университет). Накопленный теоретический багаж лег в основу технологий МП, разрабатываемых в компании ПРОМТ.


За 10 лет с момента основания компании ПРОМТ удалось создать передовые технологии МП, в основе которых заложены современные лингвистические алгоритмы, разработки в облас­ти математического моделирования и нейронных сетей. На базе этих технологий были разработаны системы машинного пере­вода, которые по качеству на 30% превосходят ведущие миро­вые аналоги.

В 2000 г. компания ПРОМТ выпустила семейство систем МП на основе нового ядра перевода. В новом ядре реализованы тех­нологии расширенных сетей переходов и формализма нейрон­ных сетей, что вывело машинный перевод на качественно но­вый уровень, а также последние разработки в области алгорит­мов семантического анализа и синтаксического разбора.

Новым шагом в развитии МП компании ПРОМТ стало ис­пользование технологии F2F, обеспечивающей сохранение всей форматной информации в процессе перевода, что позволило осуществлять перевод сложноформатированных документов без потери форматных признаков.

Помимо развития собственно технологии машинного пере­вода, были приложены специальные усилия к тому, чтобы реа­лизовать в новых системах возможность лингвистической на­стройки, которая обеспечивает значительное улучшение каче­ства перевода для специализированных текстов.

В частности, появление поддержки тематик в новом ядре позволило кардинально изменить подход к переводу специали­зированных текстов. Использование тематик решило проблему лингвистической настройки системы на специализированные тексты и обеспечило эффективность их сохранения.

Легкость и удобство лингвистического администрирования систем МП было реализовано на базе следующих технологий:

• AutoDetect для реализации автоматического определения
темы документа;

• SmartFolders для предварительного задания тематики пере­
вода всем документам, находящимся в определенной папке;

• KeyWords — выбор тематики на основе предварительного за­
данного списка ключевых слов;


 


• SmartURL — возможность предварительного задания тема­тики перевода для конкретного URL.

Компания ПРОМТ предлагает онлайновые сервисы перево­да текста, web-страниц и электронных писем для английского, немецкого, французского, испанского, итальянского и русско­го языков. Для перевода специализированных текстов можно подключать тематические словари.

Перевод текста. Позволяет переводить любые тексты, на­бранные в окне перевода или скопированные из буфера обмена (Clipboard).

Перевод web-страниц. Позволяет полностью переводить web-страницы, включая гиперссылки, с сохранением исходного форматирования.

Перевод электронной почты. Позволяет переводить и от­правлять электронные письма непосредственно в онлайне.

WAP-переводчик. Новый сервис перевода для пользователей мобильных телефонов.