Системы автоматизации перевода

Автоматизация, под которой сегодня понимается применение машинной техники и технологии с целью облегчения человеческого труда, вытеснения его ручных форм и повышения его производительности (Современный экономический словарь 2007), активно внедряется в переводческую отрасль, позволяя переводчику сделать свой труд более сфокусированным, комплексным и творческим (Соловьева 2008:77).

К технологиям автоматизации относятся, прежде всего, технологии машинного перевода (machine / automatic / computer(-aided) translation).

Технологии машинного перевода берут свое начало с середины 40-х годов (см. работы У.Уивера и А.Д. Бута, например, Уивер У.Новая Башня // Машинный перевод.М.: 1957), их разработка тесно связана с развитием систем искусственного интеллекта. В 1954 году машинный перевод был впервые продемонстрирован на практике – уже упоминавшийся нами Джорджтаунский эксперимент. Однако вплоть до конца 50-х годов прошлого столетия ввода систем машинного перевода в промышленную эксплуатацию не осуществлялось даже на экспериментальном уровне. Опубликование отчета Наблюдательного комитета по автоматической обработке текстов Национальной академии наук США, в котором указывалось на экономическую невыгодность машинного перевода и бесперспективность научных исследований в этой области, усугубило пессимизм относительно этого рода проектов и приостановило разработку программ вплоть до конца 60-х годов. Уже в 70-е годы усиление роли информации на разных языках и необходимость оперативного перевода большого количества текстов в условиях научно-технической революции заставили специалистов разных профилей вновь обратить свое внимание на возможности машинного перевода (Семенов 2008, с. 5-8).

В процессе развития системы машинного перевода становятся более гибкими и рассматриваются в одном ряду с другими способами и средствами автоматизации перевода. Совершенствование технологичности систем идет по пути включения человека-переводчика в некоторые переходы между автоматическими процессами. Происходит естественное и удобное подчинение систем автоматического перевода качественным возможностям человека-переводчика (Семенов 2008: 9).

Сегодня, когда информационные потоки буквально захлестывают человечество, востребованность программ машинного перевода как никогда высока.

В основе программ лежит жесткий алгоритм, предполагающий синтаксический и семантический анализ переводимого предложения с последующим подыскиванием эквивалентов на языке перевода. Если текст оригинала написан четким и логичным стилем, а предложения – полные и небольшие по объему, это создает естественные условия для корректного синтаксического уподобления при переводе, и синтаксис переведенного текста будет вполне удовлетворительным. Для решения семантических задач привлекается жесткое распределение по тематикам словарей, к которым обращается программа. При указании приоритетного списка словарей, при постоянном расширении и редакции их словников, программа машинного перевода становится менее зависима от разнообразия и разнородности языковых ресурсов и способна осуществлять более точный выбор соответствия (Семенов 2008: 41).

Качество машинного перевода и рентабельность его систем значительно повышают две дополнительные технологические операции: предредактирование и постредактирование.

Кроме того, нельзя не учитывать тенденцию к формализации языка оперативной коммуникации, проявляющуюся в использовании речевых штампов, аббревиатур, типового ядерного синтаксиса. Все это расширяет сферу применения систем машинного перевода.

Наиболее хорошо известными программами машинного перевода являются системы PROMT, SYSTRAN, а также «он-лайновые переводчики» популярных поисковых систем, например, Google Переводчик и др.

Принципиально иной технологией автоматизации переводческого процесса является технология накопительного перевода (translationmemory). Эта технология положена в основу программ, известных как CAT-системы, системы класса «Память переводов» или TM-инструменты (Computer/AidedTranslationSystems / Tools).

ТМ-инструменты – это класс программ, предназначенных для накопления, структурирования и хранения в определенном порядке результатов переводческой деятельности, оказывающих активную и эффективную организационную поддержку переводческого процесса, создающих комфортную среду и повышающих производительность труда за счет осуществления рутинных переводческих операций (Перевод: информационные технологии 2009).

Основная идея концепции системы автоматизации перевода – исключение необходимости снова переводить стереотипные (повторяющиеся) фрагменты текста.

Практическое назначение ТМ-инструментов можно обозначить следующим образом:

• Перевод документации с высокой степенью повторяемости текстов (технической, финансовой, юридической и др.)

• Локализация программного обеспечения

• Ведение терминологических глоссариев

• Проверка качества перевода

• Создание и распределение переводческих проектов

• Встраивание в системы документооборота и др.

Главный элемент переводческих инструментов – это создаваемая самим переводчиком база билингв – пары сопоставленных друг с другом сегментов (translationunits – TU) на исходном и переводящем языках. Единица перевода обычно равна предложению, но может быть изменена (фраза, абзац) на усмотрение переводчика (Перевод: информационные технологии 2009).

Одновременно с базой билингв, аккумулирующей исходные предложения и их переводы (SentenceMemory), переводческие инструменты располагают системами терминологического обеспечения (termbases) - программными средствами, осуществляющими автоматический просмотр исходного текста и предлагающими варианты перевода терминов, которые были приняты переводчиком в ранее выполненных и сохраненных в памяти переводах (Перевод: информационные технологии 2009).

Системы терминологического обеспечения создаются в виде одно-, дву- и многоязычных глоссариев. Словарные статьи имеют разветвленную структуру и содержат обширную информацию, необходимую для принятия решения об использовании того или иного термина: термин, аббревиатура, синонимы, определение, контекст, источник, статус, комментарий, рисунки, звукозаписи, перекрестные ссылки и т.д.

Пакет системы, как правило, включает дополнительные сервисные программы, позволяющие более эффективно организовывать работу по формированию базы билингв, а также непосредственно по переводу текстов, позволяя осуществлять поиск по нескольким базам памяти перевода, проверку качества оформления и орфографии, контроль ошибок непосредственно при вводе текста, предварительный просмотр в режиме реального времени и т.д.

Широко известными сегодня являются такие ТМ-инструменты, как Trados (5 Freelance, Studio 2009), DejaVu (DejaVuX), StarTransit (TransitXV), Catalyst (4.0), Wordfast и др. Некоторые из них (Trados, DejaVu, StarTransit) – это дорогие и мощные инструменты, часто промышленного масштаба (используются в переводческих бюро, агентствах, отделах крупных организаций), предназначенные для автоматизации всего процесса перевода: от менеджмента проекта до предоставления результатов перевода заказчику. Существуют и более дешевые виды программ, доступные и переводчикам-фрилансерам: программа Wordfast, Pi-Consult – Across и др.

Итак, в наше время переводческая отрасль развивается впечатляющими темпами. Применение новейших технологий в области лексикографической поддержки переводческих процессов становится важнейшим фактором конкурентноспособности на рынке переводческих услуг. Именно использование современной и качественной электронной лексикографической продукции способствует росту производительности труда переводчиков, расширению спектра оказываемых услуг, повышения качества перевода.

Приложение 2

Лексикографический анализ электронного словаря «UrbanDictionary» (http://www.urbandictionary.com)

 

Электронные словари сегодня широко доступны пользователю как на компакт-дисках, так и в Интернете. Подобных проектов много, но значительное число из них имеют весьма посредственные по объему и качеству базы данных, а потому могут оказаться малопригодны для использования. Однако существует уникальный в своем роде проект – словарь «UrbanDictionary», запущенный в 1999 г. и расположенный по адресу http://www.urbandictionary.com/.

Авторство словаря не принадлежит определенному издательству – он непрерывно создается трудами сообщества энтузиастов, каждый из которых может добавить в него собственную словарную статью (практика, известная в мировой лексикографии как «лексикография снизу вверх» или «bottom-uplexicography»). Большую часть работы проделывает администрация ресурса, удаляя противоречащие пользовательскому соглашению добавления, остальную работу выполняет сама система, принципы которой рассмотрены далее.

Исходя из метода создания словаря, его единственным достоверным источником является сама жизнь. Пользователи добавляют только те слова, которые сами не раз слышали и произносили в различных жизненных ситуациях. По сути, это книги, газеты, телепередачи и пр.

Объем словника впечатляет: на 27 апреля 2009 г. объем составил 3 920 800 единиц, и с каждым часом эта цифра растет.

В макроструктуре электронного словаря можно выделить словник и типичные для сетевых ресурсов разделы: пользовательское соглашение («termsofservice»), политика конфиденциальности («privacypolicy»), отзывы («feedback»), предложение рекламодателям («advertise»), описание технологии («technology»), консультация в реальном времени («livesupport»), чат («chat»), блог («blog»).

Как часть макроструктуры следует оценивать поисковую систему – основополагающую функцию электронного словаря. Фактически слова не имеют строго установленного порядка – они хранятся в базе данных и проиндексированы для поиска. Тем не менее, можно говорить о прямом алфавитном порядке построения словника, так как при отображении результатов поиска найденное слово дополнительно выводится в колонке слева в окружении наиболее близкими к нему по алфавиту словами. В качестве примера ниже приводится сопроводительная колонка слов к слову (неологизму) «ricer».

Ø […]

Ø Ricep

Ø ricepicker

Ø ricepower

Ø riceps

Ø ricer

Ø Ricer Angle

Ø Ricer Citation

Ø ricer convention

Ø ricer exuse

Ø […]

Поисковая система достаточно эффективна и при ошибке в наборе способна предложить возможные соответствия. Например, в ответ на запрос с предполагаемой ошибкой «gogle» выводится серия похожих результатов: «google», «search», «googl», «googol».

Наряду с традиционным машинным поиском предусмотрен второй способ освоения словаря – побуквенный просмотр; здесь слова выстраиваются по алфавиту.

В качестве примера ниже приводится алфавитный список слов при просмотре единиц на букву «Q».

 

Ø […]

Ø Qaeda

Ø qaf

Ø QAFFING

Ø qaffy

Ø qafgasm

Ø Qag

Ø qagen

Ø Qagget

Ø qahba

Ø qaid

Ø qailow

Ø […]

Микроструктура словаря включает заглавное слово, дефиницию, иллюстративный материал, указание на время добавления и авторство словарной статьи, рейтинговую систему, синонимический ряд (если предусмотрено пользователем), почтовый скрипт. Какие бы то ни было фонетические, грамматические, прагматические и другие пометы полностью отсутствуют – передаваемую ими информацию приходится самостоятельно извлекать из толкований и иллюстраций к заглавным словам.

Заглавной единицей могут выступать:

– буквы (например, «a», «g»);

– отдельные слова (например, «baller», «phat»);

– акронимы и аббревиатуры (например, «AOL», «SACS», «RSI»);

–сложносоставные слова (например, «twitterpated», «technolust»);

–словосочетания, обычнодвучленные (например, «emo alphabet», «intelligent design», «inbox rot»; «Cosmic Jewish Zombie», «National Hangover Day», «new world order»);

– цитаты (например, «I believe you have my stapler», «o the world just keeps on spinnin», «Oh My God! They Killed Kenny!»);

– антропонимы (например, «Hillary Clinton», «Michael Jackson», «Michael Jordan»);

– наборы символов (например, «?:(», «>__<», «>_>»);

– некоторые другие категории (кроме словообразовательных основ и аффиксов, обнаружить которые не удалось).

Значительно количество страноведческой информации: имена известных людей, спортивных команд, обычаев, модных тенденций и пр.

Одно слово может быть истолковано многократно. Каждая словарная статья, т. е. каждое отдельное толкование одного и того же заглавного слова, снабжена рейтинговой системой: читатель может добавить или убавить балл у каждой статьи, что скажется на ее популярности и позиции в общем списке. Так, самые лучшие по мнению посетителей толкования оказываются вверху списка, а наименее удачные – сдвигаются вниз. Пример рейтинговой системы: «uleh –151 up, 28 down ».

Дефиниции элементарны. При наличии у слова нескольких значений их обычно записывают одно под другим, в произвольном порядке, разделяя цифрами. Например, в одной из дефиниций «furry» находим следующее:

1. adjective.: havingorcoatedinfur;

2. adjective.: being related to the “furry” community, such as artwork, stories;

3. mistake: a misspelling of fury =P;

4. noun.:

a. One who shows interest in things that can be described with the “furry” adjective;

b. One who prefers to imagine himself as more animalistic than he is.

Иллюстративный материал не является строго документированным. Приводимые примеры произвольны; пример иллюстраций в словарной статье приведен ниже.

dotcomrade2606 up, 613 down

An Internet acquaintance; someone you chat with but have never actually met.

“So who’s this NrdPowr32 guy?”

“I dunno. Just a dotcomrade of mine.”

Подобным контекстам можно доверять лишь потому, что они созданы носителями языка.

Особенно популярные статьи содержат ряд графических иллюстраций, также добавленных пользователями.

Время добавления и авторство статьи автоматически вносятся в каждую словарную статью. Выглядит это так: «bymad at the worldFeb 27, 2003».

По имени автора статьи можно провести поиск и найти все внесенные им в словарь слова.

При описании слова пользователь может создать синонимический ряд, обозначив те слова, которые, как он считает, очень близки по смыслу к вводимому им слову. Например: «Skittlesyummy, sweet, sour, chewycandy». Прав был составитель, или нет – решать нужно самостоятельно.

Почтовый скрипт позволяет прямо со страницы со словарной статьей отправить ссылку на нее по электронной почте.

В процессе использования словаря непрерывно ощущается непринужденность и юмористический тон, особенно в словесных и графических иллюстрациях.

Таковы основные характеристики электронного словаря «UrbanDictionary». Его главный недостаток и одновременно главное достоинство – это отсутствие строгого контроля за содержанием, свободный порядок создания словника. Несмотря на свою анти-академическую направленность, он является незаменимым переводческим инструментом, помогающим истолковать новейшие слова, которых нет ни в одном другом словаре. Ресурс отлично зарекомендовал себя при переводе текстов песен, субтитров к фильмам, газет, журналов, всевозможных Интернет публикаций; обрел должную популярность и сегодня используется как носителями языка для повышения общей эрудиции, так и изучающими английский во многих странах мира.