Технології машинного перекладу
Під перекладом розуміють аналітико-синтетичне опрацювання текстів документів, у процесі якого заміняють одиниці мови тексту оригіналу на еквівалентні за змістом одиниці іншої мови за умови максимального збереження наявної в тексті оригіналу інформації. Машинний переклад (МП) – це переклад тексту з одної мови на іншу за допомогою комп`ютерної програми. Такі програми є одним з найпопулярніших програмних продуктів, попит на який невпинно зростає у міру накопичення обсягів різномовної інформації у цифровому вигляді та глобалізації доступу до неї через Всесвітню мережу. Накопичено значні обсяги науково-технічної та економічної інформації на достатньо екзотичних для європейців та американців східних мовах (японська, китайська, корейська тощо) завдяки стрімкому економічному розвитку відповідних регіонів. Важливими у військовому секторі є мови міжнародних кризових регіонів (арабська, пушту (Афганістан) тощо), для яких з 2003 р. розробляються та вдосконалюються програми МП. Окрім окремих програм МП, користувачу пропонуються послуги он-лайн перекладу (тобто перекладу безпосередньо у вікні Web-браузера), он-лайн словники, засоби для роботи в Інтернет на різних мовах (багатомовні браузери, електронна пошта, засоби для створення HTML-сторінок) та послуги з перекладу в Інтернет. Перекладацький ринок подвоюється кожні чотири роки, в той час як популярність професії усного та письмового перекладача спадає
Машинний переклад (МП) текстів з одних природних мов на інші — одне з перших необчислювальних застосувань ЕОМ загалом та штучного інтелекту зокрема. Роком народження МП як наукового напрямку вважають 1947 р., коли У.Уївер вперше запропонував розглядати завдання перекладу текстів з одних мов на інші як різновид дешифрування, а А.Бут і Д.Бриттен розробили докладний "код" для послівного машинного перекладу. Реально перші програми МП з’явилися на 100 років пізніше, у середині ХХ сторіччя (1952 р. – перша система МП на основі IBM Mark II). За наступні 60 років змінилося кілька поколінь систем машинного перекладу – від перших програм, що використовували обмежені ресурси універсальних комп'ютерів першого покоління до сучасних комерційних продуктів, що використовують могутні ресурси персональних комп'ютерів та комп'ютерних мереж. У міру зняття технічних обмежень щодо продуктивності й обсягу пам'яті комп'ютерів ставало все очевиднішим, що переклад тексту з однієї природної мови на іншу не зводиться лише до перекодування слів, вимагаючи вирішення проблем автоматизованого представлення контексту, врахування змістовності тексту, який перекладається, та предметної області, якої він стосується.
Нині системи МП є складними програмними комплексами, лінгвістичне забезпечення яких становлять: словники слів і словосполук із відповідними ознаками; морфологічні таблиці суфіксів і закінчень; бази граматичних правил тощо. Математичне забезпечення систем МП містить моделі для представлення лінгвістичної інформації і алгоритми їх перетворення, правила логічного виведення для уточнення оброблюваного тексту на основі екстралінгвістичних знань. До програмного забезпечення відносяться програми виконання перекладу, ведення словників, формування бази правил тощо. Інформаційне забезпечення представлене базою екстралінгвістичних знань про предметну область.
Сучасні системи МП класифікують за різними ознаками [52]:
· робочими мовами (кількості і типу);
· типами тексту;
· обмеженнями на предметну область;
· методами здійснювання перекладу (набором процедур, алгоритмів їх застосування та використовуваними базами знань);
· ступенем автоматизованості і характером участі людини у перекладі тощо.
За кількістю підтримуваних робочих мов системи МП бувають двомовними і багатомовними. Мова вихідного тексту називається вхідною, а мова перекладу (формованого тексту) — вихідною. У сучасних багатомовних системах МП підтримувані мови можуть бути і вхідними, і вихідними. Напрямок перекладу визначає ролі мов (вхідна, вихідна).
За типом тексту розрізняють системи для перекладу письмового тексту і усного діалогу. Системи для перекладу усного діалогу нині переважно орієнтовані на вузьку тематику (резервування місць в готелі, визначення маршруту проїзду по місту тощо) та інтегруються з системами аналізу і синтезу усної мови. Системи для перекладу письмового тексту класифікуються за призначенням перекладу на системи для перекладу:
· ділової прози (науково-технічних статей, заголовків і анотацій, описів винаходів, технічної документації та ін.);
· художньої літератури.
Обмеження систем МП за предметною областю обумовлені підтримкою в них лексики, відповідної до тої чи іншої галузі знань (медицина, інформатика, математика і т. д.).
За ступенем автоматизованості системи МП можуть бути автоматичними і автоматизованими (у яких ряд функцій перекладу лишається за людиною). Детальніша класифікація за ступенем автоматизованості перекладу запропонована у 1990 р. Ларрі Чаілдсом [65] . Згідно до цієї класифікації, виділяють наступні категорії МП [66] :
· FAMT (Fully-automated machine translation) - повністю автоматизований машинний переклад;
· HAMT (Human-assisted machine translation) - машинний переклад за участю людини;
· MAHT (Machine-assisted human translation) - переклад, здійснюваний людиною з використанням комп'ютера.
Програми FAMT є справою майбутнього, оскільки в загальному вигляді не вирішені проблеми автоматичного розуміння, перекладу і синтезу текстів.
Програми MAHT, чи ТМ-програми (від translation memory – пам'ять перекладу) застосовують професійні перекладачі, що усвідомили виграш від автоматизації їхньої роботи за допомогою комп'ютерів. У цьому випадку людина перекладає, а комп`ютер автоматично перевіряє термінологію, шукаючи її у словнику і порівнюючи її з іншими перекладами («пам`ять перекладу»). Основу ТМ-програм складають спеціалізовані словники, що відповідають тематиці перекладного тексту. При перекладі використовуються конструкції та значення слів і стійких словосполучень, обрані професійним перекладачем і занесені в словникові системи, а отриманий текст піддається інтенсивному редагуванню. Словники і вже перекладені фрагменти текстів, що запам'ятовуються в ТМ-системі, можуть бути повторно використані у великих колективних проектах, ними можна обмінюватися. Часто ТМ-програми використовують у сполученні з МТ-програмами. Найпопулярнішим ТМ-інструментарієм є Trаnslаtіоn's Workbench фірми Trados.
Програми HAMT ще називають МТ-програми (від Machine translation – машинний переклад). Автоматизований (за участю людини) машинний переклад можливий тільки в умовах штучно обмеженої як за словниковим запасом, так і за граматикою мови. Користувач приймає безпосередню участь у перекладі, забезпечуючи уникнення неясних, двозначних, складних конструкцій (тобто перехід на «контрольовану мову») завдяки попередньому скороченню користувачем довгих речень чи взаємодії між користувачем та програмою під час перекладу, наприклад, коли користувач повинен обрати значення слова. Як успішний проект МТ-програми, завжди називають німецьку систему Meteo, що виконує переклад метеопрогнозів з французької мови на англійську і навпаки. До МТ-програм належать і продукти машинного перекладу фірми PROMT, у тому числі програми для перегляду вмісту Web-сторінок у мережі Інтернет з метою пошуку потрібного документа.
МТ-програми за характером участі у них людини поділяють на програми з передредагуванням вхідного тексту, з постредагуванням вихідного тексту та з перед- і постредагуванням вхідного і вихідного текстів. Такі програми підвищують продуктивність перекладу у порівнянні з «ручним» варіантом у 3 – 5 разів, проте потребують залучення до перекладу на різних стадіях фахівців з предметної області.
Всі ці системи містять двомовні словники та щонайменше модулі базових граматичних правил, проте можуть використовувати різні методи перекладу та способи їх комп’ютерної реалізації. До найрозповсюдженіших методів комп’ютерного перекладу відносять[2]:
прямий, чи послідовний комп’ютерний переклад (direct translation);
метод трансферу, чи Т-метод (від transfer — перетворення);
метод Інтерлінгва, чи І-метод (від interlingua — мова-посередник);
метод перекладу «за прикладом», чи метод EBMT(Example-Based Machine Translation, машинний переклад, базований на прикладі);
метод перекладу на основі статистики, чи метод SBMT(Statistics-Based Machine Translation – машинний переклад на основі статистики).
У методі прямого перекладу слова вихідного тексту перекладаються окремо і в послідовності, в якій вони присутні у вихідному тексті. Після цього порядок слів та закінчення пристосовуються до відповідної мови. Перші системи комп’ютерного перекладу застосовували саме цей метод.
Метод трансферу реалізує лінгвістичні алгоритми, які є послідовною комбінацією трьох процесів: аналізу вихідного речення в термінах вхідної мови; власне трансферу (від transfer – перенесення), тобто перетворення отриманої структури в аналогічну для вихідної мови; синтезу (генерування) на її основі результуючого речення. На першому етапі ідентифікується та аналізується граматична структура речень вхідного тексту, змодельована переважно у вигляді дерева. Далі, залежно від обраного методу трансферу, визначається їх семантична структура. Потім ці структури переносяться у відповідну мову і перетворюються на речення на мові вихідного тексту з врахуванням граматичних правил. Таким чином генерується вихідний текст.
У методі інтерлінгва граматична інформація вхідного тексту спочатку виражається на нейтральній мові “інтерлінгва”, з якої потім утворюється граматична інформація відповідної вихідної мови. Інтерлінгва являє собою певну метамову, мову-посередник, на якій можна описати всі структури як вхідної, так і вихідної мов. Лінгвістичний алгоритм перекладу в Interlingua є простішим, як у методі трансферу: аналіз вихідного речення в термінах метамови і потім синтез за метаструктурою речення на вихідній мові. Головна проблема в цьому випадку полягає саме в розробці метамови і формального опису її у термінах мови природної. Метод інтерлінгва ефективний для перекладу складних висловів. Наприклад, речення німецької мови: „Wenn ich arbeiten würde, würde ich mir ein Auto kaufen“ (Якби я працював, я б купив собі машину) не можна перекласти за правилом würde →would, тому що в англійській мові в реченні з if не можна вживати would. Інтерлінгва розпізнала б würde-інформацію як умовний спосіб бажання і переклала б речення, залежно від контексту, з або без would.
У розвитку МТ-систем виділяють кілька поколінь, від П-систем до Т- та І-систем [8], які відрізняються лінгвістичними алгоритмами, програмним та інформаційним забезпеченням. Перші комерційні програми машинного перекладу з'явилися в середині 80-х рр. Вони були реалізовані на персональних комп'ютерах, як системи прямого перекладу, чи П-системи. Вони працюють на алгоритмах послідовного перекладу "слово за словом", "фраза за фразою". Можливості таких систем визначаються доступними розмірами словників, безпосередньо залежними від обсягу пам'яті комп'ютера, а не вмінням аналізувати і синтезувати тексти. Переклад тексту здійснюється окремими реченнями, значеннєві зв'язки між якими не враховуються.
Цикл роботи П-системи складається з трьох етапів. На першому проводиться морфологічний аналіз вхідної фрази. За допомогою бази правил для вхідної мови і двох словників (словника основ слів і словника зворотів) кожній основі слова і кожному звороту у фразі ставляться у відповідність свої набори ознак. У результаті фраза перетворюється на її морфологічне представлення у вигляді множини пар áознака, значенняñ.
На другому етапі морфологічне представлення вхідної фрази перетворюється на морфологічне представлення вихідної фрази. Для цього використовується база правил відповідності морфологічних ознак вхідної і вихідної мов. На третьому етапі виконується морфологічний синтез: встановлюються потрібний порядок і форма слів згідно до правил граматики вихідної. Якість перекладу (якість вихідного тексту) є незначно кращою за результат порядкового перекладу.
Основні зусилля розробників систем П-класу були спрямовані на оптимізацію структури словарних статей і самих словників та підвищення ефективності доступу до них. Проте швидко стало очевидним, що наявність навіть найповнішого і найдосконалішого словника не вирішує проблеми адекватного перекладу, для якого необхідно працювати на більш високому рівні синтаксичних структур. Потреба в створенні теоретичної бази машинного перекладу привела до формування нового напряму в лінгвістиці – прикладної (математичної) лінгвістики, одна з областей якої - формальна теорія граматик – дала змогу вирішити багато практичних і теоретичних проблем не лише у галузі машинного перекладу, а й штучного інтелекту загалом.
На зміну системам прямого перекладу прийшли системи наступних поколінь, у яких переклад з мови на мову здійснювався на рівні синтаксичних структур. В алгоритмах перекладу використовувався набір операцій, що давав змогу шляхом аналізу перекладаного речення побудувати його синтаксичну структуру за правилами граматики мови вхідного речення (аналогічно тому, як вчать дітей мові в середній школі), а потім перетворити її в синтаксичну структуру вихідного речення і синтезувати вихідне речення, підставляючи потрібні слова зі словника. Такі системи застосовують при перекладі методи трансферу і називаються Т-системами (від transfer – перетворення).
У Т-системах, окрім процедур морфологічної обробки, реалізуються процедури синтаксичного аналізу та синтезу. Робота Т-системи містить п'ять етапів. На першому здійснюється морфологічний аналіз вхідної фрази, як у П-системах. За його результатами на другому етапі проводиться синтаксичний аналіз, у процесі якого будується представлення вхідної фрази у вигляді синтаксичного дерева (дерева синтаксичного розбору) у формі або дерева синтаксичних складових, або дерева синтаксичних залежностей. У першому випадку граматика природної мови описується у вигляді моделей Хомського [22]. Дерево складових являє собою вкладені групи словоформ; найбільша словоформа відповідає фразі, найдрібніші — синтаксично неподільним текстовим одиницям (словам, словосполученням). У другому випадку вузли дерева відповідають синтаксичним одиницям тексту, а дуги — відношенням підпорядкування між ними. Це дозволяє використовувати при аналізі метод фільтрації. На третьому етапі здійснюється перехід від вхідної до вихідної мови шляхом перетворення синтаксичного дерева вхідної фрази у синтаксичне дерево вихідної фрази. Виділяються три рівні перетворення: поверхнево-синтаксичний; глибинно-синтаксичний та синтаксично-семантичний, за підтримкою яких і розрізняють Т-системи. На четвертому етапі проводиться синтаксичний синтез на основі граматичних правил, які в Т-системах мають декларативну (дескриптивну) форму. На п'ятому етапі, як і в П-системах, здійснюється морфологічний синтез.
У І-системах (І – від «інтерлінгва», «interlingua») поряд з морфологією і синтаксисом використовуються екстралінгвістичні знання, тобто знання про семантику і прагматику предметної області. Після морфологічного і синтаксичного аналізу вхідної фрази здійснюється її семантичний аналіз, результатом якого є мовно незалежні семантичні представлення вхідної і вихідної фраз, еквівалентні з точністю до лексики. Вважається, що наступні покоління систем машинного перекладу будуть відноситися до класу І-систем.
Основною відмінністю EBMT систем (Example-Based Machine Translation – машинний переклад, базований на прикладі) є наявність блоку пам`яті перекладу, в якому зберігаються речення чи фрази, які часто повторюються, та їх переклад. Система за допомогою методів інформаційного пошуку статистично вираховує, чи наявні перекладені записи схожі на відповідне речення вхідної мови. Генерування перекладу відбувається таким чином, що речення, які найбільше схожі одне на одне, перекладаються і в кінці комбінуються.
У системах SBMT(Statistics-Based Machine Translation – машинний переклад, на основі статистики) програма перед перекладом аналізує великий обсяг різноманітних двомовних текстів. Цей процес спрямований на те, щоб слова і граматичні форми на обох мовах розташовувалися залежно від частоти використання та змістовної близькості. Генеровані таким чином словник та граматичні правила становлять основу для перекладу текстів. Популярність методу SBMT зумовлена тим, що за нього непотрібне ніяке апріорне знання відповідної мови. Перевагою SBMT є те, що на основі аналізу «правильних» текстів на двох мовах встановлюються точно не відомі граматичні правила, формується лінгвістичне забезпечення методом «навчання». Натомість якість перекладу SBMT гірша, ніж у інших систем, що спираються на відомі правила. SBMT використовується у тих випадках, коли потрібний швидкий переклад з мови або на мову, для якої не існує реалізованого на комп’ютері лінгвістичного забезпечення і не має часу на встановлення правил людиною, наприклад, міністерством оборони США.
На практиці більшість систем МП є комбінацією систем кількох типів, переважно системи трансферу пам’яті з елементами “Interlingua” та EBMT.
В Україні найбільшого поширення набули такі системи МП і комп'ютерні словники:
Stylus — система машинного перекладу з численними словниками з різних предметних областей;
Universal Translator — багатомовна система машинного перекладу;
Socrat — система, що дає змогу сканувати документи, перекладати їх вміст і перевіряти орфографію;
Polyglossum — багатомовна система машинного перекладу з великим набором предметних словників;
Promt — багатомовна система машинного перекладу з численними словниками з різних предметних областей;
WebTranSite — система для перекладу web-сторінок;
Lingvo — комп'ютерний двомовний англійсько-російський і російсько-англійський словник (існують версії для німецької, французької та інших мов) з підключенням різноманітних предметних словників;
ProLingOffice – система машинного перекладу з набором предметних словників і комп'ютерний словник;
Pragma (Trident Software) - багатомовна програма машинного перекладу для перекладу текстових документів з однієї мови на іншу з великим набором предметних словників.
Найбільше відомі у нас додатки сімейства PROMT, що забезпечують переклад з російської на англійську, іспанську, німецьку, французьку, італійську і навпаки, та багатомовні словники Lingvo (ABBYY Software House). На жаль, PROMT та Lingvo не підтримують українську мову, ця проблема певної мірою вирішується вітчизняними компаніями, у першу чергу Trident Software, що створила програму Pragma, яка завдяки своїй оригінальній архітектурі є в певному сенсі «мовонезалежною»
Pragma (Trident Software) - це багатомовна програма машинного перекладу для перекладу текстових документів з однієї мови на іншу. Програма у версії 6.0 підтримує вісім мов: українську, англійську, російську, німецьку, латиську, польську, французьку та казахську. Pragma виконує переклад безпосередньо у вікні активного додатку або в окремому вікні швидкого перекладу. За допомогою програми можна перекладати текстову інформацію, представлену у вигляді документів MS Word, Інтернет-сторінок, поштових повідомлень, довідок, а також вміст різних текстових вікон.
За рахунок автоматизації багатьох функцій Pragma дуже проста у використанні. На відміну від інших програм машинного перекладу, в проекті Pragma використовується багатомовна технологія перекладу, в якій для вибраної кількості мов підтримуються всі можливі напрями перекладу. Наприклад, для трьох мов - української, англійської, російської існує 6 напрямів перекладу: англо-український, українсько-англійський, російсько-український, україно-російський, англійсько-російський, російсько-англійський. Базовою (проміжною) мовою є російська, для всіх випадків, крім перекладу на польську, де внаслідок граматичної та синтаксичної близькості базовою мовою обрано українську. Окрім основних перекладних словників, є також словники спеціальних термінів з 50-ти різних тематик. У ці словники включені досить рідкісні і специфічні терміни. Якщо передбачається переклад спеціалізованих документів, то підключення цих словників може підвищити якість перекладу.
Ще один вітчизняний лінгвістичний пакет ProLingOffice має у своєму складі створену за участю фахівців Інституту мовознавства НАН України програму "ПЛАЙ", яка працює в оболонці Microsoft Word і забезпечує переклад з російської на українську і назад. Розробники всіх згаданих програм підтримують онлайнові служби, за допомогою яких і можна оцінювати якість їх систем.