Українські комерційні системи комп'ютерного перекладання

В Україні основними центрами розробки систем комп'ютерного перекладання є Київ, Львів та Харків.

3 метою покращення та прискорення процесу комп'ютерного перекладання в Україні укладено багато електронних словників з різних галузей науки і виробництва.

Наприклад, в Українському мовно-інформаційному фон-ді (Київ), що знаходиться в Національній бібліотеці України ім. В. I. Вернадського, створено великі академічні орфо-графічний та орфоепічний словники обсягом 100000 слів кожний, словник афіксальних морфем, активно розробляється український тлумачний, синонімічний, фразеологіч-ний та антонімічний словники, а також українсько-іномов-ні та іномовно-українські електронні словники.

Електронне видання «Словники України» — 1.03 (авто-ри: В. А. Широков, О. Г. Рябулець, I. В. Шевченко, О. М. Костюшин, К. М. Якименко), що вийшло у 2001-2003 роках, призначено для користувачів лексикографічної інформації. Воно складається з п'яти словникових підсистем-моду-лей — словозмінної парадигми, транскрипції, фразеології, синонімічної та антонімічної. Основу генерального реєстру (більше 186000 слів) системи «Словники України»-1.03 складає реєстр 3-го видання орфографічного словника української мови (2002 p.), який практично повністю відо-бражений і значно розширений у цій системі.

В Інституті прикладної інформатики НАН України (Київ) створено адаптивну лінгвістичну систему АЛІСА, що зорієнтована на виконання низки функцій, зокрема, ав-томатизованого створення словників, тезаурусів, фразео-логічних, термінологічних баз даних тощо. На основі цієї ж системи розробляють український автокоректор ТВІР.

Наприкінці шестидесятих років XX століття в Інститу-ті мовознавства ім. О. О. Потебні був створений відділ структурно-математичної лінгвістики на чолі з проф. В. Перебийніс. Саме колектив цього відділу продовжуючи роботу над створенням систем автоматичного морфологіч-ного та синтаксичного аналізу російських наукових тек-стів, почав активне формування повнотекстових баз даних та укладання на їхній основі різноманітних частотних словників і конкордансів.

Результатом досліджень стала повнотекстова база даних фонду яка містить близько 700000 слововживань і яку осна-щено процедурами орфографічного контролю текстів, ана-лізу їхньої морфологічної, синтаксичної та семантичної структури.

На цей час в Інституті філології Київського національного університету активно працює лабораторія комп'ютерної лінгвістики. Вчені цієї лабораторії створили параметризовану лексичну базу даних літературних творів українських пись-менників:

1) корпус текстів обсягом 300000 слововживань з тво-рів поетів-шестидесятників (Л. Костенко, I. Драч, В. Стус та ін.), поетів 70-их років (I. Жиленко, Л. Скирда та ін.) і письменників нової генерації (Ю. Андрухович, О. Забуж-ко та ін.);

2) інтегрований алфавітно-частотний словник обсягом 31 000 слів і 69000 словоформ з граматичною, лексико-гра-матичною та статистичною інформацією про слово;

3) алфавітно-частотні словники слів і слововживань кожного з авторів (вибірка на 20000 слововживань);

4) словник-конкорданс як допоміжний інструментарій для формування лексико-семантичної, синтаксичної та стилістичної характеристики слова;

5) морфемні та словотворчі словники кожного автора з частотними характеристиками;

6) словники синонімів, омонімів, неологізмів, діалектиз-мів, архаїзмів кожного автора;

7) словники тропів: епітетів, метафор, метонімії, порів-нянь, синекдох, оксюморонів, гіпербол.

У співробітництві київських лінгвістів з ученими з ін-ших міст України активно реалізується проект формуван-ня Національного корпусу української мови.

У Львівському політехнічному університеті створено: а) систему підтримування багатомовних термінологічних словників «СЛОВО», у якій відпрацьовуються системні питання технології підготування словників до видання; б) багатомовний банк стандартизованих терміносистем.

Львівський економічний інститут розробив автоматизо-вану систему для створення та супроводження багатомов-них термінологічних словників.

У Львівській комерційній академії група лінгвістів (А. В. Костенко, I. М. Кульчицький та інші) створила сис-тему супроводження багатомовних термінологічних слов-ників для Львівського національного медичного універси-тету а сьогодні працює над електронними словниками то-варознавчих термінів і перекладним італійсько-українським словником.

Фахівцями фірми «Пролінг ЛТД» було розроблено систему перевірки українського правопису «Рута».

До складу цієї програми входять:

• модулі перевірки орфографії та граматики;

• пошук синонімів і розміщення переносів;

• програми імпорт-експорт текстів з різними типами кодувань;

• режим підказування за умови неправильного набо-ру слова на клавіатурі;

• словник користувача.

Для перекладу текстів з російської на українську і на-впаки було розроблено систему «Плай». Програма пере-кладу вбудовується в стандартне меню Word. За допомогою цього меню можна виконати швидкий переклад як тексту, так і окремого слова в межах тексту оригіналу в будь-який бік. Електронний словник містить 155562 слова україн-ського словника і 125741 слів російського словника.

У Харкові, у Національному технічному університеті «Харківський політехнічний інститут» було створено сис-тему ПАРС (перекладна англо-російська та російсько-ан-глійська система). її оснащено комплексом термінологіч-них комп'ютерних словників з декількох галузей діяльнос-ті людини (на багато десятків тисяч термінів кожний). Вона успішно працює у багатьох містах України; є також її модифікації: ПАРС/D (для російсько-німецького та ні-мецько-російського автоматичного перекладання) і РУМП (російсько-українське й українсько-російське комп'ютерне перекладання).

Система РУМП (російсько-українське комп'ютерне перекладання), була розроблена харківським ученим М. С. Блехманом. Вона працює на ІВМ-сумісних персо-нальних комп'ютерах і перекладає тексти з російської мови українською й навпаки.

РУМП забезпечує зв'язний переклад текстів не тільки загальномовного, але також і фахового характеру тому що має декілька термінологічних словників: авіаційний (10 тис. термінів), екологічний (15 тис. термінів), комп'ю-терний (14 тис. термінів) та фінансовий (12 тис. термінів).

Словникову статтю системи РУМП подано у традицій-ному вигляді «паперових» словників: спочатку наводиться заголовне слово з одним або деякими перекладними екві-валентами, а потім — словосполучення.

Користувач може проглянути як українську так і росій-ську частину словника; його можна «перегорнути» угору й униз; є можливість вносити до словника зауваження й правлення.

Система працює у режимі багатьох одночасних завдань, сумісна з широко використованими текстовими процесо-рами. Унікальною властивістю РУМП є автоматичне гра-матичне кодування слів, що вводяться до словника: корис-тувач вводить слово в його канонічній формі, а система визначає його граматичні характеристики (тип відміню-вання, дієвідміни тощо).

У процесі перекладання РУМП вирізняється такими особливостями:

• одночасне використання чотирьох словників з визна-ченням їх пріоритетів;

• перекладання як усього тексту в цілому так і його фрагменту, визначеного користувачем;

• позначення багатозначних слів у тексті перекладу зіроч-ками, що надає можливість обрати з пропонованих системою варіантів найбільш адекватний перекладний еквівалент;

• виділення слів, які не знайдено у словниках системи РУМП;

• уведення нових слів та словосполучень безпосередньо з тексту до словника.

Приклади перекладів речень системою РУМП:

1. He стоит ли забьіть все, что бьіло раньше? (Чи не варто забути все, що було раніше?) — РУМП: He коштуе чи забути всіх, що було раньше?

2. Зти карманньіе часьі очень дорогие (Цей кишенько-вий годинник дуже дорогий) — РУМП: Ці карманние го-дини дуже дорогі.

3. He стоит так сердиться на своих друзей, которьіе го-ворят... (He варто так гніватися на своїх друзів, які ка-жуть...) — РУМП: He коштуе так сердиться на своїх дру-зей, що говорять... .

4. Они знают толк в зтом деле (Вони розуміються на цій справі) — РУМП: Вони знають толк в цій справі.

5. Фирма находилась по адресу (Фірма знаходилася за адресою) — РУМП: Фірма знаходилась за адресою.

6. Рассматриваемьіе в текущем году на общем собрании задания (Завдання, що розглядаються у цьому році на за-гальних зборах) — РУМП: Що розглядаються в поточному році на загальному зібранні завдання.

7. Мальчик подошел к первому солдату, а мужчина — ко второму (Хлопчик підійшов до першого солдата, а чоло-вік — до другого) — РУМП: Хлопчик пгдгйшов до першого солдата, а чоловгк — до другого.

Наведені приклади свідчать, що система комп'ютерного перекладання РУМП ще далека від досконалості. Однак, з огляду на думку фахівців про принципову недосяжність 100% якості перекладу, сирий перекладацький матеріал, що надає РУМП, значно полегшує й прискорює працю пере-кладачів.