Б) Автоматичні словники для інформаційно-пошукових систем

Автоматичні словники, призначені для інформаційно-пошукових систем, у ролі реєстрових одиниць мають дескриптори, тобто ті слова чи словосполучення, які є ключовими для розкриття смислу тексту.

Дескриптори можуть бути різними за широтою змісту.Це означає, що у словнику дескрипторів вони розташовані ієрархічно, наприклад, за родо-видовими відношеннями. Ясно, що дескриптор більш широкого змісту притаманний більшому колу джерел. Якщо користувач у своєму запиті використовує більш широкий за змістом дескриптор, список виданих пошуковою системою джерел буде включати такі, що не мають безпосереднього відношення до теми запиту, це називається інформаційним шумом. Щоб уникнути інформаційного шуму, тобто одержати менший, але точніший список джерел, треба точно формулювати запит, використовуючи в ньому вужчі за змістом дескриптори.

Раціонально побудована інформаційно-пошукова система повинна бути відкритою, тобто дозволяти внесення в неї змін у процесі її використання. Такі зміни можуть бути пов’язані з необхідністю поповнити список дескрипторів або змінити їх системні відношення у зв'язку з указівкою на таку необхідність у формулюванні запитів. Можливо також, що якісь дескриптори варто вилучити з системи, оскільки, як показують запити, ці дескриптори дублюють один одного.

Словом, над удосконаленням словника дескрипторів й інформаційно-пошукової системи весь час працюють автори системи, про що користувач може догадатися лише з того, що у відповідь на свої запити він одержує списки джерел з усе меншим шумом. Досить досконала інформаційно-пошукова система може також коригувати запити користувачів, пристосовуючи їх до принципів будови системи і цим самим сприяючи кращому розумінню між комп'ютером і користувачем-людиною. Про таку систему кажуть, що вона є самонавчальною, тобто такою, що враховує неточності й у будові словника дескрипторів і системи в цілому, й у запитах користувачів.

Всяка інформаційно-пошукова система тісно пов'язана з певною предметною ділянкою. Це необхідно для уникнення інформаційного шуму, який виникає внаслідок омонімічних термінів у різних науках. Наприклад, термін КОРПУС має істотно різне значення у військовій справі й літако- чи суднобудуванні; слово КВАДРАТ має різні значення в геометрії й алгебрі; СТАН позначає різні поняття в мовознавстві й описі зовнішності людини. Таких прикладів можна навести дуже багато. Орієнтація ж інформаційно-пошукової системи на вужчу, чіткіше окреслену предметну ділянку забезпечить ефективніше її використання.

Зараз існує чимало різних інформаційно-пошукових систем в інтернеті, з одного боку, безплатних багатогалузевих. як-от Google, Yahoo, Yandex, з іншого - платних, що є власністю тієї фірми, на сайті якої ця система розміщена, або вузькоспеціалізованих, що теж розміщуються на сайтах певних фірм чи компаній і дають інформацію, яка стосується тільки цієї фірми, наприклад, розклад руху літаків.

Багатогалузеві інформаційно-пошукові системи пред'являють підвищені вимоги до запиту: він має складатися не з одного дескриптора (ключового слова), а з кількох, які уточнюють зміст першого. Інакше у відповідь на запит буде дуже великий інформаційний шум. Наприклад, на запит президентбуде видано величезний список президентів усіх країн й установ усіх років. Якщо дати запит у вигляді президент США,то відповіддю буде список усіх президентів США. Якщо ж ви хочете довідатися, хто був президентом США у 1948 році, то й запит повинен бути: президент СШАу 1948 році.

При цьому користувач не знає принципів будови багатогалузевої системи, він може опосередковано мати уявлення про неї, аналізуючи відповіді на свої запити. Більш того, розробники будь-якої системи зберігають у таємниці будову і її частин, і цілої системи, це професійна таємниця, know-how. Нею є будь-яка програма, що є основою будови й використання системи.

З розвитком систем машинного перекладу набуло поширення словників, спеціально призначених для систем МП. І хоч успіхи МП не таківже й великі, кількість експериментальних систем МП, а значить і словників для них, невпинно зростає.

в) Словники для машинного перекладу

Щоб перекласти текст з однієї мови на іншу, необхідно виконати такі етапи роботи:

- зрозуміти текст, який треба перекласти; це можливо за умови, якщо перекладач знає граматику вихідної мови, тобто, словозмінні форми кожного слова в перекладеному тексті, а також правила поєднання слів у реченні;

- вміти поставити у відповідність кожному слову й кожній конструкції слово у потрібній формі, як цього вимагає граматика вхідної мови, тобто мови, на яку перекладається текст, а також правильно побудувати речення.

Для комп'ютера слово "зрозуміти" нічого не значить, його треба замінити висловом "поставити у відповідність певним формам слів семантичну інформацію словника". Отже, перше завдання розробника системи машинного перекладу полягає у створенні підсистем морфологічного та синтаксичного аналізу перекладуваного тексту. Підсистема морфологічного аналізу забезпечується словником, у якому наводиться повна парадигма відмінюваних слів і можливі варіанти невідмінюваних. Укладанню такого словника передує дослідження, спрямоване на встановлення типів відмінювання та класів відмінюваних слів, що характеризуються певними флексіями та, можливо, змінами в корені чи основі відмінюваного слова. Словникову статтю у такому словнику можна побудувати, навівши або повну парадигму, або основу слова та набір властивих слову флексій. Основою слова у цьому випадку вважають незмінну частину слова, до якої додають флексії, наприклад: сл-ово, сл-ова, сл-ову, сл-ів і т.ін. Як бачимо, виділена основа не, збігається з тією, яка встановлюється шкільними граматиками, тому її називають квазіосновою.

Для флективної мови краще використовувати другий підхід, оскільки наведення повної парадигми кожного слова робить словник занадто довгим і незручним для користування. Якщо ж виділити основу й набір флексій, то цей набір може повторюватися з багатьма основами і слугувати показником парадигматичного класу, тобто тієї множини основ, яка характеризується саме таким набором флексій. Годі й основі, й даному набору флексій приписується номер парадигматичного класу, за цим номером знаходять основи, відмінювання яких відбувається шляхом приєднання набору флексій, якому приписано той самий номер, що й основі.

Для мови аналітичної, наприклад, англійської, цей підхід має обмежене застосування, оскільки більшість словозмінних форм у ній створюється не додаванням афіксів до відмінюваного слова, а сполученням його з допоміжними словами, які є основними виразниками словозмінної форми прикметника чи дієслова, наприклад: most interesting - найцікавіший, does not go — не йде. Особливо розгалуженою є система дієслівних аналітичних форм. При цьому відмінюване дієслово вживається в одній із чотирьох основних форм, кожна з яких утворюється синтетично або додаванням афіксів -ing, -ed для регулярних дієслів, або зміною слова для нерегулярних. Відмінюване дієслово не змінює форми для всієї групи певного часу, а конкретні форми цієї групи виражаються зміною допоміжного дієслова, наприклад: am reading, is reading, are reading.

Отже, визначення словозмінної форми в аналітичних формах здійснюється у два етапи:

1) визначення основної форми аналітичного дієслова, яка створюється синтетично,

2) визначення сполучення з допоміжним дієсловом, яке змінюється залежно від словозмінної форми. Наприклад, якщо відмінюване дієслово має форму Participle II, то воно може сполучатися з допоміжним дієсловом have для утворення перфектних форм (have written, has written, had written) або з дієсловом be для утворення пасивного стану (is written, was written, і т.д.).

Для обох типів мов слід розрізнювати форми, що утворюються за певними правилами (регулярні форми), для яких будова словникової статті така сама, що й для флективної мови, й нерегулярні форми, які слід наводити повністю.

Результати морфологічного аналізу слугують вихідним матеріалом для підсистеми синтаксичного аналізу, який встановлює правила поєднання слів певних парадигматичних класів між собою, що приводить до утворення правильних синтаксичних конструкцій, і зрештою визначає структуру речення.

Це дві підсистеми автоматичного аналізу перекладуваного тексту. їм відповідають дві підсистеми, спрямовані на синтаксичний і морфологічний синтез одиниць вихідної мови, на яку відбувається переклад. Вони теж створюються як системи правил, по-перше, відповідності структури вихідної мови структурам, встановленим для вхідної мови, та відповідність словозмінних форм вхідної мови формам мови, з якої текст перекладається.

Крім цих підсистем формального аналізу повинна бути підсистема власне перекладу, тобто встановлення семантичних відповідностей між перекладуваним та перекладеним словом, синтаксичною конструкцією або цілим реченням.

Отже, автоматичний словник для машинного перекладу - це серія словників:

а) морфологічного аналізу,

б) синтаксичного аналізу,

в) синтаксичного синтезу,

г) морфологічного синтезу, які будуються здебільшого у вигляді таблиць, та словника, семантичного, у якому для кожного слова перекладуваної мови наводяться значення у мові, на яку здійснюється переклад (див. Рис. 1).

Семантичний словник текст

Рис. 1 Взаємодія автоматичних словників машинного перекладу

Відразу виникає питання: що має містити семантичний словник для МП, чим він відрізняється від інших автоматичних словників? Перше, що спадає на думку: цей словник має містити частотну лексику. Ну, а якщо в перекладуваному тексті трапляються нечастотні слова? А вони є в будь-якому тексті, їх значно більше, ніж частотних, а тим більш високочастотних слів. У частотних словниках яскраво виявляється закон переваги: невелика кількість високочастотних слів, значно більше слів середньої частоти, а за ними тягнеться велика кількість низькочастотних слів. Отже, не вміщувати у словник для МП низькочастотні слова означає не змогти забезпечити повний переклад тексту за таким словником. Словник для МП має бути якомога більшим за обсягом, щоб кількість слів, що трапляються в перекладуваному тексті, але не зареєстровані в словнику для МП, становила незначну частину тексту і не заважала розуміти текст.

А скільки ж слів треба вмістити у словник для МП, щоб він задовольняв цю вимогу? Щоб відповісти на це питання, треба здійснити спеціальне дослідження: укласти серію ЧС різних текстів тієї галузі науки чи техніки, для перекладу якої створюється система. За ранговими списками цих ЧС можна з’ясувати, яка кількість і яких саме слів покривають певний відсоток тексту. Зіставивши одержані для різних текстів дані, можна досить точно визначити реєстр майбутнього словника для МП.

Поки що обсяг реєстру перекладного словника для МП встановлюється інтуїтивно. Так, Л. М. Бєляєва вважає, що словникова база має містити не менше 50000 реєстрових слів.

Семантизація реєстрового слова, тобто вказівка на його значення, відбувається по-різному в різних системах МП. Наприклад, у системі МП, яка створюється в Мовно-інформаційному фонді Інституту мовознавства УАН, укладається багатомовний словник, оскільки планується, що створювана система здійснюватиме переклад з української мови на кілька мов - англійську, німецьку, французьку, турецьку, російську. Семантизація слова здійснюється через його тлумачення, вихідною мовою є українська. З тлумачного словника виписують слово з його тлумаченням. Якщо слово має кілька тлумачень, його виписують стільки разів, скільки тлумачень у нього є. За тлумаченням слову приписують номер семантичної групи. Потім за синонімічним словником виписують синоніми до реєстрового слова, яким можна приписати те саме тлумачення. Розташовують їх за спадом семантичної близькості й усі разом утворюють семантичну групу, якій присвоюється певний номер.

Далі зі словників вхідних мов, на які буде здійснюватися переклад, виписують слова, що мають те саме значення, що й українське слово, і їхні синоніми, які теж розташовуються за спадом семантичної спільності. Цій семантичній групі присвоюється той самий номер, що й відповідній українській семантичній групі. За спільністю номерів семантичних, груп перебуває відповідник українського слова в даній мові.

В українській частині словника уже зараз нараховується 208920 слів, яким відповідають 7000 тлумачень, у російській - 168000, в англійській -215000.

Словникова стаття має такий вигляд:

1) реєстрове слово у вихідній формі;

2) вказівка на лексичні омоніми, номери яких містяться в іншому словнику, на який у даній статті робиться посилання;

3) лексико-граматичний клас та його код (відсилка до таблиці словозмінних типів, їх ознак і номерів);

4) номер парадигматичного класу (відсилка до таблиці словозмінних типів, їх ознак і номерів);

5) тлумачення (номер семантичної групи та ранг слова у ційгрупі, у якій слова розташовані за спадом семантичної близькості), наприклад, семантична група № 1, якій відповідає тлумачення "намагатися запам'ятати" містить такі українські й російські слова з їх рангами:

українські 1.заучувати 2.завчати 3. виучувати 4.вивчати 5. учити, вчити

російські 1.заучивать 2. выучивать 3. разучивать 4. учить

Кожна таблиця, до якої є відсилки від статті цього словника, має свою будову. Наприклад, таблиця словозмінних типів вміщує такі рубрики:

а) квазіфлексія,

б) номер парадигматичного класу,

в) граматичний клас, який приблизно відповідає частині мови,

г) номер граматичної форми в парадигмі.

Виходить, що для МП потрібен не звичайний перекладний словник, а ціла серія взаємопов'язаних таблиць різної будови й різного призначення, які у своїй сукупності забезпечують машинні процедури аналізу вихідного й синтезу вхідного тексту, який і є перекладом.

При цьому для тексту вихідного, який треба перекласти, і для тексту вхідного, тобто перекладу, будуються різні системи правил, зважаючи на те, що це різні мови, й на те, що правила аналізу й синтезу одиниць навіть однієї мови відрізняються одне від одного.

Виникає також питання: що має слугувати реєстровою одиницею семантичного словника для МП: слово, словоформа чи основа слова? Різні системи МП по-різному вирішують це питання. Якщо взяти реєстровою одиницею основу, не треба формулювати правила про те, скільки літер треба відкинути від слова, щоб одержати основу, а це спрощує систему правил МП.

Якщо зробити реєстровою одиницею словозмінну форму, то, здавалось би, алгоритм іще більше спрощується, оскільки ми маємо не синтезувати словоформи, а брати вже готові. Але при такому підході у кілька разів збільшується кількість реєстрових одиниць, що не можна вважати доцільним при укладанні словника. Тому такий шлях формування реєстру словника для МП практично не використовується.

Є спроба реєстровими одиницями взяти не лексичні одиниці, а синтаксично організовані словосполучення, особливо усталені, які, по-перше, досить частотні, а, по-друге, є готовими блоками для побудови речення у перекладеному тексті, тобто, знімається частина правил, що стосуються синтезу речення перекладеного тексту. Цей підхід має переваги, але для його реалізації необхідно здійснити попереднє дослідження, щоб виявити такі словосполучення та їх відповідники у вихідному тексті, тобто побудувати перекладний словник словосполучень, властивих текстам даної тематики чи предметної області.

Зараз уже майже не викликає заперечень те, що найраціональніше створювати систему МП для досить вузької предметної галузі. Адже тексти будь-якої галузі науки чи техніки мають свої особливості лексичного й граматичного характеру, тому будувати систему МП и укладати словники для однорідних щодо цього текстів простіше, та й діяти вона буде ефективніше.

Тривалий час у справі побудови систем МП не враховували необхідність попереднього статистичного аналізу текстів і результатів його під час створення систем МП, що, безсумнівно, гальмувало розвиток машинного перекладу, оскільки апріорний підхід, на якому базувалися розробники таких систем, не міг дати позитивних результатів. Це переконливо аргументував проф. Р. Г. Піотровський.

Безумовно, врахування кількісних характеристик тексту значно полегшило б побудову систем МП й сприяло б удосконаленню автоматичних словників для МП.