Комп’ютерна лексикографія.

Лексикографія (від гр. lexikos - віднесений до слова і grapho - пишу) є розділом мовознавства, що займається укладанням словників, їхнім вивченням і розробкою теорії словникового впорядкування. А. Баранов зазначає, що лексикографія може бути визначена як прикладна дисципліна, у центрі уваги якої перебувають методи створення (укладання) словників [2003, 55]. Підґрунтям для формування лексикографії стали всі накопичені людством протягом багатьох століть спроби створення словників спочатку синкретичного, а згодом диференційованого типу. Попередниками словників уважаються глоси - пояснення значень окремих слів на берегах давніх текстів і книг (у Шумері XXV ст. до н. е., у Китаї XX ст. до н. е., у Західній Європі VII ст. н. е. («Епінальський кодекс» як довідник для розуміння латинських текстів), у Росії XI ст. н. е.). Збірки глос (глосарії) стали першими словниками-довідниками. З виникненням друкарства почалося видання відомих рукописних словників і створення в лінгвістичних школах світу нових глобальних лексикографічних видань (у Великобританії «Оксфордський англійський словник» 1884-1928 p. p.; у Франції «Словник французької мови» Е. Літре 1863-1872 р. р.; у США «Американський словник англійської мови» Н. Вебстера 1828 p.; у Німеччині «Німецький словник» Я. Гримма і В. Гримма 1854-1960 p. p.; у Росії «Лексис» Л. Зизанія 1596 р. і «Лексикон славеноросский и имен толкование» П. Беринди 1653 р.).

Головними проблемами лексикографії є порядок відбору слів для словника; організація його макро- й мікроструктури, тобто словника в цілому

та словникової статті; принципи нормування, розробка систем поміток й індексації, типологія словників, їхні функції тощо. У теорії лексикографії існують кілька класифікацій наявних словників, що залежать переважно від складу й кількості представлених у словнику одиниць, характеру їх додаткових пояснень. За кількістю представлених мов словники поділяються на одномовні. двомовні й багатомовні, перші представляють лексикон однієї мови, інші є перекладними й подають еквіваленти мовних одиниць. За функцією словники поділяються на дескриптивні й нормативні: перші спрямовані на повний опис проблемної галузі в розмаїтті всіх випадків слововживань (наприклад, діалектні словники, словники жаргонів, сленгу); другі орієнтовані на норму мови, з них вилучено все, що не відповідає літературній нормі.

Окрему галузь лексикографії представляє теорія та практика укладання тезаурусних словників, названа ідеографією. Тезаурус (від гр. thesauros- скарбниця) є словником із понятійною диференціацією лексикону за певними тематичними групами різного ступеня узагальнення й кількості. Російські лексикографи Ю. Морковкін і Ю. Караулов надають поняттю тезауруса реляційного спрямування: «Тезаурус - це всілякий словник, який у явному вигляді фіксує семантичні відношення між своїми складниками» [Караулов 1981, 4]. В. Морковкін вважає тезаурус лексичним інструментом інформаційно-пошукових систем [1970]. І. Арнольд зазначає: «Тезаурус є наближеною інтерпретацією лексичної системи, її усередненою моделлю. Він дає змогу представити системні відношення, спостерігати рівневу організацію лексики, тобто є способом представлення семантичного простору» [1991, 29].

У сучасній комп’ютерній лінгвістиці термін «тезаурус» набуває атрибута «інформаційно-пошуковий», який трактується як нормативний словник-довідник, що містить лексикон певної предметної галузі, встановлює

парадигматичні відношення між одиницями (логіко-семантичні зв’язки між

поняттями: родо-видові, причини й наслідку, партонімії, схожості й суміжності тощо) і використовується для підвищення ефективності пошуку інформації та контролю лексики при індексуванні документів. Функціями інформаційно-пошукових тезаурусів є систематизація знань різних сфер науки, моделювання термінополів, фільтрація лексикону в машинному перекладі, систематизація знань у лінгвістичних процесорах автоматичної обробки мови тощо.

Створення інформаційно-пошукових тезаурусів є одним із завдань комп’ютерної лексикографії— маргінальної галузі комп’ютерної лінгвістики й лексикографії, спрямованої на розробку комп’ютерних технологій укладання й використання словників різних типів. Комп’ютерна лексикографія розв’язує чималу кількість прикладних завдань, що полягають у формуванні комп’ютерних лексикографічних баз, машинних фондів національних мов, лексиконів як додаткової інформації для лінгвістичних процесорів комп’ютерної обробки мови, інформаційно-пошукових систем тощо.

Машинні словники виконують функції збереження інформації, маніпуляції з нею та трансляторну. На відміну від звичайних словників, машинні мають можливість безперервного поповнення, швидкого алгоритмічного пошуку слів. Як зауважує В. Волошин, машинні словники формуються шляхом добору лексики з урахуванням: 1) логіко-індуктивного методу неформального аналізу слів; 2) статистичного підходу до добору; 3) психолінгвістичного підходу до тлумачення значень слів і зв’язків цих значень; 4) компонентного аналізу [2004, 337]. За способом організації машинні словники поділяються на частотні, алфавітні (прямі та зворотні), тезауруси, конкорданси, що містять приклади вживання слова в контексті фіксованої довжини, і спеціальні (для перекладу багатозначних слів). За співвідношенням словника, алгоритму та граматичного пошуку дослідники виокремлюють двочленний тип машинного словника, що складається зі словника й алгоритму, і тричленний, що має словник, алгоритм і таблицю граматичних правил.

Лексикографічні програми являють собою програми підтримки лексико-

графування й автоматичні словники, що містять бази даних. Перші призначені для введення електронних словникових картотек (наприклад, D-Base, ACCESS, PARADOX, FOX-Base). Вибірка прикладів для ілюстрації одиниць здійснюється в автоматичному режимі з корпусу текстів у машинному форматі. Автоматично згідно з програмою обробки корпусу текстів і форматом словника формуються й редагуються словникові статті, укладається текст словника та його оригінал-макет. Автоматичні словники поділяються на словники користувача-людини і словники для програм обробки текстів. Перші переважно є комп’ютерними версіями відомих звичайних словників [Баранов 2003, 82-87]. Так, Українським мовно-інформаційним фондом НАН під керівництвом В. Широкова створено лексикографічну систему «Словника української мови» в 11 т. і на її основі лексикографічну базу даних та комп’ютерну технологію укладання тлумачних словників. За словами В. Широкова, «урок цієї праці полягає в тому, що застосування теорії лексикографічних систем дозволило здійснити так званий парсинг (конверсію тексту словника в лексикографічну базу даних) в автоматичному режимі для дуже складного лексикографічного об’єкта, яким є СУМ, - нам невідомі реальні приклади парсингу словників такого великого обсягу та складності - і на цій базі побудувати високоефективну комп’ютерну технологію укладання тлумачних словників» [2005,94]. Мовно-інформаційним фондом створено й інструментальний комплекс, що реалізує певну схему інтеграції електронних версій СУМ і «Словника синонімів української мови».

Однією з найбільш складних проблем комп’ютерної лексикографії є алгоритмічне розв’ язання багатозначності. Існують кілька підходів до цієї

проблеми. Підґрунтям розмежування значень полісемантів є контекст, але

в різних системах застосовуються різні типи контекстів (синтаксичний і лексичний). Контексти є статистично обґрунтованими, орієнтованими на певну субмову і здатні поповнюватися й уточнювати вихідні фонди.

Корпусна лінгвістика.

Корпусна лінгвістика є галуззю прикладного мовознавства, яка займається формуванням комп’ютерних корпусів текстів у різних мовах і спрямована на максимально об’єктивний аналіз мовних явищ в умовах реальної живої комунікації. Поява цієї галузі у 70-80-ті p. p. XX ст. пов’язана

з розвитком комп’ютерної науки. У 60-ті р. р. уперше до засад корпусної лінгвістики звернувся британський професор Р. Квірк, який очолив колектив

по формуванню Лондонсько-Лундського корпусу текстів. Обсяг цього корпусу дорівнював 1 млн. слововживань (у 100 писемних і 100 усних текстах). Цей корпус у машинному варіанті упорядковувався в Лундському університеті (Швеція) до 1979 року під керівництвом Я. Свартвіка. На його базі у 1985 році було укладено Повну граматику англійської мови.

У США корпусна лінгвістика зазнала критики з боку основоположника

генеративізму Н. Хомського, який назвав корпусний спосіб накопичення мовних даних неадекватним і хибним для опису породжувальної здатності

природної мови, оскільки лише інтуїція мовця може замінити корпус і стати джерелом мовного матеріалу [The Linguistic encyclopedia 2004, 85].

Найбільш відомим корпусом американського варіанта англійської мови є Браунівський, що створювався у Браунівському університеті з 1961 року під керівництвом У. Френсіса і X. Кучери. Цей корпус має такий самий обсяг

слововживань, як і Лондонсько-Лундський. До нього ввійшли 500 текстів літературного варіанта англійської мови й тексти 15 жанрів американського

варіанта (індексована версія з’явилася у 1980 році). Британським аналогом

Браунівського корпусу є Ланкастерсько-Осло-Бергенський (індексована версія вийшла у 1985 році). У СРСР робота над створенням корпусів текстів була розпочата з першої половини 70-х років. Із 1987 року в Уппсальському університеті створюється «Уппсальський машинний фонд російської мови»

(близько 1 млн. слововживань). Спільним російсько-французьким проектом

упорядковано корпус за дискурсивними словами російської мови, одиницею

зберігання якого були зв’язні тексти відповідного часу, автора й жанру (15 тис. сторінок) [Дискурсивные слова русского языка 1998].

Головним поняттям корпусної лінгвістики є корпус мовленнєвої реалізації мови, що кваліфікується як сформована за певними вимогами вибірка мовленнєвого матеріалу, який може використовуватися для опису й дослідження мови як системи. Базовий, вихідний масив текстів разом із програмним забезпеченням формує динамічний корпус текстів. Складниками корпусу є одиниця зберігання, або базова одиниця, яка може відповідати слову, сполуці, синтагмі, висловленню, фрагменту тексту й цілому тексту залежно від мети створення корпусу. Одиниця зберігання може супроводжуватися параметризацією відповідних характеристик, у тому числі і джерела вилучення, а також маркерами деяких просодичних і паралінгвістичних особливостей природного мовлення. Одиниці усного мовлення обов’язково фіксуються на матеріальних носіях звукозапису, мають транскрибований вигляд, деякі корпуси містять відеозапис усного спілкування, тобто мають мультимедійний складник.

Корпуси можуть охоплювати всі мовні стилі й жанри або бути обмеженими певною дискурсивною сферою чи жанром (наприклад, Боннський корпус газетних текстів, німецький корпус текстів публічної політики за період з 1989-1990 p. p. «Wendekorpus»; російський корпус текстів словника Ф. Достоєвського тощо). Обмеження сфери вибірки певним жанром, типом дискурсивної практики, зразком текстів, автором визначає проблемну галузь корпусу одиниць зберігання. Співвідношення між корпусом текстів й обраною проблемною галуззю при пропорційному звуженні назване порогом відображення. Чим вищий поріг відображення, тим імовірніші випадки відсутності якихось явищ проблемної галузі в корпусі.

Залежно від мети створення корпусу вони поділяються на дослідницькі,

що призначені для вивчення різних аспектів і проблем функціонування мови й мови як системи і передують дослідженню; ілюстративні, що підтверджують висновки дослідника та створюються після проведення аналізу. Останнім часом з’являються так звані моніторні корпуси, які, порівняно зі статичними, відтворюють зміни мовної системи протягом певного хронологічного періоду, наприклад, процеси архаїзації та неологізації тощо. Таким чином укладався Бірмінгемський корпус, ідеологом якого став Дж. Синклер. Цей корпус постійно поповнювався й відображав зміни в мові. До того ж користувачі отримали можливість створювати робочі корпуси з генерального корпусу, що містив 7,3 млн. слововживань. У Росії протягом 1996-1997 р. р. авторською групою у складі А. Баранова, М. Михайлова, Г. Сидорова у відділі експериментальної лексикографії Інституту російської мови РАН було створено динамічний корпус текстів сучасної публіцистики.

Головними проблемами корпусної лінгвістики є: 1) спосіб представлення та збереження мовленнєвих репрезентацій (виокремлюють структурований та неструктурований способи); 2) вимоги до корпусу текстів із боку укладачів і користувачів (дослідники наголошують на принципах репрезентативності відносно проблемної галузі; повноти з метою представлення релевантних явищ; економічності, яка повинна балансувати з репрезентативністю й повнотою; прозорості та зрозумілості одиниці збереження як її самодостатності, що усуває двозначність і неясність; обов’язкової комп’ютерної підтримки [Баранов 2003, 118-121]); 3) специфіка програмного забезпечення корпусів; 4) принципи відбору параметрів проблемної галузі; 5) способи структурації корпусу; 6) транскрипція текстів усного мовлення; 7) мультимедійна підтримка корпусів усного мовлення; 8) розробка пошукових систем у корпусі; 9) способи формування робочих корпусів зі складу генерального; 10) кодування дескрипцій одиниць збереження тощо. Оскільки корпуси текстів створені або продовжують створюватися в різних країнах світу, координація зусиль дослідників є дуже незначною, що зумовлює різні формати репрезентації корпусного матеріалу, а значить, неможливість суміщення програм.

На підставі обробки комп’ютерного корпусу текстів здійснюється корпусний аналіз - один з об’єктивних методів мовного аналізу, спрямований на вивчення певних закономірностей й особливостей мови та мовлення. Застосовується в лінгвістичній семантиці з метою встановлення спектра контекстуальних значень й особливостей уживання лексем. Найбільш істотними недоліками цього методу є спрощення обробки мовного матеріалу й експланаторна негнучкість, тому оптимальним є поєднання корпусного аналізу з іншими методиками мовознавства.