А) Автоматичні словники для розпізнавання мови

Класичним прикладом автоматичного словника може слугувати словник, призначений для розпізнавання мови, якою написано текст, що важливо, якщо треба опрацювати масив різномовних текстів. Наприклад, у масиві текстів є тексти українською, російською та білоруською мовою або англійські та німецькі тексти. У цьому випадку треба виявити ті риси, які властиві лише одній із зіставлюваних мов. Це можуть бути літери або буквосполучення, службові слова або слова високочастотні, специфічні для певної мови синтаксичні конструкції і т.ін. Під час зіставлення трьох вищезгаданих слов'янських мов виявляється, що літери ґ, ї властиві лише українській мові, у — лише білоруській, ъ - російській. Німецьку мову відрізняють від інших мов з латинським шрифтом літери ä, , ü, В; буквосполучення sch, яке в англійській мові зустрічається в поодиноких словах, а в німецькій на кожному кроці. В англійській мові немає літер, властивих лише для неї, але є буквосполучення th, яке в німецькій мові майже не зустрічається. Якщо взяти найчастотніші слова, то вони будуть різними для різних мов. Для англійської - the, to, for, а для німецької - die, der, das. Словник, призначений для розпізнавання мов, будується як таблиця, у якій стовпчики позначають зіставлювані мови, а рядки - диференційні ознаки, які їх розрізняють, що не схоже на звичайний словник, як ми звикли його бачити й уявляти.

Отже, в комп'ютерних словниках можуть бути такі реєстрові одиниці, таке їх поєднання та представлення, яких не буває у словниках паперових.

Можливості та процедури розпізнавання мови досить детально описала Л. М. Бєляєва. Авторка формулює дві особливості постановки задачі розпізнавання мови:

- із багатомовного масиву текстів треба виокремити всі тексти однієї, заздалегідь визначеної мови;

- треба розпізнати мову, якою написаний чи вимовлений кожний текст. Щодо цих двох можливостей існує два способи вирішення завдання розпізнання мови: розпізнання мови з заздалегідь відомого й заданогонабору мов та розпізнання мови в ситуації, коли цей набір мов невідомий.

Розпізнавання має опиратися на розпізнавання діагностичних ознак, властивих лише певній мові і невластивих жодній іншій у даному наборі мов. Такими ознаками можуть бути як характеристики словоформ певної мови, так і частотні слова чи буквосполучення. Вибір процедури розпізнавання мови залежить від того, опис яких мов і який саме є в базі даних, яка використовується при вирішенні завдання. Авторка вважає, що для кожної мови треба мати діагностичні списки, які містять найчастотніші слова (переважно це службові слова) за винятком однобуквених, оскільки останні можуть належати до службової інформації. Найчастотніші слова покривають близько 20% будь-якого тексту, отже, обов'язково зустрінуться в тексті. Але треба мати на увазі, що такі слова в текстах різних функціональних стилів тієї самої мови будуть різними. Наприклад, в українських текстах п'єс перші десять слів (за спадом частот) - не, і, а, я, в, на, що, з, ти, ж, а в науково-технічних - в, і, з, на, що, при, для, у_, до, як. Спільними в цих списках є половина слів (непідкреслені).

Крім того, можлива наявність міжмовних омонімів, наприклад, рос. сор та англ. cop [kDp], укр. ре (нота) й рум. ре (на) та ін.

Заважають розпізнаванню мови також друкарські помилки, досить часті в комп'ютерних текстах.

Якщо використовувати специфічні для певної мови літери чи буквосполучення, то на перешкоді стає те, що в інтернеті, як правило, пропускають діакритичні знаки, тому німецькі ä, , ü не відрізнятимуться від а, о, u.

Отже, розпізнавання мови, якою написано текст, наштовхується на чималу кількість перешкод, тому справа ця не така легка, як здається на перший погляд, й укладання спеціальних автоматичних словників - важливе завдання, що стоїть перед комп'ютерною лексикографією.