Технології автоматизованого видобування знань з тексту

Більшість знань (до 85%) нині отримують порівнянням, аналізом та синтезом інформації з розрізнених фактів, розміщених в текстах. При роботі з великими потоками документів процес автоматичного структурування текстової інформації заміщає експертний процес виділення фактографічної інформації та об'єктів, виконуваний людьми вручну. Постає потреба у системах з максимально автоматизованими ETL-процесами (ETL - extract, transfer, load), тобто процесами збирання, виділення, перетворення, завантаження та структуризації контенту, і підтримкою, виконуваної методами інтелектуального аналізу тексту функції оперативного аналізу інформації, отриманої за запитом для автоматизованого вибору (автопілотування) подальшого напряму дослідження документів. До найбільш актуальних напрямків видобування знань з тексту сьогодні можна віднести:

· аналітичну обробку фактів і ведення досьє;

· видобування і структуризацію фактографічної інформації;

· пошук інформації за запитами на природній мові з використанням тезаурусів;

· спрямовування пошуку інформації та об'єктів в сховищі чи підбірці документів;

· анотування документів, побудова дайджестів по об'єктах;

· проведення тематичного аналізу документів (кластеризація і рубрикування);

· побудова і динамічний аналіз семантичної структури текстів;

· виділення ключових тем і інформаційних об'єктів, класифікування;

· визначення загальної і об'єктної тональності повідомлень;

· дослідження частотних характеристик текстів.

Класична схема обробки текстів передбачає кілька послідовних етапів: на першому здійснюють нормалізацію слів з урахуванням морфології мови; на другому - семантичний аналіз тексту з уточненням конкретного змісту слів залежно від контексту. Далі будують семантичний образ початкового (вхідного) документа, на основі якого формують інтелектуальні запити на аналіз текстів. У сучасних системах автоматизованого видобування знань з текстів використовується двофазна технологія аналітичної обробки [1]. У першій фазі (ETL) проводиться автоматизований аналіз окремих документів, структуризація їх контенту і формування сховищ вихідної і аналітичної інформації. У другій фазі, яка здійснюється за технологіями OLAP (On Line-Analytical Processing), Text Mining чи Data Mining, в оперативному режимі здійснюється видобування знань зі сховища або з отриманої за запитом підбірки документів. В процесі аналітичної обробки відбувається виділення в тексті фактографічної інформації про об'єкт з урахуванням всіх посилань. Для цього спочатку виділяються всі речення із згадками про об'єкт (створюється дайджест), в яких можуть зустрічатися назви об'єкту («Іванов»), посилання на нього (анафори[15]: «він», «який» ...), а також узагальнюючі визначення (наприклад, кореференти[16]: «воїн», «сім'янин»…). Знаходження і розв'язання кореферентов і анафор дає збільшення об'єму дайджеста, і відповідно, об'єму фактографічної інформації, на 15-30%.

Первинна аналітична обробка у фазі ETL вимагає значних ресурсів. Тексти на довільних природних мовах є неструктурованими і задача їх розуміння є однією з найдавніших задач штучного інтелекту, яка може розв'язуватися з використанням різних технологій, передусім на базі методів обробки даних на природній мові — NLP (Natural Language Processing), на базі нейромережевих підходів та інших методів чи їх комбінацій. Читання об'ємних текстів та пошук в гігантських масивах текстових даних малоефективні, що зумовлює все зростаючу потребу у технологіях глибинного аналізу неструктурованих текстових даних, тобто текстомайнингу. Як вказує віце-президент компанії Semio Дж.Несбіт, «звертаючись до репозитаріїв документів, люди шукатимуть те, про що вони знають. Проте вони взагалі не шукатимуть або просто не зможуть відбити запитом те, чого вони не знають, навіть маючи доступ до зібрань документів. Різновид ефективного аналізу тексту – Text Mining – має, використовуючи обчислювальні потужності, виявити відношення, які можуть приводити до видобування нових знань користувачем» [57].

Технологія глибинного аналізу тексту Text Mining здатна виступати у ролі «викладача», який, вивчивши весь курс, викладає лише найбільш ключову і значущу інформацію, позбавляючи користувача необхідності «просіювати» величезну кількість неструктурованої інформації. Розроблені на основі статистичного і лінгвістичного аналізу та штучного інтелекту технології Text Mining призначені для проведення смислового аналізу, забезпечення навігації і пошуку в неструктурованих текстах. Застосовуючи побудовані на їх основі системи, користувачі можуть отримувати нову цінність – знання. Технологія Text Mining дає змогу аналізувати великі обсяги інформації у пошуках тенденцій, шаблонів і взаємозв'язків, здатних допомогти в прийнятті стратегічних рішень. Крім того, Text Mining – це новий вид пошуку, який, на відміну від традиційних підходів, не лише знаходить списки документів, формально релевантних запитам, але і допомагає зрозуміти зміст досліджуваної проблеми, що передбачає дуже високий рівень інтелектуалізації системи.

Текстомайнинг (Text Mining) часто називають також текстовим дейтамайнингом (text data mining), що частково розкриває взаємозв'язок цих двох технологій. Як Data Mining, так і Text Mining є процесами видобування знань, тобто, за визначенням експерта GTE Labs Г.Пятецького-Шапіро, «процесом виявлення в сирих даних раніше невідомих, нетривіальних, практично корисних і придатних для інтерпретації знань, необхідних для прийняття рішень в різних сферах людської діяльності» [57]. Проте, якщо дейтамайнинг дає змогу видобувати нові знання (приховані закономірності, факти, невідомі взаємозв'язки тощо) з великих обсягів структурованої інформації, яка зберігається в базах даних, то текстомайнинг — знаходити нові знання в неструктурованих текстових масивах. Тобто текстомайнинг доповнює технологію дейтамайнингу додатковим етапом — перетворенням неструктурованих текстових масивів у структуровані, після чого дані можуть оброблятися за допомогою стандартних методів дейтамайнингу [10].

Поява технологій глибинного видобування даних Data Mining передувала виникненню технологій глибинного аналізу текстів Text Mining і створила підстави для їх розвитку. Слово «mining» («видобування руди») у назві методів виступає як метафора знаходження глибоко «заритої» інформації та символічно вказує на головну особливість цих програмних систем – пошук прихованої інформації і раніше недосліджених закономірностей. Наприкінці ХХ століття технологія Text Mining остаточно виділилась у окремий напрямок аналізу неструктурованої текстовій інформації, який став логічним продовженням Data Mining. Технологія Text Mining об'єднала в собі класичні методи видобування даних (такі, як, наприклад, кластеризація), методи контент-аналізу, статистичного аналізу тощо з реалізацією нових додаткових функцій, таких, як автоматичне реферування текстів, виділення понять, феноменів, фактів, віднесення документа до певних категорій згідно заданої схеми їх систематизації. Сучасні системи Text Mining можуть застосовуватися при управлінні знаннями для виявлення шаблонів в тексті, для автоматичного «виштовхування» чи розміщення інформації по профілях, що цікавлять користувачів, створення оглядів документів.

Одна з найважливіших компонент технології Text Mining пов'язана з видобуванням із тексту його ключових слів, анотацій, інших характерних елементів чи властивостей, які можуть використовуватися як метадані документа. Text Mining також забезпечує новий рівень семантичного пошуку документів та їх віднесення до певних категорій заданої схеми систематизації документів.

Таким чином, Text Mining можна визначити як «алгоритмічне виявлення на основі систем штучного інтелекту, статистичного і лінгвістичного аналізу раніше невідомих зв'язків і кореляцій у вже існуючих неструктурованих текстових даних для проведення смислового аналізу, забезпечення навігації і пошуку в неструктурованих текстах з кінцевою метою отримання нової цінної інформації – знань» [112]. Відмінність технології Text Mining від Data Mining полягає в тому, що остання працює з базами даних, тобто зі структурованою інформацією, тоді як Text Mining дозволяє дослідникові аналізувати неструктуровану інформацію, представлену формі звичайних текстів на природній мові.

Актуальність текстомайнингу зростає у міру того, як людям різних професій доводиться приймати рішення на базі аналізу великого обсягу неструктурованих і слабоструктурованих текстів, частка яких у вигляді текстових файлів, файлів електронної пошти, систем управління контентом, систем управління документами, онтологій, таксономій, Web-сторінок, мультимедійних файлів тощо останніми роками зростає на 5-8 % на рік [9].

Умовно систему текстомайнингу можна розділити на чотири блоки (рис. 9.19). Модуль передпроцесингу об'єднує технології видобування і фільтрації текстів, що надходять на обробку. Модуль штучного інтелекту відповідає за «розуміння» текстів на природній мові. Наступний модуль містить засоби підтримки реалізації набору необхідних користувачеві задач, кожна з яких вимагає свого технологічного розв'язання.

 

Рис. 9.19. Структура системи текстомайнингу [9]

У загальному випадку модуль реалізації завдань користувача може підтримувати досить великий набір задач, зокрема:

· класифікацію;

· кластеризацію;

· побудову семантичних мереж;

· видобування фактів, понять (feature extraction);

· видобування думок;

· анотування, реферування, формування огляду (summarization);

· формування відповіді на запит (question answering);

· тематичне індексування (thematic indexing);

· пошук за ключовими словами (keyword searching);

· створення таксономій (ієрархічних деревоподібних класифікацій) та тезаурусів.

Відповідно до цих завдань до основних інструментів Text Mining відносять засоби анотування, чи побудови резюме (реферату) (summarization), виділення феноменів, властивостей та понять (feature extraction), кластеризації (clustering), класифікації (classification), формування відповіді на запити (question answering), тематичного індексування (thematic indexing) і пошуку за ключовими словами (keyword searching). Також в деяких системах Text Mining набір інструментів доповнюють засоби підтримки і створення таксономії[17] (taxonomies) і тезаурусів (thesauri). Деякі фахівці у якості основних виділяють чотири основні завдання, розв’язувані технологією Text Mining [57]:

класифікація тексту на основі побудови правил віднесення документів у завчасно визначені категорії за результатами виявлення статистичних кореляцій між елементами тексту та елементами шаблону з бази шаблонів системи;

кластеризація на базі лінгвістичних та математичних методів виявлення та обробки ознак документів без використання зумовлених категорій з отриманням у результаті таксономії чи візуальної карти, яка забезпечує ефективне охоплення великих обсягів даних;

побудова семантичних мереж та аналіз зв'язків, які визначають появу дескрипторів (ключових слів чи фраз) в документі для забезпечення навігації;

видобування фактів, призначене для отримання з тексту певних фактів з метою покращання класифікації, пошуку і кластеризації.

Всі системи Text Mining містять інструменти розв’язання задачі класифікації, яку вважають найрозповсюдженішою задачею глибинного аналізу текстів. Класифікація застосовується, наприклад, під час групування документів в intranet-мережах та на Web-сайтах, розміщенні документів в певні папки, сортуванні повідомлень електронної пошти, вибірковому поширенні новин передплатникам тощо. На практиці задача класифікації зводиться до класичної задачі розпізнавання, де за навчальною вибіркою система відносить новий об'єкт до тієї чи іншої категорії. Особливість текстомайнингових систем полягає в тому, що кількість об'єктів і їх атрибутів може бути дуже великою; тому мають бути передбачені інтелектуальні механізми оптимізації процесу класифікації.

Кластеризація застосовується при реферуванні великих документальних масивів, визначенні взаємозв'язаних груп документів, для спрощення процесу перегляду під час пошуку необхідної інформації, знаходження унікальних документів з колекції, виявленні дублікатів або дуже близьких за змістом документів. При розв’язанні задачі кластеризації, тобто виділення компактних підгруп об'єктів із близькими властивостями система повинна самостійно знайти ознаки і розділити об'єкти по підгрупах. Кластеризація переважно передує класифікації, оскільки дає змогу визначити групи (категорії) об'єктів. У текстомайнингових системах застосовують два основні типи кластеризації - ієрархічну та бінарну. Ієрархічна кластеризація полягає в побудові дерева кластерів, в кожному з яких розміщується невелика група документів. Зразок утиліти двійкової кластеризації приведений на сервері корпорації IBM за адресою http://www.software.ibm.com/data/iminer/fortext. Двійкова кластеризація забезпечує групування і переглядання документальних кластерів за посиланнями подібності. У один кластер включаються найближчі за властивостями документи. В процесі кластеризації будується базис посилань від документа до документа, заснований на вагах і спільному вживанні ключових слів, які визначаються в процесі аналізу тексту.

Технологія текстомайнингу дає змогу також розв’язувати задачі прогнозування, тобто передбачення за значенням одних ознак об'єкту значень всіх інших, та задачі знаходження винятків, тобто пошуку об'єктів, які за своїми характеристиками сильно виділяються із загальної множини об'єктів. Для цього спочатку з'ясовуються середні параметри об'єктів, а потім досліджуються ті об'єкти, параметри яких найсильніше відрізняються від середніх значень. Пошук винятків широко застосовується, наприклад, в роботі спецслужб. Подібний аналіз часто проводиться після класифікації, щоб оцінити точність останньої.

Окрім кластеризації, текстомайнинг підтримує пошук зв'язаних ознак (полів, понять) окремих документів. Ці ознаки є такими самими, як і при кластеризації. Від передбачення задача такого пошуку відрізняється тим, що наперед не відоме, за якими саме ознаками реалізується взаємозв'язок; мета полягає саме у знаходженні зв'язків ознак.

Останній модуль текстомайнингової системи (рис. 9.19) – модуль інтерфейсу - містить засоби, що формують графічний інтерфейс користувача, і забезпечують належне представлення інформації, що дає людині змогу побачити додаткові приховані закономірності, які не вдається виявити іншими методами. Візуалізація має велике значення для обробки і інтерпретації результатів текстомайнингу. Візуалізація даних передбачає обробку структурованих числових даних, проте водночас відіграє ключову роль при представленні схем неструктурованих текстових документів. Зокрема, сучасні текстомайнингові системи можуть здійснювати аналіз великих масивів документів і формувати наочні покажчики понять і тем, висвітлених в цих документах. Візуалізація зазвичай використовується як засіб представлення змісту (контенту) всього масиву документів, а також для реалізації навігаційного механізму, який може застосовуватися при дослідженні документів і їх класів.

Сьогодні існує достатньо потужне програмне забезпечення, що реалізує методи Text Mining. Переважно це масштабовані системи, що мають розвинені графічні інтерфейси, великі можливості з візуалізації і маніпулювання даними, що надають доступ до різних джерел даних та функціонують в архітектурі клієнт-сервер. Ці системи відповідають сучасним вимогам як за архітектурою, так і за функціональними можливостями. Вони представлені як відносно простими програмами, що спираються на статистичний аналіз окремих термінів в текстах (такі, як WordStat), так і надскладними додатками типу Aerotext та Business Оbjects Text Analysis. Найвідомішими є інструменти сімейств (компаній) ClearForest, IQMen, Smartware, Гарант-Парк-Інтернет, Мегап’ютер Інтелідженс, Елвісті тощо, зокрема, програми ConveraRetrievalWare, Hummingbird KM, IBM Text Miner, Insight Smart Discovery Extraction Server, Ontos Miner, Oracle Text, ODB-Text, TextAnalyst, InfoStream, XANALYS Link Explorer, «Аналітичний кур’ер», «Медіалогія», «Система управління досьє X-Files» та багато інших, детальний опис яких наведено у [9].

Історично першою текстомайнинговою системою, що працювала у архітектурі клієнт-сервер, була SemioMap 2.0 розробки компанії Entrieva (1998 р.). SemioMap [122] підтримує розбиття матеріалу по «папках», створення окремої бази даних для кожної папки. Центральним блоком SemioMap є лексичний екстрактор – програма, котра витягує фрази із текстової сукупності і виявляє спільну появу цих фраз, частота якої слугує за підставу для формування зв'язків між поняттями [10]. Робота системи Autonomy Knowledge Server[113] базується на потужних інтелектуальних алгоритмах на основі статистичної обробки текстів, які дають змогу ідентифікувати ключові концепції в межах документів шляхом аналізу кореляції частот і відношень термінів із змістом тексту, забезпечуючи ефективне розв’язання задач автоматичній класифікації і організації перехресних посилань.

Починаючи із версії Oracle 7.3.3. засоби текстового аналізу обов’язково входять у склад продуктів Oracle. З Oracle9i – ці засоби виділилися у інтегрований в СУБД програмний комплекс Oracle Text [126], який дає змогу ефективно працювати із запитами, що стосуються неструктурованих текстів [57]. Система Oracle Text забезпечує вирішення таких задач аналізу текстової інформації, як: пошук документів за їх змістом; класифікацію та кластеризацію документів; видобування ключових понять; автоматичне анотування; пошук в документах асоціативних зв'язків.

Продукт фірми IBM Intelligent Miner for Text [120] є набором окремих утиліт, що запускаються з командного рядка або скриптів незалежно один від одного: Language Identification Tool – утиліта автоматичного визначення мови, на якій складений документ; Categorisation Tool – утиліта класифікації (автоматичного віднесення тексту до деякої категорії; Clusterisation Tool – утиліта кластеризації (розбиття сукупності документів на групи за близькістю стилю, форми, різних частотних характеристик виявляних ключових слів); Feature Extraction Tool – утиліта визначення нового (виявлення в документі нових ключових слів (власні імена, назви, скорочення) на основі аналізу заданого наперед словника; Annotation Tool – утиліта «виявлення змісту» текстів і складання рефератів – анотацій до вихідних текстів.

Система Galaktika-ZOOM розробки [18] російської корпорації «Галактика» підтримує інтелектуальний пошук за ключовими словами з врахуванням морфології російської і англійської мов, а також і формування інформаційних масивів по конкретних аспектах. Систему TextAnalyst [124] компанії Мегап’ютер Інтелідженс підтримує створення семантичної мережі великого тексту; автоматичне анотування тексту; пошук по тексту; класифікацію документів; кластеризацію текстів. Система WebAnalyst [124] цієї ж компанії функціонує як експертна система збирання інформації і управління контентом Web-сайту, підтримуючи вирішення трьох задач: збирання максимальної кількості інформації про відвідувачів сайту і запрошувані ними ресурси; дослідження зібраних даних і генерація на основі результатів досліджень персоналізованого контенту.

З розвитком Інтернету аналіз, що базується на технологіях текстомайнингу, може реалізовуватися не лише за допомогою впроваджених в організації додатків, але і у вигляді онлайнового сервісу, який забезпечує підтримку тектомайнингу численних відкритих джерел інформації для комерційних, політичних і інших організацій. Прикладом такої онлайнової служби є сервіс «Медіалогия» на базі апаратно-програмного рішення компанії IBS. «Медіалогия» — це web-додаток, який забезпечує безперервну обробку потоку вхідної інформації, структуроване зберігання даних, розрахунок аналітичних параметрів, проведення аналізу за запитами користувача і зберігання налаштувань і звітів для вирішення задач конкурентного аналізу, інформаційної розвідки, управління репутацією, вивчення галузевого ринку, оперативного моніторингу ЗМІ і пошуку інформації за відкритими джерелами. Система спеціалізується на аналізі інформаційного поля на основі інтелектуальної обробки даних в режимі реального часу. При цьому можливе виявлення зв'язків і стосунків між персонами і компаніями, відслідковування особливостей відображення ситуації окремими джерелами або авторами. Система дає змогу відстежувати десятки типів зв'язків (партнер, конкурент, акціонер, друг) і відношень (контакти, фінансові стосунки, конфлікти) між об'єктами. Програма дозволяє розрахувати так званий індекс інформаційного сприяння — розрахунковий показник, який дає змогу оцінити якісну складову інформаційної ситуації, що склалася навколо компанії, персон, або бренду.

Останнім часом все актуальнішим стає завдання аналізу громадської думки, висловленої користувачами Web. Майже триразове щорічне зростання блогосфери за останні роки призвело до формування нового напрямку текстомайнингу - Opinion Mining (OM) (видобування думок) — технології, яка концентрується не стільки на змісті документа, скільки на думці, яку він відображає. Оцінити успішність проведеної рекламної кампанії, виявити ставлення преси до фірми чи споживачів до нового товару – на ці та інші питання можна одержати відповідь за допомогою технології Opinion Mining.