Інтелектуальні технології пошуку текстової інформації

Ці технології безпосередньо пов’язані з наробками у галузі розуміння тексту на природній чи обмежено природній мові і реалізуються у інформаційно-пошукових системах та пошукових машинах Інтернету на основі формування пошукових образів, запитів та оцінки їх релевантності.

Пошук інформації у інформаційно-пошукових системах здійснюють методами: 1) індексування текстів і пошуку за ключовими словами (за індексом); 2) пошуку за результатами морфологічного аналізу і ототожнення різних граматичних форм слів; 3) пошуку з ранжуванням документів за ступенем релевантності запиту; 4) пошуку на основі використання формальних пошукових мов; 5) комплексного пошуку тощо. Оцінка релевантності найчастіше проводиться статистичними методами на основі результатів морфологічного аналізу за критерієм кількості збігів слів запиту із словами в документі з врахуванням синонімів. Деколи у критерії враховують ваги окремих збігів залежно від відстані між ключовими словами у документі та їх черговості чи частоти використання слова в базі документів (чим рідше зустрічається слово, тим більше вага збігу).

Для пошуку інформації в Internet застосовують різноманітні пошукові засоби, зокрема: каталоги (directories); підбірки посилань (bookmarks); пошукові машини (search engines); бази даних адрес електронної пошти (email addresses databases); засоби пошуку в архівах Gopher (Gopher archives); системи пошуку файлів (FTP search); системи пошуку новин (usenet news); засоби текстомайнингу (Text Mining).

Каталоги та підбірки посилань формуються вручну персоналом інформаційних систем. Підбірки посилань на інформаційні ресурси Internet є відсортованими за темами адресами ресурсів. Каталог ресурсів Internet являє собою постійно обновлювану і поповнювану систему посилань на ресурси, організовану у ієрархічну структуру категорій, на верхньому рівні якої представлені найзагальніші категорії (рубрики), наприклад, «наука», «бізнес», «розваги» тощо, які на нижчих рівнях декомпонуються на більш часткові підкорені їм рубрики. Найнижчий рівень каталогу містить посилання на конкретні ресурси Internet (сайти і web-сторінки) зі стислим описом їх змісту [8]. Існує багато універсальних (наприклад, Yahoo! (http://www.yahoo.com); MSN (http://search.msn.com); Search (http://www.search.com); Яндекс (http://www.yandex.ru) тощо) та спеціалізованих (за предметною областю) каталогів Internet, які спрощують пошук внаслідок впорядкування посилань на ресурси, залишаючи інтелектуальні функції користувачу.

Засоби автоматичного видобування інформації з текстових ресурсів Internet (тобто власне інтелектуальні інформаційні технології) реалізуються пошуковими машинами (рис. 9.7), які підтримують один або кілька класів методів автоматизованого пошуку, зокрема: методи ітеративного пошуку; методи пошуку по вибірці; методи на основі каталогів, рубрикаторів і класифікаторів; семантичні методи пошуку чи їх комбінації. За допомогою цих методів здійснюють пошук типу «де», пошук за контекстом, пошук за фактографічними запитами тощо. Окреме місце серед завдань пошуку займає пошук за динамічно формованими запитами, тобто запитами, що формуються в процесі самого пошуку. Реалізація такого пошуку по запитах необхідна для видобування нових фактів, формування повідомлень по новостворених темах, створення комп'ютерного віртуального співбесідника, здійснення управління знаннями.

Головними компонентами пошукової машини (рис. 9.7) є програмний агент, база даних та програма пошуку. Програмний агент є найінтелектуальнішим автономним компонентом пошукової машини. Він «пересувається» мережею, індексує ресурси (web-сторінки) та постачає інформацію у БД «Індекс», яка накопичує і зберігає зібрану агентом інформацію. Пошук інформації у БД здійснюється користувачем за програмою пошуку.

Рис. 9.7. Структура пошукової машини, за [8]

Різні пошукові машини підтримують запити різного типу (пошук за словом, фразою, частиною слова, запити з урахуванням рядкових і прописних символів, запити з логічними операторами І, АБО, НІ тощо), які визначаються способами реалізації навігації та індексування, що підтримуються програмним агентом. Програмний агент являє собою відносно просту програму для реалізації запитів до вузлів Internet. Він містить блоки навігації, які керують «переміщенням» по мережі (це переміщення не фізичне, а віртуальне, від посилання до посилання), і засновані на певній базі правил механізми індексації, які забезпечують індексування отриманих сторінок і занесення результатів в БД. Адреси web-вузлів, що підлягають обробці, визначаються за гіперпосиланнями із сторінок поточного web-вузла. Вузли по черзі або безпосередньо індексуються, або копіюються на вузол програмного агента. В процесі індексування (обробки тексту чи його ключових елементів з метою визначення основної теми документа і віднесення його до певного класу (тематичної рубрики бази даних) виділяється інформація про ключові слова, яка спрямовується у базу даних.

Для підвищення ефективності і якості індексування до документів додають метадані, які містять загальну характеристику їх семантики. Набір введених метаданих обмежується можливостями мови, яка використовується для створення документів: для мови HTML він більш обмежений, ніж для XML.

Навігація (переміщення) і наступна індексація переважно здійснюються за алгоритмом «спочатку вшир, потім углиб», тобто спочатку по посиланнях одного структурного рівня web-серверів, а потім від вищого рівня до нижчого. Цей алгоритм, внаслідок ієрархічної структури більшості серверів, забезпечує більшу ймовірність знаходження документів з високим рівнем релевантності. Деякі агенті при визначенні порядку перегляду web-сторінок враховують їх популярність, деякі підтримують лише певні частини механізмів навігації та індексації. Так, різновиди програмних агентів під назвою «кроулери» (crawlers, від англ. сrawl - повзти) проглядають лише заголовки сторінок і повертають пошуковій машині тільки перше знайдене посилання; так звані «роботи» проходять по посиланнях різної глибини і вкладеності, а «павуки» (spiders) формують повідомлення про зміст знайденого документа, індексують його і пересилають видобуту інформацію в базу даних пошукової машини.

Визначення ступеня релевантності знайденого документа і запиту проводиться за алгоритмами статистичної обробки результатів морфологічного аналізу документа з урахуванням: кількості слів запиту в текстовому вмісті (HTML-коді) документа; тегів, в яких ці слова зустрічаються; місцеположення шуканих слів в документі; питомої ваги слів, за якими оцінюється релевантність, в загальній кількості слів у документі; часу існування web-сайта; індексу цитованості web-сайта тощо.

Пошукові системи, що використовують спеціалізовані бази правил, часто перетворюються на експертні системи. Загальна тенденція розвитку пошукових систем полягає у перетворенні їх із засобу видобування інформації у засіб автоматизованого видобування знань із залученням технологій дейтамайнингу – системи текстомайнингу.