Гіпертекстова інформаційна технологія

Гіпертекстова інформаційна технологія (ГІТ) — технологія обробки семантичної інформації, заснована на використанні гіпертексту. Вона відноситься до інтелектуальних інформаційних технологій, оскільки її функціями є представлення, пошук і обробка семантичної інформації поданої у текстовому вигляді [8]. Гіпертекст розширює можливості людини з пошуку та обробки інформації за рахунок встановлення асоціацій, побудови узагальнень, формування цілісного уявлення про зміст документа, тобто залучення властивостей природного інтелекту, даючи змогу формувати інтегровані моделі для вирішення задач, які слабко піддаються формалізації.

Під гіпертекстом (ГТ) розуміють форму організації семантичної інформації, що передбачає її розділення на фрагменти із заданням переходів від одного спорідненого фрагмента до іншого. Історично за перший гіпертекстовий документ можна вважати Біблію.

Ідею гіпертекстового підходу (без використання терміну гіпертекст) у 1945 р. висловив Ваневар Буш [8, 115]. Ним був запропонований проект нового середовища МЕМЕХ (Memory Extender), який передбачав створення автоматизованої системи доступу до великих слабоструктурованих інформаційних масивів, яка забезпечувала швидкий їх перегляд шляхом переміщення за заздалегідь визначеними зв'язками між інформаційними одиницями. Термін гіпертекст введено Тедом Нельсоном [72], під керівництвом якого була створена перша гіпертекстова система Xanadu. Основними моментами концепції гіпертексту були: розбиття тексту на фрагменти – семантичні одиниці тексту, між якими встановлюються зв'язки, які можуть наділятися іменами; забезпечення можливості читання тексту не послідовно, у порядку, визначеному автором звичайного тексту, а за різними траєкторіями, сформованими зв'язаними виділеними семантичними одиницями; активування переходів за вибором читача (користувача). Перші комерційні гіпертекстові системи (Guide, HyperCard) з'явилися в середині 80-х років XX століття. Тоді ж розпочалося широке проникнення ГІТ у всі сфери інформаційної діяльності.

Гіпертекст (ГТ) — одна з фундаментальних моделей представлення знань в текстовому вигляді. Звичайний (одновимірний, чи лінійний) текст можна розглядати як довгий рядок символів, що читається в одному напрямку. Багатовимірний, чи нелінійний текст, або гіпертекст (ГТ) включає точки галуження, в яких читання можна продовжувати в кількох напрямках залежно від інформаційних потреб читача [8]. У гіпертекстовому документі може бути кілька рівнів деталізації матеріалу. Такі документи графічно моделюються деревами або мережами. Якщо в звичайному тексті розставлені точки галуження (посилання), що дають змогу читати його, рухаючись за різними траєкторіями, то текст перетворюється на гіпертекст. У графовій моделі ГТ вершини (вузли) відповідають виділеним фрагментам тексту, а ребра (дуги) — можливим переходам між ними. Вузли, між якими можливий перехід, вважаються суміжними, а можливість переходу утворює зв'язок. Зв'язки можуть іменуватися «розділ», «параграф», «визначення» тощо для полегшення вибору переходу між вузлами. Сукупність суміжних вузлів задає околицю даного вузла. Відстань між вузлами, що відповідає близькості їх змісту, дорівнює мінімальній кількості проміжних вузлів. Послідовно з'єднані зв'язками вузли утворює шлях. Кожен шлях на графі представляє окрему лінію прочитання тексту.

Рух по гіпертекстовій мережі в процесі читання гіпертексту називається навігацією. Сучасні гіпертекстові системи дозволяють користувачеві самостійно формувати альтернативні траєкторії навігації по ГТ, що максимально відповідають його поточним інтересам. На думку Т.Нельсона, основні переваги ГТ полягають в тому, що читач може не просто вибирати ту або іншу траєкторію вивчення тексту, але і створювати новий текст на основі інформації, яка міститься в ГТ [125].

У моделях ГТ, як інформаційна одиниця ГТ, розглядається інформаційно-довідкова стаття (ІДС). У формалізованій моделі ГТ ІДС відповідає інформаційному об'єкту, зміст якого характеризується смисловою єдністю і логічною цілісністю. У конкретних технологіях ІДС називають по-різному: сторінка, стаття, тема, словосполука тощо. Вона може містити інформацію, представлену в різних формах: текст, таблиці, фрагменти, програмні коди (макроси, скрипти), впроваджені цифрові об'єкти, а також посилання на подібні об'єкти (графіка, звук, відео, керуючі елементи призначеного для користувача інтерфейсу), що включаються в ІДС при її завантаженні. Якщо всі ІДС є текстовими фрагментами, то ми говоримо про гіпертекст, якщо бодай одна стаття містить графічний, аудіо чи відео документ, то ми отримуємо гіперграфіку чи гіпермедіа.

Елементам ІДС можуть бути присвоєні мітки, унікальні у межах даної ІДС. Елементи (слова, речення, комірки таблиць, піктограми, фрагменти зображень, кнопки тощо) можуть наділятися інтерактивною поведінкою. Такі елементи називаються гіперпосиланнями. При дії на гіперпосилання (наприклад, клацанні мишею) може ініціюватися перехід до початку фрагменту іншої ІДС, початковий елемент якого має вказану мітку, або до фрагменту даної ІДС, що починається з елемента зі вказаною міткою. Гіперпосилання відповідають точкам галуження при читанні документа і задають напрямки переходів між ІДС і фрагментами ІДС. Гіперпосилання містить вказівник на ІДС чи її фрагмент. У Internet такі показники представляються у вигляді URL, що задають адреси відповідних ресурсів.

ІДС описується кортежем: {x0, x1, ..., x11}, де х0 — ім'я ІДС; х1 — заголовок ІДС; х2 — анотація ІДС; х3 — точка входу в ІДС; х4 — множина текстових фрагментів, що входять в ІДС; х5 — множина цифрових інформаційних об'єктів, що входять в ІДС (графічні зображення, відео і т. д.); х6 — множина програмних об'єктів, що входять в ІДС; х7 — довідка по ІДС; х8 — ознака прискореного перегляду ІДС; х9 — ознака детального перегляду ІДС; х10 — список гіперпосилань усередині ІСС; х11 — список гіперпосилань між ІДС. Обов'язковими є точка входу, ім'я, заголовок і анотація. Заголовок представляє змістовну назву ІДС. Ім'я служить формальним ідентифікатором ІДС, має бути унікальним у межах ГТ і використовується для її адресації програмними засобами.

З погляду програмної реалізації формалізована модель ГТ складається з двох шарів. Перший шар представляє вміст документа, в якому гіперпосилання за замовчуванням виділені кольором, підкресленням чи зміною шрифту, що відображається на екрані. Адреси переходів (ідентифікатори ІДС і мітки їх фрагментів) зберігаються в другому, прихованому шарі моделі. Для роботи з гіпертекстовою системою, що включає множину зв'язаних документів, не потрібне «збирання» інтегрального документа. Документи, що входять в систему, можуть зберігатися на одному або багатьох комп’ютерах (вузлах мережі). При цьому фізично розподілена система є логічно єдиною.

ГІТ широко застосовуються у найрізноманітніших інформаційних системах та технологіях, зокрема: у технології Internet; у гіпертекстових інформаційно-пошукових системах; у гіпертекстових інформаційних моделях економічних систем; у базах даних з гіпертекстовою організацією; у навчаючих та експертних системах; при представленні електронної документації (зокрема, контекстно-залежної і ситуативно-залежної довідки по програмних засобах); при створенні електронних записників, картотек, словників, енциклопедій і довідників; в організації призначеного для користувача інтерфейсу тощо.

В Internet гіпертекст застосовується з 1993 р. в рамках технології World Wide Web (WWW) — «всесвітньої павутини», що дає змогу переміщатися по мережі гіпертекстових документів. Відповідно до протоколу передачі гіпертексту HyperText Transport Protocol (HTTP) мінімальною неподільною одиницею даних, призначеною для міжмашинного обміну, є текст, записаний на мові розмітки гіпертексту HyperText Markup Language (HTML). Файл з цим текстом є гіпертекстовим документом, званим НТМL-сторінкою або web-сторінкою. HTML-сторінка містить опис структури документа, в тіло якого у вигляді уніфікованого вказівника ресурсу (Uniform Resource Locator — URL) можуть входити посилання на фрагменти даного документа і інших документів. Взаємозв'язана сукупність HTML-сторінок, розташованих на одному web-сервері, утворює web-сайт. Логічно єдина система HTML-сторінок може бути фізично розосереджена по мережі. Система URL дозволяє як розміщувати, так і збирати ресурси, на які посилається ГТ.

Гіпертекстова інформаційна технологія використовується при організації великих масивів текстових документів і реалізації методів пошуку інформації в них. Головна відмінність між традиційними і гіпертекстовими інформаційно-пошуковими системами (ІПС) полягає в тому, що традиційні системи зазвичай формуються на основі структурованих даних, тоді як в гіпертекстових ІПС може бути представлена слабо формалізована сукупність текстів, ілюстрацій, аудіо і відеодокументів тощо. Відображення в гіпертекстових ІПС семантичної структури документів розширює можливості і підвищує ефективність інформаційного пошуку.

Відмінність між ГТ і традиційною ІС подібно до відмінності між базою даних (БД) і базою знань (БЗ) [82]. З бази даних можна витягувати дані, переносити до іншої БД і вони при цьому не втратять своїх властивостей. Елементи знань не можуть бути довільно перенесені з однієї БЗ у іншу БЗ, оскільки їх інтерпретація у загальному випадку залежить від всього вмісту БЗ. Аналогічно, зміст і цінність елементу ГТ залежить від змісту пов'язаних з ним інших елементів ГТ, а також від можливостей читача побачити і уявнити нові зв'язки між елементами.