Лекция 7. Базовые информационные процессы, их характеристика и модели

Извлечение информации

 

Источниками информации могут являться данные, знания, документы. Источниками данных в любой предметной об­ласти являются объекты и их свойства, процессы и функции, выполняемые этими объектами или для них. Любая пред­метная область рассматривается в виде трех представлений (рис. 7.1).

Непосредственно в процессе извлечения информации можно выделить следующие фазы:

§ накопление системное или бессистемное (стихийное) на­копление информации в рамках предметной области;

 

Рис. 7.1. Предметная область в виде трех представлений

 

§ структурирование выделение основных понятий, выра­ботка структуры представления информации, обладающей мак­симальной наглядностью, простотой изменения и дополнения;

§ формализация представление структурированной инфор­мации в форматах машинной обработки, т.е. на языках описа­ния данных и знаний;

§ обслуживание корректировка формализованных данных и знаний (добавление, обновление), удаление устаревшей ин­формации, фильтрация данных и знаний для поиска информа­ции, необходимой пользователям.

По аналогии с добычей полезных ископаемых процесс из­влечения информации направлен на получение наибольшей ее концентрации. В связи с этим процесс извлечения можно пред­ставить как ее прохождение через трехслойный фильтр, в ко­тором осуществляется оценка синтаксической ценности (пра­вильность представления), семантической (смысловой) ценности, прагматической (потребительской) ценности.

При извлечении информации важное место занимают раз­личные формы и методы исследования данных:

§ нахождение ассоциаций, связанных с привязкой к какому-либо событию;

§ нахождение последовательностей событий во времени;

§ нахождение скрытых закономерностей по наборам данных путем определения причинно-следственных связей между зна­чениями определенных косвенных параметров исследуемого объекта (ситуации, процесса);

§ оценка влияния (важности) параметров на события и си­туации;

§ классифицирование (распознавание), осуществляемое путем поиска критериев, по которым можно было бы относить объект (события, ситуации, процессы) к той или иной классификаци­онной категории;

§ кластеризация, основанная на группировании объектов по каким-либо признакам;

§ прогнозирование событий и ситуаций.

Следует упомянуть неоднородность (разнородность) инфор­мационных ресурсов, характерную для многих предметных областей. Одним из путей решения данной проблемы является объектно-ориентированный подход, наиболее распространенный в настоящее время. Кратко рассмотрим его основные положе­ния.

Декомпозиция на основе объектно-ориентированного под­хода основана на выделении таких основных понятий, как: объект, атрибут, экземпляр, класс.

Объект — абстракция множества предметов реального мира, обладающих одинаковыми характеристиками и законами по­ведения. Объект характеризует собой типичный неопределенный элемент такого множества. Основной характеристикой объекта является состав его атрибутов (свойств).

Атрибуты —- специальные объекты, посредством которых можно задать правила описания свойств других объектов.

Экземпляр — конкретный определенный элемент множе­ства. Например, объектом может являться государственный номер автомобиля, а экземпляром этого объекта — конкретный номер К 173 ПА.

Класс это множество предметов реального мира, связан­ных общностью структуры и поведением. Элемент класса — это конкретный элемент данного множества. Например, класс ре­гистрационных номеров автомобиля.

Обобщая эти определения, можно сказать, что объект — это типичный представитель класса, а термины «экземпляр объекта» и «элемент класса» равнозначны. На рис. 7.2 показаны отношения между классами, объектами и предметами реального мира.

Важная особенность объектно-ориентированного подхода связана с понятием инкапсуляции, обозначающим сокрытие данных и методов (действий с объектом) в качестве собственных ресурсов объекта.

Рис. 7.2. Отношения между классами, объектами и предметами реального мира

 

Понятия полиморфизма и наследования определяют эволюцию объектно-ориентированной системы, что подразумевает опреде­ление новых классов объектов на основе базовых классов.

Полиморфизм интерпретируется как способность объекта принадлежать более чем одному типу. Наследование выражает возможность определения новых классов на основе существую­щих с возможностью добавления или переопределения данных и методов.

Для уменьшения избыточности используется процесс обо­гащения информации, например, при хранении в компьютере списка сотрудников организации иногда достаточно использо­вать первые 3—4 буквы их фамилий.

Среди методов обогащения информации различают струк­турное, статистическое, семантическое и прагматическое обо­гащения.

Структурное обогащение предполагает изменение параме­тров сообщения, отображающего информацию в зависимости от частотного спектра исследуемого процесса, скорости обслу­живания источников информации и требуемой точности.

При статистическом обогащении осуществляют накопление статистических данных, обработку выборок из генеральных со­вокупностей накопленных данных.

Семантическое обогащение означает минимизацию логиче­ской формы, исчислений и высказываний, выделение и класси­фикацию понятий, содержания информации, переход от частных понятий к более общим. В итоге семантического обогащения удается обобщенно представить обрабатываемую либо переда­ваемую информацию и устранить логическую противоречи­вость.

Прагматическое обогащение является важной ступенью при использовании информации для принятия решения, при котором из полученной информации отбирается наиболее ценная, отве­чающая целям и задачам пользователя.

Развитие методов и средств извлечения информации направ­лено на стандартизацию и унификацию. Характерным примером является создание и внедрение технологий Data Mining и Text Mining.

Data Mining (в буквальном переводе с английского «до­быча данных») — это направление в информационных технологиях, которое связано с автоматизированным извлечением знаний (неявным образом присутствующих в обрабатываемой информации) и базируется на интеллектуальном анализе дан­ных.

В основе современной технологии Data Mining лежит кон­цепция шаблонов, отражающих различные фрагменты взаимо­отношений в данных. Важное свойство методов Data Mining — нетривиальность обнаруживаемых шаблонов, которые должны отражать неочевидные, ранее неизвестные регулярности в дан­ных, составляющие так называемые скрытые знания (hidden knowledge), и изменения клиентуры, выявления мошенничества с кредитными карточками.

Методы Data Mining позволяют выделить следующие типы закономерностей:

§ последовательность (например, после события А в течение определенного интервала времени с большой вероятностью сле­дует событие Б);

§ связь между событиями (например, события А и Б с боль­шой вероятностью осуществляются одновременно);

§ классификация (объекты относятся к одной из групп с от­носительно постоянными характеристиками);

§ кластеризация (отличается от классификации тем, что сами группы заранее не задаются и выделяются непосредственно в процессе анализа);

§ прогноз построение временных рядов, отражающих ди­намику поведения целевых показателей.

Text Mining является разновидностью Data Mining, ориенти­рованной на обработку текстовой информации и широко при­меняемой для мониторинга ресурсов Internet. Задача Text Mining проанализировать не синтаксис, а семантику значения текстов, выбрать из него информацию, наиболее значимую для пользователя (есть тесная связь с контент-анализом). Обычно выделяют такие приложения Text Mining, как:

§ реферирование текстов на естественном языке;

§ классификация (тематическое индексирование) текстовых документов;

§ кластеризация текстовых документов и их фрагментов;

§ построение онтологии текстового документа (основных терминов и связей между ними), например, семантической сети:

§ визуализация полученных знаний.

В настоящее время сеть Internet становится одним из основ­ных поставщиков информации. Объем Сети неуклонно растет, пополняясь не только персональными страничками, но и пере­веденными в электронный вид различными базами знаний, на­пример: фонды библиотек, музеев искусств, электронные версии бумажной прессы. Помимо оцифрованных изданий свою лепту в рост Сети вкладывают и Internet-порталы различных тематик, объем информации которых уже превышает сотни гигабайт.

Поиск информации в сети Internet сопряжен с целым рядом технических проблем. Среди них: различные форматы пред­ставления документов, работа со слабоструктурированной ин­формацией, необходимость обработки документов на разных языках и учет языковых особенностей, большие и быстрорасту­щие массивы информации, необходимость высокой скорости поиска документов и навигационные методы.

Существует широкий спектр методов поиска информации в сети Internet на основе информационно-поисковых систем (ИПС), которые можно подразделить на два основных класса (рис. 7.3): поисковые машины и поисковые каталоги. Рассмотрим их основные достоинства и недостатки.

Серверная поисковая машина — программно-аппаратный комплекс высокой производительности, нацеленный на обслу­живание множества клиентов одновременно, обеспечивает малое время отклика и обработки запроса. Программное обеспечение (ПО), установленное на сервере, обычно использует все совре­менные возможности поиска информации в силу высоких аппа­ратных характеристик сервера.

Клиентская поисковая машина, или интеллектуальный агент, — ПО, предназначенное для поиска информации и уста­новленное на компьютере клиента либо загруженное из сети и работающее на стороне клиента. По сравнению с серверным вариантом является более узкоспециализированным (ищет ссылки только в определенном секторе Сети), менее быстрым, но при этом более гибким в настройке. В ближайшем будущем появятся агенты, адаптирующиеся к кругу интересов пользова­теля (например, с помощью нейросетевых или других алгорит­мов) и добивающиеся поэтому лучших результатов в поиске. Такие интеллектуальные агенты смогли бы отправлять наиболее популярные ссылки своего владельца на основной поисковой сервер, что повысило бы качество поиска и серверной ма­шины.

Рис. 7.3. Классификация информационно-поисковых систем

 

Поисковые машины обеспечивают автоматическую индекса­цию большого количества документов, но не обладают разви­тыми средствами искусственного интеллекта для экспертной оценки смыслового содержания информации. Этим обусловлена низкая релевантность ответа поисковых систем (релевант­ность степень адекватности результатов поиска запросу пользователя). Решение данной проблемы заключается в при­менении прогрессивных методов искусственного интеллекта для обработки и анализа текстовой информации.

Поисковые каталоги ресурсов представляют собой иерархи­чески организованные наборы резюме содержания информаци­онных ресурсов. Каталоги позволяют пользователю, перемеща­ясь от общих понятий к более узким, найти ссылку на сайт с интересующей их информацией. Преимущество таких систем перед поисковыми машинами заключается в том, что база дан­ных каталогов наполняется людьми, что приводит к высокой релевантности расположенных в них ссылок. Существуют ка­талоги двух типов: универсальные и тематические. Как пока­зывает практика, хорошие тематические каталоги содержат больше информации по своей тематике, чем универсальные каталоги. Однако информационная полезность таких каталогов, как правило, ограничена небольшим количеством проиндекси­рованных документов, большими затратами средств на поддер­жание актуальности базы проиндексированных документов и, следовательно, низкой оперативностью ее обновления.

Объем базы данных каталогов сравнительно невелик, ско­рость пополнения базы на порядок ниже, чем у автоматизиро­ванных поисковых машин. Также ниже и скорость поиска по каталогу.

Одним из способов устранения вышеизложенных недостатков каталогов, а также поисковых машин является их объединение в общую структуру. Это позволяет придать такой гибридной

структуре скорость поиска поисковых машин в сочетании с точностью (релевантностью) каталогов.

Рассмотрим процесс формирования информационных ресур­сов и их представление в информационно-поисковой системе (ИПС). Общеизвестно, что документальным массивом ИПС Internet является все множество документов шести основных типов: WWW-страницы, Gopher-файлы, документы Wais, за­писи архивов FTP, новости Usenet, статьи почтовых списков рассылки. Все это довольно разнородная информация, которая представлена в виде различных, никак не согласованных друг с другом форматов данных. Здесь есть и текстовая информация, и графическая информация, и аудиоинформация и вообще все, что есть в указанных выше хранилищах. Естественно встает вопрос, как информационно-поисковая система должна со всем этим работать.

Первая задача, которую должна решить информационно-поисковая система — это приписывание списка ключевых слов документу или информационному ресурсу. Именно эта проце­дура и называется индексированием.

Часто, однако, индексированием называют составление фай­ла инвертированного списка, в котором каждому термину ин­дексирования ставится в соответствие список документов, в которых он встречается. Такая процедура является только частным случаем, а точнее техническим аспектом создания по­искового аппарата информационно-поисковой системы.

Одним из наиболее важных факторов, влияющих на качество поиска, является метод внутреннего представления документов в поисковой машине. В традиционных системах есть понятие поискового образа документа (ПОД), что заменяет собой до­кумент и используется при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву.

Обычно поиск информации в документах происходит путем сравнения терминов этих документов с терминами из запроса пользователя. В этих методах есть два существенных недостат­ка. Во-первых, обычно имеется много способов выражения данного понятия (с помощью синонимов), поэтому относящиеся к делу документы могут быть отвергнуты. Во-вторых, многие слова имеют множественное значение (полисемия), поэтому в результате работы программы могут быть получены ненужные документы. Эти два недостатка приводят к тому, что методы, основанные на сравнении терминов, оказываются неприемлемы­ми для поиска ответа на запрос пользователя. Более эффектив­ный подход должен позволить пользователю получить инфор­мацию с учетом смысла конкретного документа.

Существует ряд подобных методов, рассмотрим наиболее распространенные из них.

В основе лексического индексирования лежит булева модель. Запросы пользователя представляют собой некоторое логическое выражение, в котором ключевые слова соединены операторами AND, NOT или ANDNOT (редко).

При использовании этой модели индекс организуется в виде инвертированного файла, в котором для каждого термина из словаря коллекции хранится список документов, в которых этот термин встречается.

Данный тип индексирования достаточно хорошо распростра­нен, но при этом имеет существенные недостатки. Так как поиск ведется с помощью логических объединений/пересечений до­кументов, в которых имеются ключевые слова, то результат поиска является полностью бесконтекстным, что сильно пони­жает его релевантность.

Векторная модель, в которой каждому документу приписы­вается список терминов, наиболее адекватно отражающих его смысл, — является наиболее популярной моделью. В данной модели запрос пользователя, так же как и документы, пред­ставляются в виде вектора в базисе слов словаря. Наиболее релевантными считаются те документы, углы векторов которых с вектором запроса минимальны. Если быть более точным, то документу приписывается вектор, размерность которого равна числу терминов, которыми можно воспользоваться при поиске. При булевой векторной модели элемент вектора равен 1 или О, в зависимости от наличия термина в ПОД документа или его отсутствия. В более сложных моделях термины взвешиваются, т.е. элемент вектора равен не 1 или 0, а некоторому числу, которое отражает соответствие данного термина документу. Именно эта модель наиболее популярна в информационно-поисковых системах Internet.

Вероятностное индексирование обусловливает соответ­ствие каждого слова его весу в документе. Это приводит к значительному повышению качества поиска в сравнении с лек­сическим и векторным индексированием.

Скрытое семантическое индексирование базируется на экономном сингулярном разложении матриц, которое позволя­ет выявить скрытые семантические связи при обработке большой коллекции документов.

Теоретическая эффективность метода намного выше лекси­ческого или векторного индексирования, но из-за его высоких требований к вычислительным возможностям сервера примене­ние его затруднено.

Использование моделей семантического анализа (MSA) яв­ляется попыткой преодолеть проблемы сравнения терминов с использованием статистически полученных смысловых параме­тров вместо отдельных слов. В методе MSA предполагается, что в каждом образце текста имеется некоторая внутренняя скрытая структура, которая не совсем ясна ввиду возможного использования синонимов. Эта структура фиксируется матрицей терминов и документов, которая представляет собой разрежен­ную (т.е. имеется сравнительно немного ненулевых элементов) матрицу строения m x n, получаемую грамматическим анализом текста. Для анализа структуры использования слов в докумен­тах используется сингулярное разложение (SVD). Поиск до­кументов может быть осуществлен путем использования А; наи­больших сингулярных значений и соответствующих сингулярных векторов, где k<=min(m,n). Проведенный анализ показывает, что сингулярные векторы в действительности являются более надежными показателями смысла, чем отдельные слова. SVD является наиболее распространенным примером двустороннего (или полного) ортогонального разложения, в котором матрица представляется в виде произведения трех других матриц: орто­гональной, средней и еще одной ортогональной. Средняя ма­трица — это нижне- (верхне-) трапециевидная или диагональная. Однако среди двусторонних ортогональных разложений, кото­рые могут быть использованы для поиска информации, более эффективным является применение метода MSA. Важным преимуществом данного метода является меньшее количество вычислений по сравнению с SVD. Основные вычислительные преимущества MSA над другими методами заключаются в ори­гинальном подходе к добавлению информации в базу данных. Основная идея в заключается в том, чтобы явно смоделировать взаимосвязи между терминами (через двустороннее ортогональ­ное разложение) и использовать их душ улучшения поисковой системы.

Новой парадигмой построения поисковых механизмов явля­ется применение систем нейронных сетей (Neural Network System) и онтологии для поиска документов по запросам поль­зователей в коллекциях и при объединении результатов поиска серверами запросов. При кластеризации локальной коллекции в фоновом режиме профайлы, представляющие локальную коллекцию, становятся входными данными для нейронной сети. Нейронная сеть затем строит кластерное дерево: несколько кластеров верхнего уровня, группу субкластеров для каждого из кластеров верхнего уровня и так далее до отдельных доку­ментов. Для осуществления поиска в коллекции посредством запросов каждый кластер представлен документом, наиболее близко находящимся к центроиду кластера (cluster centroid) в векторном пространстве профайлов. Таким образом, профайл заданного запроса необходимо сравнить только с профайлами кластерного центроида. Это в значительной степени увеличи­вает скорость обработки запросов. Кроме этого нейронные сети могут использоваться для кластеризации результатов поиска, поступивших в ответ на запрос от нескольких серверов. Главная задача кластеризации — выдать пользователю репрезентативный набор результатов, если общее результирующее число докумен­тов превышает «порог», заданный пользователем.

Известны два типа архитектуры нейронных сетей: RCL (Radius-based Competitive Learning — основанная на радиусе, обучающаяся, соревновательного типа), и ее иерархическое рас­ширение, называемое HRCL (Hierarchical Radius-based Competitive Learning — иерархическая, основанная на радиусе, обучающая­ся, соревновательного типа). В их основе лежит идея о том, что после каждого введения в систему входного вектора все нейро­ны упорядочиваются по их расстоянию до точки текущего ввода. Самый близкий к текущему вводу RCL нейрон становит­ся победителем, кроме этого RCL адаптирует все остальные нейроны из нейронного набора.

Высокая производительность и универсальность подсистемы нейронных сетей дает все основания для предположения о том, что она будет играть значительно большую роль в поисковых системах.

В настоящий момент наметилась тенденция к стандартизации описания структурированных, неструктурированных и полуструк­турированных текстов с помощью XML-технологии, что позволя­ет наметить пути к созданию единой технологии их обработки.

Представление данных как XML- документов является есте­ственным, поскольку они получаются из реальных документов. Представлять данные как документы привычнее и понятнее, чем представлять их как реляционные таблицы. Реляционная таблица, в лучшем случае, отдельный фрагмент документа. Неестественность табличного представления легко прочувство­вать вначале при проектировании реляционных баз данных, когда из набора имеющихся документов происходит вычленение сущностей, и затем при подготовке отчета, когда из этих же сущностей вновь создаются документы. Манипулировать дан­ными с использованием такой естественной для человека (но логически избыточной!) сущности как «связь» также привычнее и понятнее, чем со ссылочными ключами, которые в реальных документах встречаются редко.

IBM разрабатывает базирующуюся на XML систему поиска данных — UIMA (архитектура управления неструктурированной информацией), которая, как предполагается, значительно рас­ширит возможности средств поиска, применяемых в базах данных. По замыслу UIMA — это нечто, что становится частью базы данных или, скорее, тем, к чему базы данных обращают­ся, при этом появляется возможность «обдумывать» что-нибудь почти непрерывно. Это значительно изменит автоматизирован­ные или человеко-машинные системы. Например, предполага­ется, что станет реальностью автоматический перевод с языка на язык и работа с естественными языками.

В основе UIMA лежит теория сочетания гипотез (Combination Hypothesis) , которая утверждает, что в ближайшем будущем появится возможность объединить статистическое обучение машины — вроде того, которое использует поисковый сайт Google для интеллектуального ранжирования данных, — син­тетический искусственный интеллект и другие методы. Между тем XML обеспечивает простой способ обмена данными и их классификации, что облегчает использование искусственного интеллекта в вычислительной среде. По мнению представителей IBM, благодаря появлению XML за ближайшие три года инду­стрия баз данных изменится сильнее, чем за предыдущие двад­цать лет. По сути, искусственный интеллект будет функциони­ровать как фильтр. Датчики собирают информацию о внешнем мире и передают ее в компьютер, который выполняет надлежа­щие действия, беспокоя владельца лишь в случае крайней не­обходимости. Если нужно найти что-то в Web, человек делает запрос, а компьютер помогает ему уточнить его таким образом, чтобы вышло не 14 страниц списка потенциальных Web-сайтов, а только требуемая информация. В такой ситуации ключевой проблемой является задача быстрого и максимально эффектив­ного поиска, т.е. такого поиска информации, который позволит за минимальное время найти по запросу пользователя наиболее релевантные (подходящие) ресурсы. В настоящее время для решения этой проблемы пытаются применить механизм онто­логии.

Онтологии используются для систематизации данных на корпоративном портале индексации и обеспечения удобного поиска: несмотря на то, что многие крупные организации име­ют собственную таксономию для организации внутренней ин­формации, этого обычно недостаточно. Простая классификация сильно ограничивает возможности поиска и индексации, по­скольку многие документы могут подпадать под разные кате­гории, поэтому поиск но различным критериям будет намного эффективней, чем обычный поиск по ключевым словам.

Семантическая сеть — развитие концепции существую­щей глобальной сети. Всей информации в ней придается четко определенное значение, что позволяет компьютерам и людям осуществлять совместную работу с гораздо большей эффектив­ностью. Чтобы придать информации четко определенное зна­чение, нужно, в частности, создать язык онтологии, т.е. общий набор терминов, которые используются для описания и пред­ставления объектов в Internet. Именно для этого и создается язык OWL (Ontology Wen Language), разработку которого одо­брил консорциум W3C. Новый язык поможет запустить авто­матизированные инструменты для глобальной сети нового по­коления, предлагая такие усовершенствованные услуги, как более точный Web-поиск, интеллектуальные программные аген­ты и управление знаниями.

Сегодня на переднем крае разработок в сфере Internet-стандартов находится Семантическая сеть (Semantic Web, со­гласно терминологии консорциума W3C), архитектура которой предполагает наличие у любой информации, находящейся в сети, связанного с этой информацией точного смысла, который нельзя было бы перепутать даже в случае совпадения фраз или слов, встреченных в разных контекстах. Фактически это озна­чает, что любая информация связана с некоторым неотделимым от нее контекстом. Семантическая сеть активно использует язык

XML для определения собственной структуры документов и язык RDF (Resource Definition Framework). предоставляющий удобную среду формализации метаданных и сведений о контек­сте. RDF создан консорциумом W3C и предназначен для опи­сания метаданных, является подмножеством языка XML и имеет собственный язык RDF Schema для описания структуры документов. Однако RDF это самый низкоуровневый из су­ществующих языков описания метаданных, поскольку опериру­ет лишь понятиями связей примитивных сущностей, например. «объект А владеет субъектом В». Со временем разработчикам Семантической сети стало очевидно, что средств XML и RDF для представления информации и метаданных для построения полноценной семантически связанной сети недостаточно. RDF подобен ассемблеру, если сравнивать семантическую нагрузку отдельных конструкций языка, и слишком сложен для решения задачи подобного масштаба. Чистый XML, в свою очередь, являясь метаязыком, включает в себя RDF как подмножество. и не создан для какого-либо конкретного применения, а потому для построения семантической сети его также недостаточно. Поэтому консорциумом W3C и был создан язык онтологии OWL (Web Ontology Language).

Онтология определяет термины, с помощью которых можно описать предметную область. Использование онтологии особен­но необходимо в приложениях-агентах, осуществляющих поиск и объединение информации из различных источников и из раз­ных сред, в которых один и тот же термин может означать разные вещи. Несмотря на то, что DTD (Document Type Definition, формальное описание структуры XML-документов) в стандарте XML и схем XML (XML Scheme) вполне достаточ­но для обмена данными между сторонами, которые заранее договорились о значении определений и терминов, отсутствие семантики в указанных средствах описания структуры серьезно ограничивает надежность выполнения задачи поиска и объеди­нения данных при использовании новых XML-словарей. Напри­мер, элемент <Rate>, встретившийся индексатору в разных документах, может означать либо курс рубля, либо оценку за экзамен, либо цену товара, или что-нибудь еще. И без точной информации о том, что именно в конкретном документе имеет­ся в виду под этим элементом, поисковый агент не сможет со стопроцентной вероятностью вернуть именно то. что и требова­лось пользователю.

Практически любой пользователь сети хотя бы раз сталки­вался с ситуацией, когда при поиске интересующей его инфор­мации он помимо прочего получал от поисковой машины мно­жество бесполезных ссылок. Поскольку поиск информации осуществляется вне контекста, никакие уточнения запросов не смогут надежно найти именно то, что нужно. Для качествен­ного осуществления поиска пользователю необходимо понимать все тонкости предметной области, включая ее лексику, термины, определения, иерархии сущностей — одним словом, доскональ­но знать онтологию. Хорошо, если пользователь является экс­пертом предметной области, хотя даже в этом случае будет найдена лишняя информация, а что делать обычным пользова­телям? Язык OWL призван упростить процесс поиска, возложив необходимость знания предметной области и описание контекста поиска полностью на авторов документа и систему поиска, при­чем передача этих функций авторам документа должна быть незаметна для пользователя.



/cgi-bin/footer.php"; ?>