Онтологии верхнего уровня (онтологии OpenCyc, SUMO, DOLSE)

Логические модели.

 

Продукционные модели.

 

Семантические сети.

 

Фреймы.

 

Вывод на знаниях. Машина вывода.

 

Стратегии управления выводом. Прямой и обратный вывод.

 

Определение понятия онтологии. Концепт, отношение, аксиома.

Слово «онтология» имеет два значения:

• Онтология 1. - •Философская дисциплина, которая изучает наиболее общие характеристики бытия и сущностей;

• Онтология 2. – артефакт, структура, описывающая значения элементов некоторой системы.

Неформально, онтология представляет собой некоторое описание взгляда на мир применительно к конкретной области интересов. Это описание состоит из терминов и правил использования этих терминов, ограничивающих их значения в рамках конкретной области На формальном уровне, онтология - это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории. Основными компонентами онтологии являются:

• Классы или понятия,

• Отношения,

• Функции,

• Аксиомы,

• Примеры.

 

Одно из самых известных определений онтологии, сформулированное Грубером таково: Онтология – это спецификация концептуализации.

Концептуализация – это структура реальности, рассматриваемая независимо от словаря предметной области и конкретной ситуации.

Например, если мы рассматриваем простую предметную область, описывающую кубики на столе, то концептуализацией является набор возможных положений кубиков, а не конкретное их расположение в текущий момент времени.

В качестве примера того, что в рамках онтологий понимается под аксиомами, можно привести следующее положение и его формальную запись на языке исчисления предикатов первого порядка:

 

Работник, являющийся руководителем проекта, работает в проекте

Вводятся переменные Е (работник), Р (руководитель проекта):

Forall (E,P) Employee(E) and Head-Of-Project(E,P) => Works-At-Project(E,P)

Классификация онтологий.

 

Онтологии верхнего уровня (онтологии OpenCyc, SUMO, DOLSE).

OpenCyc – прикладная онтология, в статье рассматриваются только верхние уровни иерархии.

OpenCyc1 – открытая для общего пользования часть коммерческого проекта Cyc, на текущий момент наиболее масштабной и детализированной онтологии в области общего знания. База знаний OpenCyc содержит информацию из различных предметных областей: Философия, Математика, Химия, Биология, Психология, Лингвистика и т.д. (http://www.opencyc.com).

Ключевым понятием в проекте OpenCyc является коллекция. Любая коллекция может содержать подколлекции и экземпляры. Таким образом, в OpenCyc определены два таксономических отношения: "подколлекция-надколлекция" (genls) и "экземпляр-коллекция" (isa). Экземпляром коллекции может быть любой термин онтологии. Важная черта отношения isa в том, что оно передается по иерархии отношения genls, т.е. если А является экземпляром коллекции B и B является подколлекцией коллекции C, то А является также экземпляром коллекции С. В случае, если коллекции А и В связаны отношением genls (А genls В), то это означает, что все экземпляры коллекции А являются также экземплярами коллекции В.

Рис.6. Фрагмент иерархии коллекций в OpenCyc

 

В вершине иерархии коллекций находится универсальная коллекция с именем "Нечто". По определению, она содержит все, что существует в рамках описываемой области (т.н. «Universe of Discourse»). Любая коллекция описанная в OpenCyc, будь то "Индивид", "МатематическоеМножество" или "Коллекция" является и подколлекцией, и экземпляром коллекции "Нечто". Более того, коллекция "Нечто" является как экземпляром, так и подколлецией самой себя, но не подколлекцией какой-либо другой коллекции. На первом уровне иерархии "Нечто" разделяется сразу на 116 подколлекций. На рис.6 изображена урезанная иерархия коллекций верхних уровней.

Коллекция "Индивид" содержит всевозможные индивиды, т.е. сущности не являющиеся ни множествами, ни коллекциями. Индивиды могут быть абстрактными или конкретными, включать физические объекты, события, отношения, числа, группы, они могут состоять из частей, иметь сложную структуру, но ни один экземпляр этой коллекции не может иметь элементов или подмножеств. Так, индивид имеющий части (связи типа "ЧАСТЬ-ЦЕЛОЕ") и множество или коллекция, содержащая те же самые части (связи типа "ЭЛЕМЕНТ-МНОЖЕСТВО" и "ЭЛЕМЕНТ-КОЛЛЕКЦИЯ") – две совершенно разные сущности. Например, данная фирма (1), группа, содержащая всех работников данной фирмы (2), коллекция всех работников фирмы (3) и множество всех работников фирмы (4) – четыре разных понятия и только первые два из них – индивиды.

Коллекция "Коллекция" содержит все коллекции онтологии OpenCyc, кроме "Нечто". Именно "Коллекция" наиболее близка понятию класс, которое часто используют при проектировании онтологий предметных областей (но не понятию класс объектно-ориентированного программирования!), поскольку эта коллекция описывает набор объектов (экземпляров коллекции) имеющих некоторые общие атрибуты (свойства). Это же отличает "Коллекцию" от "Математического Множества". Множество может содержать абсолютно не связанные элементы, а “Коллекция” нет. Все экземпляры "Коллекции" являются абстрактными сущностями, даже если коллекция содержит материальные объекты.

Структурно база знаний OpenCyc состоит из констант (терминов) и правил (формул), оперирующих этими константами. Правила делятся на два вида: выводимые утверждения и аксиомы. Под аксиомами в OpenCyc понимаются утверждения, которые были явно и вручную введены в базу знаний экспертами, а не появились там (или могут появиться) в результате работы машины вывода. Все утверждения или формулы в базе знаний OpenCyc фиксируются на языке CycL, выразительно эквивалентном исчислению предикатов первого порядка.

 

DOLCE (Descriptive Ontology for Linguistic and Cognitive Engineering) – первая из онтологий в библиотеке базовых онтологий проекта WonderWeb. (http://www.loa-cnr.it/DOLCE.html).

Онтологию DOLCE предполагается применять в SemanticWeb для согласования между интеллектуальными агентами, использующими разную терминологию. При этом онтология не претендует на звание универсальной, стандартной или общей. Основная цель разработчиков - создать модель, помогающую при сравнении и объяснении связей с другими онтологиями библиотеки WFOL (базовой библиотеки онтологий WonderWeb), а также для выявления скрытых допущений, лежащих в основе существующих онтологий и лингвистических ресурсов, таких как WordNet. DOLCE имеет когнитивный уклон, поскольку фиксирует онтологические категории естественного языка и знания «здравого смысла».

В основу процесса проектирования легло фундаментальное философское разделение всех сущностей на универсалии (сущности потенциально или реально имеющие экземпляры) и индивиды (или частности), которые не имеют и не могут иметь экземпляров. DOLCE - онтология индивидов, в том смысле, что область описания ограничена только ими. В качестве примера универсалии можно привести понятие «Собака» (оно имеет множество экземпляров, конкретных примеров в окружающем мире). В отличие от этого понятия, понятие «Время» скорее рассматривается как индивид (едва ли кому-то понадобится трактовать «Время» как множество различных объектов, конечно, если речь не идет о параллельных мирах).

Еще одна черта DOLCE (также заимствованная разработчиками из философии) – явное разделение на «Постоянные» и «Происходящие» сущности. Различие между ними состоит в том, что «Постоянные» сущности имеются в наличии целиком и неизменно в некотором фиксированном промежутке времени (например, стол, дом в течение периода своего существования).

Рис. 7. Верхние уровни иерархии DOLCE.

 

А «Происходящие» разворачиваются во времени и в каждый момент в некотором временном интервале они могут быть различными, по-разному себя проявлять, иметь разный состав, (например: ураган, жизненный цикл), однако при этом их идентичность сохраняется.

Такое разделение на "объект" и "процесс" весьма условно и здесь прослеживается когнитивный уклон DOLCE. Оно привело к тому, что в онтологии определены два типа отношения "ЧАСТЬ-ЦЕЛОЕ". Первое никак не зависит от времени, второе имеет временной индекс, определяющий в каких временных рамках, отношение действует. Подобное "раздвоение" наблюдается и для отношения "КАЧЕСТВО-ОБЛАДАТЕЛЬ КАЧЕСТВА". Другие базовые отношения онтологии: "УЧАСТНИК-ПРОЦЕСС", "КОМПОНЕНТ-ЦЕЛОЕ" (компонент входит в состав целого) и отношение зависимости имеют временной индекс. Для сравнения, в онтологии OpenCyc нет явного деления на «Постоянные» и "Происходящие". Поэтому, среди множества отношений в разделе "Части объектов" нет отношения, учитывающего временной аспект: возможное непостоянство данного отношения.

Для представления своей онтологии авторы DOLCE избрали более гибкий, чем в проекте Cyc, подход: онтология фиксируется на бумаге с использованием логики предикатов первого порядка. Затем описывается та часть аксиом, которая может быть представлена на языке OWL. Оставшиеся аксиомы, выраженные на языке KIF2, добавляются к OWL описаниям в виде комментариев. Таким образом, достигается выразительность уровня KIF3 и совместимость с OWL. Недостаток такого подхода в том, что приложения, не имеющие информации о действительной структуре OWL документа, не смогут получить доступ к «закомментированным» знаниям.

SUMO (Suggested Upper Merged Ontology) – онтология верхнего уровня, разработанная в рамках проекта рабочей группы IEEE SUO (IEEE Standard Upper Ontology Working Group) и Teknowledge. Проект претендует на статус стандарта для онтологий верхнего уровня (http://ontology.teknowledge.com/).

Онтология SUMO содержит наиболее общие и самые абстрактные концепты, имеет исчерпывающую иерархию фундаментальных понятий (около 1 тыс. понятий), а также набор аксиом (примерно 4 тыс.), определяющих эти понятия. Назначение SUMO – содействовать улучшению интероперабельности данных, извлечения и поиска информации, автоматического вывода (доказательства), обработки естественного языка. Онтология охватывает следующие области знания: общие виды процессов и объектов, абстракции (теория множеств, атрибуты, отношения), числа и единицы измерения, временные понятия, части и целое, агенты и намерения. SUMO является «канонической» онтологией верхнего уровня: содержит обозримое число концептов и аксиом, имеет ясную иерархию классов, легко расширяется, является итогом объединения различных общедоступных онтологий верхнего уровня (в том числе онтологии Джона Совы (J. Sowa’s ontology), о которой речь пойдет ниже). К преимуществам SUMO можно отнести возможность трансляции описания онтологии на любой из основных языков представления знаний, наличие онтологии среднего уровня (MILO), гладко интегрированной с SUMO, несколько дюжин примеров практического применения, а также связь с WordNet – наиболее крупным на настоящий момент тезаурусом, содержащим около 150 тыс. слов повседневного английского языка.

Рис 8. Иерархия классов SUMO.

 

Иерархия классов в SUMO (рис. 8.) менее запутана, чем в OpenCyc, и, возможно, более удобна для практического применения, чем DOLCE. Основными концептами, как во многих онтологиях верхнего уровня, являются «Сущность» и ее категории – «Физический» и «Абстрактный». Первая категория включают все, что имеет положение в пространстве-времени, а вторая – все остальное (а точнее только то, что существует в воображении). «Физический» делится на «Объект» и «Процесс», что соответствует подходу, реализованному в DOLCE. Непосредственно под концептом «Объект» находятся два непересекающихся понятия: «Связный Объект» и «Коллекция». Первое обозначает любой объект, все части которого непосредственно или косвенно связаны друг с другом. Концепт «Связный Объект» разделен на два концепта: «Непрерывный Объект» и Д«искретный Объект» (корпускулярный). «Непрерывный Объект» характеризуется тем, что все его части (вплоть до самого низкого уровня деления) имеют такие же свойства, как и целое. Такие субстанции как вода и глина могут быть подклассами концепта «Непрерывный Объект», также как и поверхности и географические области. Ниже на диалекте SUO-KIF языка KIF записаны формальные аксиомы, определяющие различие между концептами «Непрерывный Объект» и «Дискретный Объект».

А1. (=>

(and

(subclass-of ?OBJECTTYPE НепрерывныйОбъект)

(instance-of ?OBJECT ?OBJECTTYPE)

(part-of ?PART ?OBJECT))

(instance-of ?PART ?OBJECTTYPE))

А2. (equal ДискретныйОбъект (ComplementFn

НепрерывныйОбъект)

 

Аксиома А1 формализует утверждение «Если (PART) является частью объекта (OBJECT), являющегося в свою очередь экземпляром некоторого подкласса (OBJECTTYPE) класса Непрерывный Объект, то эта часть (PART) также как и OBJECT является экземпляром класса OBJECTTYPE». Аксиома А2 постулирует факт, что классы Дискретный Объект и Непрерывный Объект

являются взаимодополняющими.

«Коллекции» в SUMO отделены от «СвязныхОбъектов». «Коллекции» состоят из несвязанных частей и отношений («ЧЛЕН-КОЛЛЕКЦИЯ») между частями и соответствующей им коллекцией. Здесь, также как в OpenCyc, проводится разграничение понятий «Коллекция», «Класс» и «Множество». Предикат «быть членом коллекции» отличен от предикатов «быть

экземпляром класса» и «быть элементом множества», относящих объекты к «Классам» или Множествам», которым они принадлежат. В отличие от «Классов» и «Множеств», «Коллекции» занимают некоторое положение в пространстве-времени (они не абстрактны как в OpenCyc, а материальны), члены могут добавляться и удаляться из коллекции, не меняя ее идентичность. Примеры «Коллекций» ящики с инструментами, футбольные команды, отары овец. Возвращаясь к концептам уровня «Физический»-«Абстрактный», обсудим ветвь «Абстрактный». Категория «Абстрактный» разделяется на «Множество», «Утверждение», «Величина» и «Атрибут».

«Множество» - обычное понятие теории множеств, включает «Класс», который в свою очередь имеет подкласс «Отношение». «Класс» понимается как множество со свойством или пересечением свойств, которые определяют принадлежность к «Классу», «Отношение» есть «Класс» упорядоченных пар. «Отношение» по смыслу ближе к «Классу», чем к «Множеству». «Отношение» ограничено только теми упорядоченными парами, которые описывают его содержимое.

Концепт «Утверждение» соответствует понятию семантического или информационного содержимого. Однако SUMO не накладывает никаких ограничений на это содержимое. Это более общее понятие, чем используемое в большинстве онтологий, почти невозможно принципиально разделить абстрактное содержимое, выраженное одним предложением и абстрактное содержимое, выраженное многочисленными речевыми единицами. Примеры «Утверждений»: краткое изложение рассказа, музыкальное содержимое напечатанной партитуры.

Понятие «Атрибут» включает все количества, свойства и т.д., которые не представимы как «Объекты». Например, вместо того, чтобы делить класс «Животные» на «ЖивотныеЖенскогоПола» и «ЖивотныеМужскогоПола», создаются экземпляры Ж«енщина» и М«ужчина» класса «БиологическийАтрибут», который является подклассом «Атрибута».

Наконец, «Величина» разделяется на «Число» и «ФизическаяВеличина». Первое понимается как независящая от системы измерения величина, а второе как составная величина, состоящая из «Числа» и конкретной единицы

измерения.

Аксиомы ограничивают интерпретацию концептов и предоставляют базу для систем автоматизированного рассуждения, которые обрабатывают базы знаний соответствующие онтологии SUMO. Пример аксиомы: «Если C является экземпляром процесса горения, то существуют выделение тепла H и излучение света L такие, что оба они H и L являются подпроцессами C». Более сложные, но логичные предложения говорят, что процессы выделения тепла и излучения света сопутствуют каждому процессу горения. Аксиомы кодируются в SUMO на формальном логическом языке SUO-KIF.