XML - синтаксическая основа Semantic Web.

Интернет - это крупнейший из когда-либо существовавших информационных хранилищ данных, причем его содержание все время растет и представлено на самых разнообразных языках и практически во всех областях знаний. Но в конечном счете становится все труднее находить смысл во всем этом содержимом. Поисковые системы способны находить информацию, содержащую определенные слова, но эта информация не всегда оказывается именно той, что требуется. Какой-то элемент всегда оказывается упущенным. Поиск основан на содержании страниц, а не на семантическом значении этого содержания или информации о странице.

Общее определение понятия семантика (от греческого понятия semantikos, т.е. "важное значение", а в основе последнего лежит слово sema, т.е. знак) - это изучение значений. Семантическая паутина (англ. Semantic Web) — часть глобальной концепции развития сети Интернет, целью которой является реализация возможности машинной обработки информации, доступной во Всемирной паутине. Основной акцент концепции делается на работе с метаданными, однозначно характеризующими свойства и содержание ресурсов Всемирной паутины, вместо используемого в настоящее время текстового анализа документов. Семантические технологии веб помогают выделять полезную информацию из данных, содержания документов или кодов приложений, опираясь на открытые стандарты. Если компьютер понимает семантику документа, то это не означает, что он просто интерпретирует набор символов, содержащихся в документе. Это значит, что компьютер понимает смысл документа.

Две основные причины порождают две основные проблемы Internet. Первая причина - рост объемов информационного наполнения, порожденный популярностью и дешевизной веб-технологий, а вторая - формат представления информации в Сети, который ориентирован преимущественно на людей и лишь в некоторых случаях допускает автоматическую обработку программными агентами.

В результате, во-первых, возникает проблема нахождения необходимой пользователю информации в любом виде - объемы веб-пространства не позволяют оперативно обновлять базы данных информационно-поисковых систем (не говоря уже о невозможности достижения 100-процентного охвата), а во-вторых в автоматизированном режиме практически невозможно выделить смысл информационных сообщений, например, по названию какой-либо конкретной статьи можно найти сотни ссылок на эту статью, в массиве которых сама статья теряется.

Поэтому дальнейшее развитие Internet многие ученые связывают с концепцией Семантического веба (Semantic Web), которая во многом благодаря унификации обмена данными предположительно даст возможность интегрировать в Internet даже объекты реального мира. Концепцию Семантического веба выдвинул Тим Бернерс-Ли, один из основоположников Worl-Wide Web и председатель WWW-консорциума (W3C) на международной конференции XML-2000, прошедшей в 2000 году в Вашингтоне.

Семантическая паутина — это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в ней информацию более понятной для компьютеров. Машинная обработка возможна в семантической паутине благодаря двум её важнейшим характеристикам:

Повсеместное использование унифицированных идентификаторов ресурсов (URI - Universal Resource Identifier - унифицированный идентификатор, определяющий способ записи адреса произвольного ресурса). Традиционная схема использования таких идентификаторов в современном Интернете сводится к установке ссылок, ведущих на объект, им адресуемый. Очевидным свойством такой ссылки является возможность «загрузки» объекта, на который она указывает. Таким объектом может быть веб-страница, файл произвольного содержания, фрагмент веб-страницы, а также неявное указание на обращение к реально существующему физическому ресурсу по протоколу, отличному от HTTP (например, ссылки mailto:). Концепция семантической паутины расширяет это понятие, включая в него ресурсы, недоступные для скачивания. Адресуемыми с помощью URI ресурсами могут быть, например, отдельные люди, города и другие географические сущности, художественные артефакты и т. д. К идентификатору предъявляются несколько простых требований: он должен быть строкой определённого формата, уникальной, а также адресующей реально существующий объект.

Повсеместное использование онтологий и языков описания метаданных. Современные методы автоматической обработки данных, как правило, основаны на частотном и лексическом анализах текстового содержимого (хотя есть и исключения: например, Swoogle или Intellidimension Semantic Web Search Engine), которое прежде всего предназначено для восприятия человеком. В семантической паутине предлагается использовать форматы описания, доступные для машинной обработки (например, семейство форматов, часто упоминаемое в литературе как «Semantic Web family»: RDF, RDF Schema или RDF-S, и OWL), в свою очередь, использующие URI для адресации описываемых и описывающих объектов, а также онтологии и дескрипционные логики (семейство языков представления знаний, позволяющих описывать понятия предметной области в недвусмысленном, формализованном виде) в качестве базовых математических формализмов.

Итак, Семантический веб можно представить как симбиоз двух направлений, первое из которых охватывает языки представления данных. На сегодняшний день основными такими языками являются Расширяемый Язык Разметки XML и Средства Описания Ресурсов RDF (Resource Description Framework). Существует также ряд других форматов, однако XML и RDF предоставляют больше возможностей, потому они обладают статусом рекомендаций W3C.

Второе, концептуальное направление несет в себе теоретическое представление о моделях предметных областей. Такие модели предметных обласей в терминологии Семантического веба называются онтологиями. 10 февраля 2004 года консорциумом W3C была утверждена и опубликована спецификация языка сетевых онтологий OWL (Web Ontology Language).

Таким образом, две ветви Семантического веба используют три ключевых языка (соответственно, технологий):

спецификация XML, позволяющая определить синтаксис и структуру документов;

механизм описания ресурсов RDF, обеспечивающий модель кодирования для значений, определенных в онтологии.

язык онтологий OWL, позволяющий определять понятия и отношения между ними. Семантический веб использует также и другие языки, технологии и концепции, в частности, универсальные идентификаторы ресурсов, цифровые подписи, системы логического вывода и т. д.

Список основных действующих рекомендаций W3C, связанных с Семантическим вебом:

XML обеспечивает синтаксис для структурированных документов, но не налагает никаких семантических ограничений на содержание этих документов

XML Schema определяет структуру документов XML, а также дополняет XML конкретными типами данных.

RDF позволяет описать модель данных для ресурсов и отношения между ними, обеспечивает простую семантику для этих моделей данных, представляя их в синтаксисе XML.

RDF Schema предоставляет средства для описания свойств и классов RDF-ресурсов, а также семантику для иерархий-обобщений таких свойств и классов.

OWL расширенные возможности описания свойств и классов.

Рис. 1 - Рекомендации W3C касательно Semantic Web

Если говорить о логических уровнях, на которых базируется технология Семантического веба, то самый нижний уровень - это URI. Семантический веб, именуя всякое понятие просто с помощью URI- идентификатора, дает возможность каждому выражать те понятия, которыми он пользуется. Типичными примерами URI-идентификаторов являются URL-адреса, однако URI-идентификатор задавая или ссылаясь на некоторый ресурс, не обязательно при этом указывает на его местонахождение в Internet.

Следующий уровень - язык XML как базовая форма разметки и средства, предназначенные для определения и описания классов XML-документов (DTD, XML-схемы). Отдельный уровень в концепции Семантического веба ориентирован на работу с цифровой подписью, которая необходима, чтобы клиенты могли определять степень достоверности данных.

На базе XML кроме того развертываются средства описания ресурсов RDF и RDF- схемы, объясняющие, как состыковывать XML-данные в сети и строить каталоги и словари понятий. RDF позволяет выполнять поиск необходимых понятий в Семантическом вебе.

И наконец, язык сетевых онтологий OWL предназначен для описания классов и отношений между ними, которые присущи как для сетевых документов, так и приложений. OWL обеспечивает более полную автоматическую обработку сетевого контента, чем та, которую поддерживают XML и RDF, предоставляя наряду с формальной семантикой дополнительную семантическую поддержку. При этом сами онтологии образуют систему, состоящую из наборов понятий и утверждений об этих понятиях, на основе которых можно строить классы, объекты и отношения. Отдельная онтология определяет семантику конкретной предметной области и способствует установлению связей между значениями ее элементов.

Первым специализированным инструментом Семантического веба, оказался язык XML.

Как язык XML представляет собой достаточно универсальную синтаксическую основу, обеспечивающую как представление данных, так и задание отношений между ними. Кроме того, XML представляет собой открытую семантически ориентированную технологию, предоставляющую широкие возможности работы с метаданными.

Исходная версия XML, разработанная в консорциуме W3C под руководством Джона Босака, была опубликована в феврале 1998 г. и с тех пор развилась до уровня метаязыка, на базе которого определяются сотни новых предметно-ориентированных языков (к примеру, MathML, XLink, SMIL, XSL и др.)

В отличие от HTML, создававшегося для гипертекстовых документов с фиксированной структурой и составом тегов, XML предназначен для разметки документов произвольной структуры. XML-документы могут содержать сбалансированные деревья вложенных открывающих и закрывающих тегов, каждый из которых может включать в себя несколько пар "атрибут - значение". Однако XML как язык сам по себе ничего не говорит о семантике понятий, составляющих его синтаксические структуры.

Язык XML позволяет создавать свои собственные тэги - скрытые метки, которыми можно снабжать Web-страницы или разделы текста на страницах для описания их информационного наполнения. Например, тег <идентификатор> содержание </идентификатор>, который пользователь затем должен наполнить актуальной информацией, например: <DateOfBirth> 30-09-1987 </DateOfBirth>. Такой подход применим практически для всех областей, например, библиотекари могли бы определить собственные теги для обмена данными о книгах, в частности, <ISBN>, <Author> (<Автор>), <Price> (<Цена>) и т.д., а затем сохранить эти определения в некоторых схемах. После чего XML-ориентированные библиографические программы смогут автоматически обрабатывать такие документы. При этом XML, на самом деле, "не понимает" и не "разъясняет" содержания документов. Компьютерные программы могут использовать XML-теги, но при этом в программах должно быть на алгоритмическом уровне заложено "понимание" их назначения.

Поскольку в XML не существует фиксированного словаря тегов, то они могут определяться независимо для каждой программы. В XML это было изначально предусмотрено с помощью определения типа документа DTD, накладывающего ограничения на используемые теги и задающего грамматику, которая указывает допустимые комбинации и вложения имен тегов, имен атрибутов и т.д. Сегодня практически в каждой отрасли знаний имеется свой, постоянно расширяющийся список DTD. В XML применяется два вида указания на DTD:

декларации внутренних подмножеств DTD-определений, помещаемых посредственно в XML-документ. При этом команду определения DTD заключается в квадратные скобки, например: <!DOCTYPE rootElement [declarations]>;

ссылки на внешние DTD-определения, например, <!DOCTYPE wml PUBLIC "- //WAPFORUM//DTD WML 1.1//EN" "http://www.wapforum.org/DTD/wml_1.1.xml">

Указание PUBLIC во втором случае свидетельствует о том, что DTD является общедоступным описанием, в частности стандартом языка WML.

Язык DTD позволяет определить логическую структуру документа, т.е.:

указывать порядок следования элементов;

определять вложенность элементов;

устанавливать количество возможных элементов;

устанавливать типы атрибутов;

определять сущности и нотации.

Вместе с тем, языку DTD присущи два серьезных недостатка - ограниченность описания типов данных и синтаксис, отличный от XML. Поэтому в настоящее время консорциум W3C настоятельно рекомендует заменять использование DTD новым стандартом - XML-схем (XML Schema), который был утвержден в 2001 году.

Ведущие производители программного обеспечения во всем мире приняли концепцию XML-схем и внедрили ее в своих продуктах. Так корпорация Microsoft предоставила в доступ на условиях бесплатного лицензирования схем в Microsoft Office 2003 XML разработчикам.

По мнению представителей корпорации, доступность схем значительно облегчит реализацию поддержки возможности обмена данными между разрабатываемыми программами и приложениями офисного пакета.

Еще одно безусловное преимущество XML заключается в использовании им современного стандарта кодировки символов Unicode, который позволяет комбинировать тексты, написанные на всех основных языках мира (в том числе, поддержка кириллицы), в одном документе.

Сегодня во всем мире XML вступил в фазу широкомасштабного внедрения. С помощью этой технологии осуществляется управление информацией, классификационным схемам, индексирование.