Дескрипторные модели данных

Простейшие модели естественных языков – дескрипторные модели. В этих моделях отражаются только понятия и имена, которые в терминах модели называются дескрипторами.

Модель действительно очень проста: фраза на естественном языке моделируется простым перечислением дескрипторов, которые иногда называются ключевыми словами. Дескрипторная модель часто применяется в информационно поисковых системах (ИПС).[7]

В таких системах содержание каждого текстового документа и пользовательских поисковых запросов описывается наборами слов или словосочетаний, называемых дескрипторами. В процессе поиска ИПС оперирует не самими текстовыми документами, а такими их «заместителями», которые в большинстве систем формируются вручную авторами документов, экспертами в предметной области документов и другими лицами. Сопоставление наборов дескрипторов, представляющих в системе документы, с набором дескрипторов, представляющим пользовательский запрос, позволяет находить требуемые пользователю документы. Дескрипторные ИПС обладают относительно несложными механизмами поиска, но качество поиска является сравнительно невысоким.[8]

Одной из наиболее распространенных областей применения дескрипторных систем был библиографический поиск. В таких системах хранятся коллекции библиографических описаний документов, и система позволяет находить публикации заданного автора, публикации, выпущенные указанным издательством и/или вышедшие в некотором году и т.п. Многие библиографические дескрипторные ИПС используются до настоящего времени.

Практически всем широко известны следующие примеры ИПС: rambler, yandex, yahoo, google, hotbot. Поиск в таких системах производится по дескрипторам.

Структурная схема дескрипторной ИПС приведена на рис.1

Рис.1. Структурная схема дескрипторной ИПС

Здесь, ПО – поисковые образцы документов, ПП – поисковое предписание; и то и другое есть некоторый набор дескрипторов. Тезаурус содержит набор всевозможных дескрипторов, т.е. представляет собой массивный словарь. Хранилище содержит сам набор документов или ссылок на документы (ссылки используются при поиске в сетях), среди которых осуществляется поиск. При внесении документа в хранилище, вводится набор дескрипторов (ключевых слов), описывающих его. Набор ключевых слов помещается в тезаурус, а документ или его описание – в хранилище, связанное с массивом поисковых образцов (в нем для каждого документа хранятся ссылки на дескрипторы). При обработке запроса вводятся ключевые слова, на основе которых с использованием тезауруса формируется поисковое предписание. Далее происходит сверка поискового предписания с поисковыми образами, устанавливается соответствие и выдается документ или его описание, позволяющее найти документ.[9]

Дескрипторные модели имеют два основных недостатка:

Возможность ложной координации дескрипторов из-за неоднозначности понятий естественного языка. Например, дескриптор «ПРОЛОГ» может означать пролог к книге или одноименный язык программирования, дескриптор «ключ» – ключ от двери, родник, уникальный атрибут в реляционной таблице и т.д.[10]

Неоднозначность из-за отсутствия определения ролей. Например, имеем фразу: «мать любит дочь». Возможно два толкования (грамматического разбора):

1 – Матьлюбитдочь;

2 – Матьлюбитдочь.[11]

Иногда вводят в архитектуры систем возможности определения ролей, но в этом случае модель поиска уже не может называться дескрипторной, а механизмы поиска значительно усложняются.

Тезаурусные модели данных

Тезаурусные модели основаны на принципе организации словарей, содержат определенные языковые конструкции и принципы их взаимодействия в заданной грамматике. Принцип хранения информации в этих системах и подчиняется тезаурусным моделям.

Примером тезаурусной модели данных является информационно-поисковый тезаурус.

Информационно-поисковый тезаурус (ИПТ) — это контролируемый словарь терминов на естественном языке, явно указывающий отношения между терминами и предназначенный для информационного поиска.[12]

Основными целями разработки традиционных ИПТ являются следующие:

Обеспечение перевода естественного языка документов и пользователей на контролируемый словарь, применяемый для индексирования и поиска;

Обеспечение последовательного использования единиц индексирования;

Описание отношений между терминами;

Использование как поискового средства при поиске документов.

Основной единицей тезаурусов являются термины, которые разделяются на дескрипторы (авторизованные термины) и недескрипторы (аскрипторы). Большинство версий стандартов по ИПТ указывают на связь терминов с понятиями предметной области. По американскому стандарту термин — это слово либо словосочетание, обозначающее понятие. Стандарт ISO подчеркивает, что индексирующий термин — это представление понятия предпочтительно в форме существительного или именной группы. При этом понятие рассматривается как единица мысли, которая формируется мысленно для отражения всех или некоторых свойств конкретного или абстрактного, реально существующего или мысленного объекта.

Стоит отметить, что не все разработчики тезаурусов четко разделяли понятия и термины. Так, разработчики тезауруса AGROVOC определили его как термино - ориентированный, что находит свое проявление в том, что к термину невозможно добавить синонимы. Эта особенность тезауруса рассматривается авторами как недостаток, который необходимо исправить. Таким образом, разработчики тезаурусов предполагают, что понятие предметной области обычно имеет несколько возможных вариантов лексического представления в тексте, которые рассматриваются как синонимы. Среди таких синонимов выбирается дескриптор — термин, который рассматривается как основной способ ссылки на понятие в рамках тезауруса. Другие термины из синонимического ряда, включенные в тезаурус, называются аскрипторами или недескрипторами. Они используются как вспомогательные элементы, текстовые входы, помогающие найти подходящие дескрипторы. Дескрипторы тезауруса должны соответствовать выбранной предметной области тезауруса. Каждый дескриптор, внесенный в тезаурус, должен представлять отдельное понятие данной области. Дескриптор может быть однословным или многословным. [13]

Поскольку часто бывает достаточно трудно понять, представляет ли отдельное понятие многословное словосочетание, многие тезаурусы и руководства уделяют особое внимание основным принципам включения в тезаурус в качестве дескрипторов многословных терминов.

Автоматические информационно-поисковые тезаурусы являются составным элементом систем автоматического индексирования документов и запросов. В словарной статье автоматического тезауруса, как правило, зафиксированы отношения условной эквивалентности (синонимии), отношение подчинения и ассоциативные отношения.

В настоящее время происходит расширение сфер применения автоматических тезаурусов. При этом тезаурусы выступают составной частью современных систем подготовки текстов, осуществляя лингвистическую поддержку процесса подготовки и обработки текстов на естественном языке.

Среди наиболее перспективных направлений развития автоматических тезаурусов можно указать следующие:

Получение справки по используемому слову. Указав слово, в качестве ключа для запроса, пользователь в ответ получает соответствующий фрагмент словаря, содержащий лингвистическую информацию о данном слове. Например, автоматический тезаурус получает от пользователя некоторое существительное и в ответ выдает совокупность устойчиво сочетающихся с ним глаголов или все наиболее часто сопровождающие его определения. При этом автоматически выполняется процедура нормализации входного слова (т.е. приведение существительного к именительному падежу).[14]

Контекстные замены по требованию пользователей. В данном случае тезаурус не только подбирает вместо одного словосочетания другое, которое пользователь счел более соответствующим контексту по смысловым или стилистическим соображениям, но и автоматически переоформляет параметры слов (например, род прилагательного) в соответствии с контекстом. Это означает, что синтаксические операции, производимые тезаурусом, существенно усложняются.[15]

Автоматическая оценка стиля. Если слова и словосочетания в тезаурусе снабдить стилистическими пометками, то он может использоваться для стилистической оценки текста с выделением слов и словосочетаний, выпадающих из общего стиля документа.[16]

Заключение

С ростом популярности СУБД появилось множество различных моделей данных. У каждой из них имелись свои достоинства и недостатки, которые сыграли ключевую роль в развитии реляционной модели данных, появившейся во многом благодаря стремлению упростить и упорядочить первые модели данных.

Основная функция СУБД, построенной на основании той или иной модели – организация обмена информацией между пользователями и базами данных с соответствующими процедурами контроля полномочий и процедур проверки. Среди пользователей СУБД должно быть определено лицо, которого обычно должно обеспечивать выполнение следующих функций:

Определение информационного содержания базы данных (идентификация объектов и связей, представляющих интерес для данного предприятия, создание на этой основе концептуальной схемы (с помощью специального языка);

Определение структуры хранения и стратегии доступа;

Взаимодействие с пользователем (подготовка и написание внешних схем);

Определение стратегии дублирования и восстановления;

Управление эффективностью ответа на запросы пользователей;

Создание словаря данных.

Современные БД основываются на использовании моделей данных, позволяющих описывать объекты предметных областей и взаимосвязи между ними. Модели данных используются, как для концептуального, так и для логического и физического представления данных.

Основное различие между этими моделями данных состоит в способах описания взаимодействий между объектами и атрибутами.

Список литературы

1. Базы данных: модели, разработка, реализация // Национальный открытый университет

URL: http://www.intuit.ru/studies/courses/1001/297/lecture/7401?page=2

(дата обращения: 25.09.2016).

2. Информационно-поисковый тезаурус

URL: http://studopedia.ru/13_7761_informatsionno-poiskoviy-tezaurus.html (дата обращения: 25.09.2016).

3. Современные проблемы информатики и вычислительной техники URL: http://www.sbras.ru/win/elbib/data/show_page.dhtml?77+204 (дата обращения: 25.09.2016).

4. Л.В.Горчаков. Основы искусственного интеллекта

URL: http://koi.tspu.ru/koi_books/gorchakov5/Index.html (дата обращения: 25.09.2016).

5. Языки разметки SGML и XML

URL: http://nknaromanova.narod.ru/sgml.htm (дата обращения: 25.09.2016).

6. Язык XML - Описание технологии

URL: http://www.codenet.ru/webmast/xml/part2.php (дата обращения: 25.09.2016).

[1] Языки разметки SGML и XML // http://nknaromanova.narod.ru/sgml.htm (дата обращения: 25.09.2016).

[2] Там же.

[3] Языки разметки SGML и XML // http://nknaromanova.narod.ru/sgml.htm (дата обращения: 25.09.2016).

[4] Базы данных: модели, разработка, реализация // Национальный открытый университет URL: http://www.intuit.ru/studies/courses/1001/297/lecture/7401?page=2 (дата обращения: 25.09.2016).

[5] Языки разметки SGML и XML // http://nknaromanova.narod.ru/sgml.htm (дата обращения: 25.09.2016).

[6] Язык XML - Описание технологии // URL: http://www.codenet.ru/webmast/xml/part2.php (дата обращения: 25.09.2016).

[7] Л.В.Горчаков. Основы искусственного интеллекта // URL: http://koi.tspu.ru/koi_books/gorchakov5/Index.html (дата обращения: 25.09.2016).

[8] Там же.

[9] Л.В.Горчаков. Основы искусственного интеллекта // URL: http://koi.tspu.ru/koi_books/gorchakov5/Index.html (дата обращения: 25.09.2016).

[10] Там же.

[11] Там же.

[12] Современные проблемы информатики и вычислительной техники // URL: http://www.sbras.ru/win/elbib/data/show_page.dhtml?77+204 (дата обращения: 25.09.2016).

[13] Современные проблемы информатики и вычислительной техники // URL: http://www.sbras.ru/win/elbib/data/show_page.dhtml?77+204 (дата обращения: 25.09.2016).

[14] Информационно-поисковый тезаурус // URL: http://studopedia.ru/13_7761_informatsionno-poiskoviy-tezaurus.html (дата обращения: 25.09.2016).

[15] Там же.

[16] Там же.