Документальные ИПС на ЭВМ

В 50–60-е гг. XX в. активно разрабатывались ДИПС различного назначения. Несмотря на то что первые ДИПС создавались с применением устаревших технических средств, теоретические идеи и принципы их построения могут оказаться полезными для разработки и сравнительного анализа современных ДИПС. Поэтому кратко охарактеризуем их (табл. 6.7).

Таблица 6.7

Примеры ДИПС на ЭВМ

Название

системы

Дата создания и назначение

Краткая характеристика

Система "Унитерм" (или система унитермов)

Предложена в 1951 г. Таубе [1] .

Ее предметной областью является химия и химические технологии

Информационно-поисковый язык системы (алфавит которого – 26 латинских букв) состоял из специализированных ключевых слов, означающих понятия предметной области, названных унитермами.

Унитерм (Uniterm) – ключевое слово (как правило, простое), которое могло быть дополнено ссылкой или пояснительной пометкой, устраняющей синонимию, полисемию, омонимию. В качестве унитермов использовались имена собственные, географические и фирменные названия, специальные термины (в варианте Таубе – химические).

В первом варианте системы не было словаря. В последующих вариантах появился анализ фиксированных в словаре словосочетаний, в которые не могли повторно входить уже использованные в словаре ключевые слова.

Морфологические правила информационно-поискового языка – соответствовали правилам словообразования английского языка. Синтаксические средства отсутствовали. Система индексирования относится к типу систем свободного индексирования. При переводе на ИПЯ использовалась пословная замена слов индексируемого документа ключевыми словами.

Тип критерия смыслового соответствия – КСС – "на вхождение".

Система "Унитерм" стала синонимом простейших ИПС без грамматики, использующей специализированные термины. Такие системы могут использоваться для предметных областей, в которых ПОД и 1103 могут быть составлены из специальных терминов этой предметной области (что имеет место, например, в химии, радиотехнике, в областях новых специальных технологий и т.п.)

"Пустонепусто" (версии ПНП-2, ППП-4)

Разработана в Информэлектро. Областью функционирования системы являлась электротехника

Режимы обслуживания – избирательное распространение информации (ПРИ) и ретроспективный поиск.

Алфавит первоначального варианта ИПЯ состоял из 10 арабских цифр, а морфологическими правилами построения дескрипторов являлись правила образования десятичных чисел из цифр. Основным элементом ИПЯ являлся русско-дескрипторный и англо-дескрипторный словари, в которые включались одиночные слова естественных языков и, как исключения – словосочетания. В системе было предусмотрено алгоритмическое распознавание омонимии [2]

Система предназначалась для поиска и обработки вторичных документов (рефератов, библиографических описаний, аннотаций), записанных на русском и английском языках

Система индексирования представляет собой систему пословного перевода с русского и английского языка на язык системы.

Использован КСС – "не вхождение с учетом базисных отношений", т.е. документ выдается в том случае, если для каждого запроса в его поисковом образе документа встретился либо непосредственно дескриптор запроса, либо дескриптор, связанный с дескриптором запроса базисным отношением.

Для реализации взаимосвязей в ДИПС ПНП-2 КСС формулируется в терминах "пустоты" и "непустоты" двух множеств (что и обусловило название этой ДИПС): М| – множество дескрипторов запроса, нс сравниваемых (не совпадающих и не связанных никакими базисными отношениями) ни с какими дескрипторами документа;

М2 – множество дескрипторов запроса, которые связаны обратными отношениями с другими дескрипторами документа.

Каждому из множеств поставлен в соответствие некоторый параметр т.

Для любой пары ПОД-ПОЗ можно составить комбинации двоичных чисел, каждая из которых будет характеризовать степень смыслового соответствия между элементом и запросом. Из этих комбинаций выбираются предположительно содержащие больше релевантных, чем нерелевантных документов, и формируются эшелоны таким образом, чтобы вероятность выдачи в первом эшелоне была больше, чем в последнем.

В ПНП-2 текст выдается в виде двух эшелонов: "Да" и "Может быть" или не выдается. В ДИПС ПНП-4 рассматривается 4 множества (i = 1, 2, 3,4) и их комбинация определяет 4 эшелона выдачи

Система "Кристалл"

Разработана для легкой промышленности [3]. Предназначена для хранения вторичных документов

Информационный массив системы разделен на 8 тематических подмассивов, которым присвоены номера, включаемые в код вводимых документов.

Режимы обслуживания – избирательное распределение информации (ИРИ), дифференцированное обслуживание руководителей (ДОР), ретроспективный поиск.

КСС относится к типу критериев, основанных на весовых коэффициентах. Выдача – эшелонированная, в виде трех эшелонов, определяемых суммарным весом терминов.

В ИПЯ предусмотрено 4 указателя роли.

Система "СИНТОЛ" (SYNTOL = SYNTagmatic Organization Language = = язык с семантической организацией)

Информационно-поисковый язык СИНТОЛ, создан в 1960-1962 гг. Ж. К. Гардоном и др. (Национальный центр научных исследований Франции и Вычислительный центр Дома наук о человеке в Париже [4])

По замыслу авторов система СИНТОЛ могла работать в различных режимах: как без грамматики, так и с грамматикой (простой или развитой).

ИПЯ СИНТОЛ представляет собой семейство информационных языков, обладающих различной семантической силой.

Языки, входящие в это семейство, были разработаны таким образом, что язык с большей семантической силой включал в себя целиком языки с меньшей семантической силой.

В системе предусматривалась возможность преобразования запроса в логическую форму с использованием функций "не", "и", "или".

Минимальной синтаксической единицей является синтагма – двуместный предикат х Riу. где х и у – лексические единицы СИНТОЛа, каждая из которых относится к одной из 4-х квазиграмматических категорий этого ИПЯ, a Ri – одно из 4-х главных синтагматических отношений.

Квазиграмматические категории слов: предикаты – понятия, которые употребляются со словами, обозначающими физические свойства и состояния, форму, размер, время и т.д.; сущности – существа, тела и объекты; состояния – пассивные свойства сущностей; действия – динамические свойства сущностей.

Синтагматические отношения: предикативные – несимметричное (т.е. ориентированное) отношение между двумя словами, каждое из которых принадлежит к категории предикатов; ассоциативное – несимметричное статическое отношение зависимости между двумя понятиями (субъекта к действию, действия к его объекту или обстоятельствам, отношение принадлежности е, включения с и т.п.); консекутивные – несимметричные отношения динамического типа, которые существуют между двумя понятиями в тех случаях, когда присутствие одного из них влияет на состояние или положение другого (отношения типа "причина – следствие", "субъект – объект" и т.п.); координативные – симметричные (т.е. неориентированные) отношения (эквивалентности, сравнения, дифференциации и т.п.).

Кроме этих 4-х главных синтагматических отношений, используется также 7 синтаксических операторов, которые присоединяются к одному из членов синтагмы с целью уточнения его логической роли. Из этих синтаксических операторов 4 предназначены для использования с терминами, которые связаны ассоциативными отношениями (инструментальный, места, цели и признака) и 3 – для использования с терминами, которые связаны координативными отношениями (сравнения, идентификации и дифференциации)

Система "СМАРТ" (SMART – Salton's Magical Automatic Retriever Texts – совершенная система поиска текстов

Автоматизированная документальная поисковая система SMART разработана в Гарварде в 60-е гг.

XX в. и была реализована в Гарвардском

Система СМАРТ включат в себя различные типы ИПЯ и использовалась как экспериментальный инструмент для оценки эффективности различных семантических средств, вводимых в нее. Система обладала набором средств для анализа содержания с различных точек зрения посредством использования методов сопоставления слов, применения хранимых в памяти словарей, обеспечивающих сокращение расхождений в словарном составе, применения статистических и синтаксических методов установления связей между словами и понятиями и методов построения и анализа словосочетаний. Эти средства позволяли осуществлять поиск таким образом, что поисковые запросы, на которые получены неудовлетворительные ответы, обрабатывались снова при несколько измененных условиях. Полученный результат анализировался и, в зависимости от необходимости, производились дальнейшие изменения до тех пор, пока не выдавалась требуемая информация.

Сэлтона (Salton иногда переводят – Солтон) [5]

и Корнельском университетах на вычислительных машинах IBM 7094 и IBM 360. Это была первая полностью автоматизированная система, которая обрабатывала тексты документов и запросов (на английском языке), и выдавала в качестве ответов на поисковые запросы документы, наиболее близкие к запросам

С точки зрения принципов анализа документов в системе SMART заложены следующие средства:

1. Система разделения английских слов на основы и аффиксы. Может быть использована для сокращения вводимых текстов до основ слов.

2. Словарь синонимов, или тезаурус, использован для замены значащих слов номерами понятий, каждое из которых представляет класс основ слов, близких по смыслу.

3. Иерархическая структура понятий, включенных в тезаурус, дает возможность для любого номера понятия найти их "родителя", "сыновей", "братьев" и множество возможных перекрестных ссылок.

4. Методы статистических ассоциаций, которые применены для расчета коэффициентов подобия между словами, основами слов или понятиями.

5. Методы синтаксического анализа позволяют распознать и использовать в качестве характеристик содержания документа словосочетания, состоящие из нескольких слов или понятий, связанных между собой определенными синтаксическими связями.

6. Методы статистического распознавания словосочетаний используются подобно предшествующим методам синтаксического анализа на основе предварительно созданного словаря словосочетаний.

7. Корреляционные способы сопоставления документов и запросов. Использован ряд различных корреляционных методов, включая учет весов понятий и длин текстов анализируемых документов. Предусмотрен КСС в форме аналитической функции, представляющей собой косинус угла между вектором ПОД и вектором ПОЗ

Введенные в память ЭВМ документы и поисковые запросы обрабатываются без какого-либо предварительного ручного анализа путем использования одного из сотен методов автоматического анализа содержания. В результате производится идентификация документов, которые в наибольшей степени соответствуют данному поисковому запросу.

Входные данные системы состояли из трех основных классов:

• словари, грамматики и иерархии. Определяют отношение между характеристиками входных текстов на английском языке и понятиями, которые в конечном счете использованы для отображения содержания документов и запросов;

• спецификации. Указывают, какие программы анализа содержания применимы и какие словари должны быть использованы в каждом конкретном случае. Спецификации необходимы также для установления массива документов, подлежащего обработке, для определения точного алгоритма сравнения документов с поисковыми запросами, для установления весовых коэффициентов понятий, полученных в результате применения различных методов анализа, для определения типа выходных данных и т.д.

• документы и поисковые запросы. Представляются в различных формах (либо только заглавие, либо рефераты и резюме, либо полный текст). Выходные данные, полученные в результате работы системы, выводятся в виде: печатных списков (включая, например, тексты документов в массиве), списков, не найденных при поиске в словарях слов, списков векторов документов, данных о корреляции и ответов, полученных системой на поисковые запросы

Поскольку система SMART получила наиболее широкую известность, приведем основные ее свойства.

• Считается, что операции по анализу информации, заложенные в системе, являются достаточно полными и совершенными для того, чтобы обеспечить нахождение большей части релевантных материалов в ответ на большинство поисковых запросов.

• Разнообразные нужды отдельных потребителей учитываются предоставлением им возможности выбрать ряд различных способов текстовой обработки и соответствующую последовательность методов проведения поиска до получения в конечном счете удовлетворительных результатов. Поиск может быть выполнен не только как единичный процесс, он может быть повторен при контроле со стороны потребителя в виде нескольких частичных поисков в необходимой предметной области.

• Система может использоваться как средство для оценки эффективности разнообразных методов автоматического анализа документов; при этом может быть произведено сравнение результатов поиска для одних и тех же поисковых запросов, в одном и том же фонде документов, но при разных способах поиска.

• Система может работать в реальном масштабе времени, т.е. таким образом, что разные потребители имеют одновременный доступ к массиву документов.

В нашей стране документальные информационно-поисковые системы разрабатывались для всех уровней ГСНТИ. На уровне государства создавалась интегрированная информационная система "Ассистент" (см. параграф 6.12).