Разработка и отладка ИПС

При разработке ИПС обычно выполняются следующие этапы:

1) анализ совокупности документов, представляющих соответствующую научно-техническую область, для которой создается ИПС; выбор ключевых слов (КС), характеризующих ОГЛАВЛЕНИЕ каждого документа; КС выбирают из заголовков (или из аннотаций) документов, включаемых в информационный массив (информационную базу) ИПС. Ключевые слова – существительные или отглагольные существительные, взятые в единственном числе и именительном падеже прилагательные, глаголы в неопределенной форме;

2) формирование из ключевых слов словаря (первой стадии разработки информационно-поискового языка); ИПЯ является основой для формирования ПОД, а в последующем ПОЗ;

3) выбор системы индексирования документов; обычно вначале выбирается индексирование по алфавиту, а в последующем могут быть выбраны системы индексирования по значимости или с использованием статистического словаря;

4) формирование ПОД каждого документа с использованием словаря; первоначально при выборе системы индексирования по алфавиту слова в ПОД располагаются по алфавиту, в дальнейшем, в процессе отладки системы может быть выбран иной способ индексирования.

Возможно свободное индексирование, без словаря (система Унитерм); тогда будет отсутствовать п. 2. При формировании информационного массива в структуру записи (сложного терма – при использовании языка логического программирования) включают номер документа, наименование документа, фактографические сведения (дата его издания, место издания, автор и т.п., в зависимости от характера информации), фасета из КС ПОЗ. ПОЗ может описываться отдельно, тогда в него помимо КС включается номер документа.

5) формируется ПОЗ или поисковое предписание; при применении ИПЯ этап выполняется с его использованием;

6) проводится отладка ИПС, в процессе которой оценивается релевантность выдачи и исследуется несколько способов повышения релевантности: изменение алгоритма поиска и (или) КСС, изменение способа индексирования (статистический, с учетом значимости КС для отображения смысла документа или запроса, с учетом весовых коэффициентов КС в ПОД и ПОЗ), развитие ИПЯ с внесением изменений в словарь путем введения классов условной эквивалентности, дескрипторов или иного способа изменения словаря, введение грамматики.

Изложенная методика разработки и отладки ИПС представлена в виде структурной схемы на рис. 6.10.

С применением рассмотренной методики студенты выполняют лабораторную работу с использованием языка логического программирования Турбо-Пролог [1].

Рис. 6.10. Методика разработки и отладки ИПС

Примеры документальных информационно-поисковых систем

Первые документальные информационно-поисковые системы (ДИПС) создавались с помощью оргтехники, счетно-перфорационных машин, с использованием техники микрофильмирования. В табл. 6.6 приведены некоторые примеры ДИПС на диамикрокартах [14].

В дальнейшем микрофильмовые ИПС развивались в направлении использования непрерывных носителей информации – микрофильмовые селекторы (Repid Selector, MIRACODE, CRIS, "Поиск-OK", "Поиск-ДВ" и др.).

ИПС, использующие средства микрофильмирования, применяются в настоящее время при регистрации отчетов и диссертаций (во ВНТИЦентре), в ряде крупных библиотек, в отраслевых ЦНТИ для реализации 2-го контура ИПС.

Таблица 6.6

Примеры ДИПС на диамикрокартах

Первые

ДИПС

Сроки создания и заказчики

Краткая характеристика

Filmorex

Первая модель ИПС Filmorex создана французским врачом Ж. Саманом в 1950 г. и в дальнейшем совершенствовалась

Носителем информации в этой ИПС является диамикрокарта размером 35 х 60 мм, которая содержит зону для ПОД и зону для изображения одного кадра с микроизображением документа. По мере совершенствования Filmorex менялись микрофильмирующие установки и соответственно размеры диамикрокарт и кратность уменьшения документов

Minicard

Создана в 1953-1957 гг. фирмой Eastman Kodak Со (США) по заказу ВВС США. Использовалась Пентагоном с 1957 г., затем нашла применение и в других ведомствах

Носитель информации – диамикрокарты, которые содержат вместе с ПОД аэрофотоснимки, чертежи и другим объемом до 12 страниц размером 22 х 36 см и ряд кадров больших размеров или с меньшей кратностью уменьшения, представляющие собой документы, хранящиеся в ИПС

MEDIA

Создана фирмой Magnovox Со (США) в 1960 г.

Электронная система для поиска микрокопий документов по известным адресам их хранения. Носитель информации – позитивные диамикрокарты размером 16 × 32 мм. Емкость диамикрокарты – 2 страницы документа формата 23 × 38 или 3 страницы формата 22 × 28. Диамикрокарты хранятся в пронумерованных обоймах. Возможен визуальный просмотр микрокарт при помощи читального аппарата и быстрое изготовление копии, увеличенной до нормального размера. Продолжительность поиска – менее одной минуты

Magnacard

Создана фирмой Magnovox Со по заказу ВВС США" в 1957 г.

Носитель информации – магнитная карта размером 25,4 х 76,2 мм. Запись и считывание информации производится со скоростью 90 тыс. знаков в секунду. Применяются также видео-магнитные карты. Центральным блоком системы является сортировальное устройство с четырьмя вакуумными барабанами. Система развивалась в направлении увеличения объемов хранимой информации. Дополнялась вспомогательными горизонтальными хранилищами. Работой сортировальной установки может управлять универсальная ЭЦВМ. Применялась ЭЦВМ CDC 160 фирмы Control Data Corp. с вводом информации с перфолент и перфокарт

Walnut (в переводе с английского – "грецкий орех")

Создана фирмой International Business Machines Corp. по заказу ЦРУ. Разработки велись с 1958 г. Первая публикация – 1961 г.

Первый контур ИПС реализован на ЭЦВМ IBM-1410 с несколькими внешними накопителями на магнитных дисках. В накопителях записываются ПОД, микрокопии документов хранятся в ЗУпасстипа IBM-9603, которые имеют модульную конструкцию. При вводе документы микрофильмируются на перфорированную пленку, и на них заводится перфокарта

С более детальным описанием рассмотренных ИПС можно познакомиться в [14, с. 551–620].