Компьютерные технологии организации хранения и поиска документальной информации

Цель документального поиска – нахождение и выдача соответствующих запросу пользователя документов или их описаний. Документы, отвечающие запросу пользователя, называются релевантными.

Понятие документ в рамках информационных технологий трактуется несколько шире, нежели в традиционном документоведении. Документ – это текст или изображение, имеющее информационное значение.

Примерами документальной информации, для которой эффективно автоматизированное хранение и поиск, могут служить: законы, постановления, тексты контрактов, приказы, распоряжения, научные статьи, доклады, рефераты и т.д.

При автоматизации поиска документальной информации важнейшими являются задачи формализации содержания документа и вопроса. При решении этих задач могут использоваться различные подходы.

Первый подход состоит в том, что содержание документа, а так же его характеристики (дата издания документа, автор и т.п.) отображаются в некую структурированную информацию. В этом случае поиск документа сводится к поиску структурированной информации.

Второй подход состоит в том, что поиск происходит по всему тексту документа. При этом в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации.

Эффективность документального поиска оценивают на основе показателей полноты и точности. Полнота поиска определяется как отношение числа выданных в ответ на запрос релевантных документов к числу всех имеющихся в поисковом массиве релевантных документов. Точность поиска определяется как отношение числа релевантных документов в выдаче к общему числу выданных документов.

Автоматизированный документальный поиск может быть организован на основе различных технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам.

11. Документальные информационно-поисковые системы.

Информационно-поисковая система, совокупность информационно-поискового языка, правил перевода с естественного языка на информационно-поисковый и обратного перевода, а также критерия соответствия, предназначенная для осуществления информационного поиска. От ИПС необходимо отличать информационно-поисковое устройство, которое представляет собой специальную машину или определённым образом организованную совокупность технических средств и предназначено для практического осуществления информационного поиска. В число составных частей конкретной И.-п. с., кроме информационно-поискового языка, правил перевода и критерия соответствия, входят также средства ее технической реализации, массив текстов (документов), в котором осуществляется информационный поиск, и люди, непосредственно участвующие в этом поиске. Различают 2 основных вида ИПС — документальные и фактографические. Примеры конкретных документальных ИПС — указатель в книге, библиотечный каталог или книгохранилище в библиотеке и т.д., а фактографических — телефонный справочник, адресная книга, каталог изделий и т. п. Фактографическая ИПС в отличие от информационно-логической системы, не обеспечивает получения новой информации из имеющейся в ней, а только помогает быстро отыскивать такие факты или сведения, которые были в неё введены. Разновидностью документальных ИПС являются библиографические ИПС предназначенные для поиска лишь библиографических описании текстов (документов), содержащих необходимую информацию, а не самих текстов.

В документальных информационно-поисковых системах – ДИПС (их также называют библиографическими) поиск документа происходит по краткому формализованному описанию его содержания – так называемому поисковому образу документа (ПОД).

Одновременно с появлением первых библиотек и архивов возникли и проблемы разработки методов поиска и хранения документальной информации. Основная идея этих методов состояла в том, что центральная тема произведения выражалась в виде краткого текста. В простейшем случае функцию такого краткого текста выполняло заглавие произведения, в качестве которого в самом начале использовалась первая фраза текста. Это освобождало пользователя от необходимости просматривать весь текст документа, что значительно повышало скорость поиска.

Хотя основы методологии ДИПС разработаны достаточно давно, в 50, 60-х гг. эта технология и в настоящее время успешно применяется при организации как ручного, так и автоматизированного поиска документов.