Понятие о документальном информационном поиске

Теория информационного поиска первоначально сформировалась при исследовании документальных информационно-поисковых систем (ДИПС) научно-технической информации.

Под информационным поиском в таких системах понимается некоторая последовательность операций, выполняемых с целью отыскания документов (статей, научно-технических отчетов, описаний к авторским свидетельствам и патентам, книг и т.д.), содержащих определенную информацию (с последующей выдачей самих документов или их копий), или с целью выдачи фактических данных, представляющих собой ответы на заданные вопросы [14, с. 248].

Массив элементов информации, в котором производится информационный поиск, был условно назван поисковым массивом [14].

Процесс поиска документов может быть формализованно описан в терминах теории множеств следующим образом: D – некоторое множество документов, или библиотека (поисковый массив); Q – множество информационных запросов; R – отношение, свойство, при наличии которого любому q Î Q ставится в соответствие подмножество D' Î D называемое ответом на информационный запрос.

Очевидно, что прочитать каждый документ информационной базы, чтобы найти необходимый, практически невозможно. Поэтому на протяжении истории развития информационного поиска (ИП) разрабатывались и совершенствовались различные методы поиска.

Каждому документу, вводимому в поисковый массив, ставится в соответствие поисковый образ документа (ПОД), который представляет собой характеристику, отражающую основное смысловое ОГЛАВЛЕНИЕ документа. Этим ПОД отличается от кода, присваиваемого информационному элементу в базах данных.

В виде такой же краткой характеристики – поискового предписания или поискового образа запроса (ПОЗ) должен быть сформулирован и информационный запрос. Благодаря этому процедура поиска может быть сведена к простому сопоставлению поисковых образов документов с поисковым предписанием.

Такое сопоставление допустимо лишь в случае, если ПОД и ПОЗ описаны в терминах единого языка. Для реализации процедуры описания документов и запросов с помощью ПОД и ПОЗ разрабатывают информационно-поисковые языки (ИПЯ), которые имеют различные возможности.

Простейшим ПОД может являться заглавие документа, представленное в форме перечня входящих в него слов. При этом необходимо установить некоторые правила типа включения в ПОД существительных в единственном числе и именительном падеже, глаголов – в неопределенной форме или в виде отглагольных существительных и тому подобных правил, общих для формирования ПОД и ПОЗ.

Для уточнения содержания документа можно использовать аннотацию или реферат документа, также переписанные в виде перечня входящих в них слов с учетом некоторых правил, общих для формирования ПОД и ПОЗ.

В практических условиях реализации ИПС число слов, включаемых в ПОД и ПОЗ, не должно быть слишком большим, поэтому вводится понятие ключевые слова, которые являются наиболее значимыми для отображения содержания документа.

Некоторые идеологи информационного поиска (например, Ч. Мидоу [13]) отождествляли понятия ключевое слово и дескриптор. Однако в дальнейшем эти понятия стали использоваться в разном смысле.

Для отображения ПОД и ПОЗ разрабатываются информационно-поисковые языки (ИПЯ).

Для сопоставления ПОД и ПОЗ применяют различные критерии поиска или критерии смыслового соответствия (КСС).

Точность поиска определяется точностью отображения документов и запросов с помощью их поисковых образов и степенью совпадения ПОД и ПОЗ. Поэтому возможна неполнота выдачи документов, либо, напротив, "поисковый шум", которые представляют собой своеобразную плату за облегчение процедуры информационного поиска.

Для оценки качества поиска вводят специальные критерии. Обобщенные критерии качества поиска – релевантность и пертинентность [14, с. 282–287].

Под релевантностью понимается соответствие выдачи запросу, т.е. релевантность характеризует качество алгоритма поиска.

Под пертинентностью понимается соответствие выдачи потребностям лица (или лиц), для которого (которых) осуществляется поиск информации, т.е. пертинентностъ характеризует смысловыражающие возможности ИПЯ, точность отображения с его помощью информационных потребностей.

Предлагаются и используются различные конкретные критерии количественной оценки релевантности и пертинентности. Разработка комплекса критериев оценки качества информационного поиска – достаточно сложная проблема: состав и количественные характеристики критериев зависят от конкретного назначения и принципов реализации ИПС.

Информационный поиск осуществляется с помощью информационно-поисковой системы, понятие о которой развивалось. Кратко рассмотрим представления об ИПС и ее структуре.