Понятие об информационно-поисковой системе и ее структуре

Структура и функционирование конкретной информационно-поисковой системы (ИПС) зависят от вида и состава информационных источников, от способов реализации информационного поиска. В то же время есть некоторые общие принципы построения и функционирования ИПС, которые кратко рассматриваются в данной главе.

Анализ определений ИПС. Под информационно-поисковой системой первоначально понималась некоторая совокупность или комплекс связанных друг с другом отдельных частей, предназначенных для выявления в каком-либо множестве элементов информации (документов, сведений и т.д.), которые отвечают на информационный запрос, предъявляемый к системе [14].

С учетом приведенного выше описания процесса информационного поиска ИП (IP) можно определить следующим образом:

(6.1)

где D – некоторое множество документов или библиотека (поисковый массив); Q – множество информационных запросов; R – множество отношений, свойств, при наличии которых любому запросу qi Î Q ставится в соответствие подмножество D'; D' – ответ на информационный запрос.

С учетом этого А. И. Чёрный предложил представить информационно-поисковую систему – ИПС (IPS) в виде совокупности четырех основных компонентов [24, с. 18]:

(6.2)

где LS – логико-семантический аппарат (включающий информационно-поисковые языки – один или более, правила индексирования и критерии выдачи); Dпоисковый массив (т.е. определенное множество снабженных поисковыми образами документов, в котором отыскиваются необходимые); TS – технические средства (т.е. какие-то приспособления или устройства, которые необходимы для записи и хранения поисковых образов, для хранения документов и осуществления процесса сопоставления поисковых образов документов с поисковым предписанием или поисковым образом запроса); N – люди, взаимодействующие с системой (т.е. те, кто пользуется данной ИПС и обслуживает ее, в том числе осуществляют индексирование документов и информационных запросов, выбирают стратегию поиска, а также выполняют другие интеллектуальные операции, без которых невозможен информационный поиск).

Затем для обеспечения возможности автоматизации процедуры информационного поиска было предложено [14, 24] в ИПС выделить два уровня рассмотрения – абстрактный и конкретный.

Абстрактной ИПС была названа совокупность ИПЯ (retrieval language – RL), правил индексирования (IND) и критерия выдачи или критерия смыслового соответствия (KSS):

(6.3)

Конкретной ИПС названа практически реализованная система, включающая массив документов D, в котором производится информационный поиск, технические средства TS реализации ИПС, а также взаимодействующих с ней людей N.

Структура функционирования ИПС в таком понимании приведена на рис. 6.2.

В соответствии с рассмотренным выделением в ИПС абстрактного и конкретного уровней и с учетом особенностей хранения документальной информации (библиотеки, архивы и тому подобные хранилища) процедуру информационного поиска документальной информации было предложено разделить на два контура [17]:

1) семантическое осмысление запроса и выдача адресов (шифров, кодов), соответствующих запросу документов; на рис. 6.2 этот контур показан сплошными линиями;

2) отыскание самих документов (вручную или с помощью специализированных технических средств, если ими оборудовано хранилище); на рис. 6.2 – штриховые линии.

Второй контур связан с разработкой специализированных технических средств хранения больших массивов документов и работой по переоборудованию хранилищ, а собственно проблемы информационного поиска решаются в первом контуре.

Рис. 6.2. Структура функционирования ИПС

В соответствии с вышеизложенным первый контур ИПС представляет собой ее логико-семантический аппарат и состоит из трех основных блоков (рис. 6.3):

информационно-поискового языка;

системы перевода (индексирования) на этот язык;

логики, обеспечивающей поиск, которые, в свою очередь, могут быть детализированы и реализованы разными способами.

Представление ИПС в виде двух контуров является в настоящее время наиболее распространенным.

В некоторых системах контуры могут быть совмещены.

Напротив, иногда возникает необходимость выделять не два, а большее число контуров, что помогает организовать последовательно углубленный анализ текстов документов.

Такие варианты реализуются, например, в документально-фактографических системах нормативно-правовых и нормативно-методических документов.

Рис. 6.3. Состав логико-семантического аппарата ИПС

В символической форме, принятой выше, абстрактная ИПС (1-й контур) представляет собой совокупность ИПЯ (RL), правил (системы) индексирования (IND) и логики (LOG), включающей наряду с критериями смыслового соответствия, базисные отношения:

(6.4)

Предлагались и другие определения ИПС

Для организации проектирования информационных систем Ю. Ф. Тельное [21] предлагает определение, содержащее семь составляющих:

(6.5)

где G – цели; Еli – внутренние элементы; Еп внешние элементы; Т – период существования системы; F – функции (процессы, операции); R – отношения, включая динамические взаимодействия; Z – закономерности, определяющие структуру системы и ее взаимодействие с внешней средой.

Выбор определения ИПС зависит от конкретного объекта, для которого она разрабатывается, от ее назначения, условий разработки и функционирования.

В теории и практике различают ИПС разных видов.

Документальные ИПС (ДИПС) в ответ на вводимые в них информационные запросы выдают оригиналы, копии или адреса хранения документов, содержащих требуемую информацию.

Фактографические ИПС (ФИПС) предназначены для выдачи непосредственно требуемой информации. Например, температуры кипения какой-либо жидкости, статистических показателей, содержащихся в соответствующих отчетных документах и т.п.

При этом существуют фактографические системы двух видов:

1) системы, в которых сразу формируются массивы фактографической информации, параллельно с документальными;

2) системы, в которых массивы фактографической информации формируются на основе массивов документальной информации.

Информационные системы второго вида могут, в свою очередь, формироваться как документально-фактографические (ДФИПС и АДФИПС), содержащие массивы двух видов:

документальные и сопряженные с ними массивы фактографической информации;

информационно-логические.

В отличие от документальных, фактографических и документально-фактографических ИПС 1-го вида, которые могут по запросам выдавать только информацию, введенную в них ранее, информационно-логические системы представляют собой системы более высокого класса: они должны выдавать не только ранее введенную в них информацию, но и производить, если необходимо, логическую переработку этой информации с целью получения новой информации, которая в явном виде не вводилась в И С.

Информационно-логическую систему (ИЛС или ILS) можно определить как совокупность ИПЯ (RL), правил перевода с естественного языка на информационный, т.е. правил индексирования (IND) и правил логического вывода (LV), которые предназначены для алгоритмического получения новой информации (In) [14, 24]:

(6.6)

Развивая представления об информационных системах, способных получать новую информацию, Ю. И. Шемакин предлагает понятие информационно-семантической системы [25, с. 60]:

(6.7)

где а – цель; St – структура; tpiss Î ТР – подмножество технологических процессов для данной ISS, со – условия; ti – время.

Входящие в определение (6.7) составляющие могут быть детализированы с учетом конкретной реализации ИПС.

Особенно важно уточнять состав технологических процессов:

(6.8)

где met – методы; re – средства; SemSI – семантическая переработка семантической информации.