Понятие об информационно-поисковой системе и ее структуре
Структура и функционирование конкретной информационно-поисковой системы (ИПС) зависят от вида и состава информационных источников, от способов реализации информационного поиска. В то же время есть некоторые общие принципы построения и функционирования ИПС, которые кратко рассматриваются в данной главе.
Анализ определений ИПС. Под информационно-поисковой системой первоначально понималась некоторая совокупность или комплекс связанных друг с другом отдельных частей, предназначенных для выявления в каком-либо множестве элементов информации (документов, сведений и т.д.), которые отвечают на информационный запрос, предъявляемый к системе [14].
С учетом приведенного выше описания процесса информационного поиска ИП (IP) можно определить следующим образом:
(6.1)
где D – некоторое множество документов или библиотека (поисковый массив); Q – множество информационных запросов; R – множество отношений, свойств, при наличии которых любому запросу qi Î Q ставится в соответствие подмножество D'; D' – ответ на информационный запрос.
С учетом этого А. И. Чёрный предложил представить информационно-поисковую систему – ИПС (IPS) в виде совокупности четырех основных компонентов [24, с. 18]:
(6.2)
где LS – логико-семантический аппарат (включающий информационно-поисковые языки – один или более, правила индексирования и критерии выдачи); D – поисковый массив (т.е. определенное множество снабженных поисковыми образами документов, в котором отыскиваются необходимые); TS – технические средства (т.е. какие-то приспособления или устройства, которые необходимы для записи и хранения поисковых образов, для хранения документов и осуществления процесса сопоставления поисковых образов документов с поисковым предписанием или поисковым образом запроса); N – люди, взаимодействующие с системой (т.е. те, кто пользуется данной ИПС и обслуживает ее, в том числе осуществляют индексирование документов и информационных запросов, выбирают стратегию поиска, а также выполняют другие интеллектуальные операции, без которых невозможен информационный поиск).
Затем для обеспечения возможности автоматизации процедуры информационного поиска было предложено [14, 24] в ИПС выделить два уровня рассмотрения – абстрактный и конкретный.
Абстрактной ИПС была названа совокупность ИПЯ (retrieval language – RL), правил индексирования (IND) и критерия выдачи или критерия смыслового соответствия (KSS):
(6.3)
Конкретной ИПС названа практически реализованная система, включающая массив документов D, в котором производится информационный поиск, технические средства TS реализации ИПС, а также взаимодействующих с ней людей N.
Структура функционирования ИПС в таком понимании приведена на рис. 6.2.
В соответствии с рассмотренным выделением в ИПС абстрактного и конкретного уровней и с учетом особенностей хранения документальной информации (библиотеки, архивы и тому подобные хранилища) процедуру информационного поиска документальной информации было предложено разделить на два контура [17]:
1) семантическое осмысление запроса и выдача адресов (шифров, кодов), соответствующих запросу документов; на рис. 6.2 этот контур показан сплошными линиями;
2) отыскание самих документов (вручную или с помощью специализированных технических средств, если ими оборудовано хранилище); на рис. 6.2 – штриховые линии.
Второй контур связан с разработкой специализированных технических средств хранения больших массивов документов и работой по переоборудованию хранилищ, а собственно проблемы информационного поиска решаются в первом контуре.
Рис. 6.2. Структура функционирования ИПС
В соответствии с вышеизложенным первый контур ИПС представляет собой ее логико-семантический аппарат и состоит из трех основных блоков (рис. 6.3):
• информационно-поискового языка;
• системы перевода (индексирования) на этот язык;
• логики, обеспечивающей поиск, которые, в свою очередь, могут быть детализированы и реализованы разными способами.
Представление ИПС в виде двух контуров является в настоящее время наиболее распространенным.
В некоторых системах контуры могут быть совмещены.
Напротив, иногда возникает необходимость выделять не два, а большее число контуров, что помогает организовать последовательно углубленный анализ текстов документов.
Такие варианты реализуются, например, в документально-фактографических системах нормативно-правовых и нормативно-методических документов.
Рис. 6.3. Состав логико-семантического аппарата ИПС
В символической форме, принятой выше, абстрактная ИПС (1-й контур) представляет собой совокупность ИПЯ (RL), правил (системы) индексирования (IND) и логики (LOG), включающей наряду с критериями смыслового соответствия, базисные отношения:
(6.4)
Предлагались и другие определения ИПС
Для организации проектирования информационных систем Ю. Ф. Тельное [21] предлагает определение, содержащее семь составляющих:
(6.5)
где G – цели; Еli – внутренние элементы; Еп – внешние элементы; Т – период существования системы; F – функции (процессы, операции); R – отношения, включая динамические взаимодействия; Z – закономерности, определяющие структуру системы и ее взаимодействие с внешней средой.
Выбор определения ИПС зависит от конкретного объекта, для которого она разрабатывается, от ее назначения, условий разработки и функционирования.
В теории и практике различают ИПС разных видов.
Документальные ИПС (ДИПС) в ответ на вводимые в них информационные запросы выдают оригиналы, копии или адреса хранения документов, содержащих требуемую информацию.
Фактографические ИПС (ФИПС) предназначены для выдачи непосредственно требуемой информации. Например, температуры кипения какой-либо жидкости, статистических показателей, содержащихся в соответствующих отчетных документах и т.п.
При этом существуют фактографические системы двух видов:
1) системы, в которых сразу формируются массивы фактографической информации, параллельно с документальными;
2) системы, в которых массивы фактографической информации формируются на основе массивов документальной информации.
Информационные системы второго вида могут, в свою очередь, формироваться как документально-фактографические (ДФИПС и АДФИПС), содержащие массивы двух видов:
• документальные и сопряженные с ними массивы фактографической информации;
• информационно-логические.
В отличие от документальных, фактографических и документально-фактографических ИПС 1-го вида, которые могут по запросам выдавать только информацию, введенную в них ранее, информационно-логические системы представляют собой системы более высокого класса: они должны выдавать не только ранее введенную в них информацию, но и производить, если необходимо, логическую переработку этой информации с целью получения новой информации, которая в явном виде не вводилась в И С.
Информационно-логическую систему (ИЛС или ILS) можно определить как совокупность ИПЯ (RL), правил перевода с естественного языка на информационный, т.е. правил индексирования (IND) и правил логического вывода (LV), которые предназначены для алгоритмического получения новой информации (In) [14, 24]:
(6.6)
Развивая представления об информационных системах, способных получать новую информацию, Ю. И. Шемакин предлагает понятие информационно-семантической системы [25, с. 60]:
(6.7)
где а – цель; St – структура; tpiss Î ТР – подмножество технологических процессов для данной ISS, со – условия; ti – время.
Входящие в определение (6.7) составляющие могут быть детализированы с учетом конкретной реализации ИПС.
Особенно важно уточнять состав технологических процессов:
(6.8)
где met – методы; re – средства; SemSI – семантическая переработка семантической информации.