Теория и практика информационно-поисковых систем

Резкое возрастание объемов научно-технической информации в конце пятидесятых — начале шестидесятых годов XX столетия привело к бурному развитию информационных технологий и созданию автоматизированных информационно-поисковых систем — ИПС или АИПС. Структура и организация информационно-поисковых систем определялись следующей проблемной ситуацией:

1)имеется множество документов (текстов, фрагментов текстов);

2)имеется коммуникативное задание, выраженное в запросе на информацию — информационная потребность;

3)требуется найти в множестве документов тексты, соответствующие запросу и удовлетворяющие коммуникативную интенцию пользователя.

Особенно актуальной задача разработки информационно-поисковых систем оказалась для различных министерств и ведомств, заваленных грудами официальной и технической документации.

 

Основные понятия информационного поиска

Понятия запроса и документа стоят в центре информационной деятельности. В процессе поиска информации происходит сравнение содержания запроса и документа. Степень соответствия документа запросу задается категорией релевантности. Каждый документ в ИПС получает определенный информационный код — кодируется с помощью информационно-поискового языка. Этот код называется поисковым образом документа (ПОД). Аналогичное выражение на информационно-поисковом языке — поисковое предписание (ПП) — сопоставляется запросу. Соответствие поискового образа документа поисковому предписания называется формальной релевантностью. Действительное соответствие содержания выданного документа содержанию запроса называется смысловой релевантностью. Очевидно, что классификация характеристик информационного поиска в значительной степени связана с возможными ошибками и сложностями, которые могут возникнуть в процессе информационной деятельности. Так, документ, релевантный запросу по смыслу, может оказаться не релевантным с формальной точки зрения и не будет выдан ИПС. С другой стороны, в процессе информационного поиска можно получить в выдаче значительный информационный шум — множество документов, формально релевантных, но не являющихся релевантными по смыслу. Возможен и другой случай, когда пользователь не может адекватно выразить свою информационную потребность: степень соответствия информационного запроса реальной информационной потребности называется пертинентностью. Для обеспечения пертинентности запросов разрабатываются специальные методики, включающие использование информационных словарей, которые позволяют пользователю более точно формулировать свою информационную потребность.

Результаты поиска могут характеризоваться с двух точек зрения: с точки зрения точности и с точки зрения полноты. Полнота поиска определяется соотношением между количеством выданных релевантных (по отношению к данному запросу) документов к общему числу релевантных документов, имеющихся в информационной системе. Точность поиска задается отношением между количеством выданных релевантных документов к общему количеству документов в выдаче:

В идеальном случае количественное выражение полного и точного поиска равно единице.