Классификация и характеристика методов поиска

Одной из проблем организации СУД является выбор метода поискаи разработка или выбор программного обеспечения, что в значительной степени зависит от применяемых методов индексирования. Как было сказано выше, индексирование загружаемой на хранение информации может осуществляться по ключевым словам, по атрибутам документа либо путем создания полнотекстового индекса. Суть последнего подхода заключается в том, что при создании индексного файла (индексированной матрицы) в него вносятся все значимые слова (без союзов, предлогов и т. п.) из всех документов в алфавитном порядке, которые затем объединяются в пары с указателями на документы, содержащие эти слова.

Традиционные подходы к организации поиска информации можно разделить на три группы: методы индексного (или двоичного) поиска, статистические методы и семантические методы, основанные на базах знаний. Рассмотрим некоторые из них.

Индексный, или двоичный, поиск применятся главным образом со структурированными базами данных. В таких методах слова интерпретируются как последовательности закодированных символов. Используя формальный синтаксис, или язык запросов, система двоичного поиска выбирает точное соответствие для отдельного слова или цепочки слов.

Это самый простой вид поиска документа по содержанию, но и самый слабый вид поиска, что выражается в малой полноте (это означает, что редко удается найти нужный документ).

Недостатки. Системы двоичного поиска имеют ограничения по точности, влияющие на возможность нахождения всей относящейся к запросу информации. В методах двоичного поиска не учитываются различные формы значения слов; пользователю непросто угадать точные слова и фразы, которые были использованы авторами в документах. Системы двоичного поиска не могут также ранжировать документы по степени соответствия запросу, поэтому пользователь вынужден читать каждый документ, чтобы определить, на сколько он соответствует запросу.

Качество поиска повышается, если применять поиск по логической комбинации слов,поскольку шум резко снижается при поиске не по одному, а по двум и более словам. Это происходит потому, что отдельное слово может встретиться где угодно в тексте, а вероятность совместного вхождения двух или трех искомых слов в ненужный документ гораздо ниже. При этом методе слова в запросе соединяются логическими операторами «И», «ИЛИ», «НЕ». В некоторых поисковых системах имеется возможность использовать в запросе скобки.

Таким образом, пользователь может ввести для поиска целое логическое выражение, состоящее из слов, а также иногда и других внешних характеристик — даты, размера и т.п., например, «(приложение И договор) ИЛИ (соглашение И договор)». Такое логическое выражение называется булевой формой, а сам поиск — булевым.

Поиск по запросу на естественном языке.Существуют системы, позволяющие искать текст по запросу, сделанному в виде обычного предложения (часто поиск по запросу на естественном языке также называют нечетким поиском). Модуль обработки естественно-языкового запроса независим от самой поисковой системы и «на выходе» может работать с логическим поиском.

Ранжирование результатов поиска.Когда документы, содержащие слова запроса, обнаружены, поисковая система должна предъявить их пользователю в некотором порядке. Обычно найденные документы тем или иным способом «взвешиваются» на предмет близости к запросу (ранжируются) и показываются в порядке уменьшения этой близости. Как правило, для вычисления веса - ранга используются разные алгоритмы: учитываются общее количество слов запроса в документе, близость их друг к другу в тексте документа, наличие компактных групп, соответствие грамматических форм и т.д.

Группа статистических методовосновываются на расчете различных частотных характеристик: частоты вхождения слова в документ, взвешенной частоты вхождения и частоты совместного вхождения нескольких слов

Семантический поиск. Следующий шаг в развитии поисковых систем - это так называемый семантический (то есть смысловой) поиск, основанный на построении и использовании базы знаний, с помощью которой осуществляется поиск информации на основе использования концептуальных отношений, которые не применяются при статистическом поиске. Существует несколько способов представления знаний.

Применение файла синонимов,что позволяет при ответе на запрос учитывать не только термины, которые непосредственно указаны в запросе, но и все другие слова, близкие к ним по значениям.

Другой известен как подход на основе использования лингвистических правил, при этом, разработчик создает систему лингвистических правил, которые используются для анализа или грамматического разбора текстовой базы данных. Этот метод анализа определяет ключевые слова и понятия, объединяющиеся в базу знаний, которая отражает содержание конкретной базы данных.