О достоверности выдаваемой информации

Архивы пришли к необходимости перестройки работы на базе современных аппаратных средств и методов информационных технологий для снижения трудоемкости обработки архивной информации, повышения интенсивности использования информационных ресурсов и обеспечения сохранности документов.

С целью автоматизации поиска в хранящихся в НИАБ дореволюционных документах создаются и продолжают наполняться информацией различные базы данных (БД), которые представляют собой географические и именные указатели к документам архива. В далеком, с точки зрения стремительности развития научно-технического прогресса, 1994 г. началась работа над автоматизированной информационно-поисковой системой (АИПС) "Родовод". Она предназначалась для ведения учета основных генеалогических источников и создания научно-справочного аппарата к документам, содержащим такие сведения. Сегодня наша БД содержит более 100 000 записей: сведений из ревизских сказок за период 1795–1874 гг.

С вопросом о ДОСТОВЕРНОСТИ выдаваемой информации мы столкнулись, когда объемы наших БД стали заметно большими, а обращения к ним частыми. Нередко фамилия одного и того же человека в документах в различное время конкретными писарями записывалась по-разному. Сотрудникам архива и исследователям ясно, что наличие погрешностей в компьютерном поиске поставит вопрос об эффективности использования таких БД. Поручив поиск автоматическим устройствам, мы должны быть уверены в достоверности получаемого ответа, а не просто обеспечивать сохранность единицам хранения, ограждая их таким образом от доступа.

Столкнувшись с проблемой поиска похожих фамилий, мы решили в первую очередь изучить современные поисковые механизмы, чтобы при возможности выбрать готовый алгоритм отбора схожих фамилий.

Смысловой поиск – давняя мечта всех компаний, которые работают над проблемой обработки информации, весьма актуальной в наше время. Прогресс налицо, теперь в Интернете появляются механизмы поиска, которые претендуют на понимание смысла человеческих слов и целых текстов, на общение с человеком на естественном языке. К сожалению, большинство возможностей оказывается доступно в полной мере лишь для английского языка. Существуют компании, которые адаптируют такие технологии к русскоязычным полнотекстовым базам данных. Для повышения полноты поиска представляется ряд средств расширения поискового запроса, среди которых можно выделить три группы:

Во-первых, это расширение количества слов запроса всеми их морфологическими формами, что реализуется привлечением знаний о морфологии языка;

Эта возможность архиву не интересна, т.к. все фамилии в БД введены в единственном числе, именительном падеже.

Во-вторых, расширение запроса близкими по смыслу словами за счет подключения тезауруса – семантического словаря, устанавливающего связи между различными значениями слов с указанием типа и силы связи.

Хроническим недостатком является объективная неполнота базы понятий, которая не может охватить все понятия человеческого языка, не может описать все значения слов, географических названий, фамилий и прочих имен собственных, которые промелькнули за человеческую историю. Все это объясняется ручным трудом по пополнению "базы знаний".

Очевидно, что для нашей задачи создание тезауруса разночтений фамилий не является идеальным решением. Возможно, иметь такой словарик было бы полезно и интересно. Но к решению нашей задачи он нас не приблизит.

В-третьих, это расширение запроса словами, близкими по написанию и звучанию. В алгоритме нечеткого поиска используется система быстрого ассоциативного доступа к списку слов, содержащихся в документах, которая позволяет найти слова по любым цепочкам составляющих их букв.

Использование такого алгоритма было первым способом, с помощью которого архив попытался решить свою задачу. Предварительно было ясно, такой поиск дает больше шума, но выберет и все случаи, которые бы были описаны алгоритмом, использующим морфологический анализ. При попытках использовать такой алгоритм на некоторые запросы мы получали такое огромное количество результатов, анализ которых представляет значительную сложность.

В поисках решения проблемы было тщательно проанализировано содержимое архивной БД "Родовод". В результате оказалось, что причин разночтений три:

Во-первых, схожесть фамилий по звучанию.

Во-вторых, схожесть написания, которое в свою очередь может быть: а) типичным, т.е. присущим любому почерку (например, И–Н–П–К, Т–М–Ш–НЕ, И–А–ЕЕ–СЕ и т.д.); б) нетипичным, т.е. являющимся особенностью почерка конкретного человека (примеры в этом случае могут быть непредсказуемыми: Т–ГЛ, АЖ–ОМС).

В-третьих, другие причины: неразборчиво написано; написано с ошибкой в документе; введено с ошибкой (опечаткой) оператором-архивистом.

Очевидно, что специалисту легко назвать созвучные фамилии, а вот варианты, указанные в третьем столбце, как раз могут "потеряться".

Приведем реальные примеры из нашей БД:

Оригинальная фамилия	Сходная по звучанию фамилия	Сходная по написанию фамилия
Оленевич Тишкевич Шашок Филипович Осиновский	Аленевич Цишкевич Шешок Филепович Асиновский	Олекевич Тимкевич Шамок Филонович Асиповский
Катман Евнин Шадкин Круглый Алешка Амбражевич	Шаткин, Садкин Круглой Алиошка Амброжевич	Китман, Кошман Евлин Цадкин Крутый Алпошка Амбромсевич

Для решения этих проблем существует простой алгоритм, заимствованный из практики американских архивов. Суть его заключается в следующем: присвоение согласным алфавита определенного кода, причем близкие по звучанию звуки должны быть закодированы одной и той же цифрой. Таким образом, все фамилии получат код на основе звучания согласных. Поиск по такому коду, очевидно, будет очень оперативным. В настоящее время архив работает над реализацией этого алгоритма.

Аналогичным образом можно попытаться закодировать и схожие по написанию буквы.

Одновременно для нашей задачи возможно применение и других искусственных приемов, оптимизирующих поиск. Например, архивом разработана программа для создания алфавитного списка всех различных фамилий, встречающихся в БД. Интересно, что список оригинальных фамилий составил только 1/4 часть от общего числа. Использование такого алфавита значительно ускорит анализ схожести фамилий и увеличит достоверность выдаваемой из БД информации.

Наша проблема – не только проблема НИАБ и БД "Родовод". С ней столкнется любой архив при работе с БД, объем которой превысит 30000 записей (по 1000 на каждую букву алфавита). Поэтому автор полагает, что изложенный материал может быть интересен архивистам и историкам.

Корниенко Ю.М. (Ставрополь)