Выбор программных средств для управления документами

Появление на рынке систем управления электронными документами - EDMS (Electronic Document Management Systems) вызвано стремлением сократить поток бумажных документов и хотя бы частично уменьшить сложности, возникающие в связи с их хранением, поиском и обработкой, и перенести центр тяжести на работу с электронными документами. В отличие от документов на бумажных носителях электронные документы обеспечивают экстраординарные преимущества при создании, совместном использовании, поиске, распространении и хранении информации. По данным Gartner Group можно прогнозировать удвоение объема электронной текстовой информации каждые три года вплоть до 2000-го года, а в офисах объем информации, доступной в электронной форме, в 1996 году удвоится с 25 до 50%.

Системы EDMS реализуют ввод, хранение и поиск всех типов электронных документов, как текстовых, так и графических. С помощью систем этого класса вы можете организовать хранение в электронном виде административных и финансовых документов, факсов, технической библиотеки, изображений, т.е. всех документов, входящих в организацию и циркулирующих в ней.

На рынке предлагается более 500 систем EDMS. Технологически они различаются по способам индексирования и поиска информации. Основной способ ввода документов в систему - сканирование, хотя информация может поступать с магнитных носителей, через модемы и т.д. В системах EDMS первого поколения графические образы введенных документов идентифицируются с помощью ключевых слов, по которым и происходит поиск необходимой информации. В качестве примеров таких систем можно привести программные продукты SoftSolutions (SoftSolutions), DocuData (LaserData), WorkFLO Business System (FileNet).

В более поздних системах EDMS используется технология оптического распознавания символов (OCR - Optical Character Recognition). После сканирования и ввода документа в систему происходит перевод графического образа документа в текстовый файл, после чего следует достаточно трудоемкий процесс исправления ошибок в тексте, допущенных при распознавании. Необходимая информация ищется с помощью механизма четкого поиска по полному содержанию документа. Примерами систем, использующих описанную технологию, могут служить ZyIMAGE (ZyLAB Division of IDI), Topic (Verity), BRS/Search (Dataware).

Каковы наиболее серьезные ограничения предлагаемых систем:

· Использование технологии ключевых слов "стоит" от $5 до $20 на документ.

· Определение ключевых слов - достаточно субъективный процесс, а также ключевые слова со временем теряют свою значимость.

· При использовании технологии OCR требуется тратить значительные усилия на "очистку" текста после использования средств OCR, т.к. даже самые совершенные средства распознавания не дают 100% точность. Это очень трудоемкий и дорогостоящий процесс, его стоимость составляет от $1 до $10 на страницу.

· Во всех предлагаемых системах EDMS используется механизм четкого поиска, поэтому если в запросе допущены орфографические ошибки или в тексте документа не исправлены ошибки распознавания, система никогда не найдет нужной информации.

· Индекс систем с полноконтекстным поиском составляет от 200% до 400% от объема исходных документов, что предъявляет серьезные требования к ресурсам компьютера и существенно увеличивает время поиска при увеличении потока документов.

В начале 90-х годов на рынке систем EDMS появились новые разработки с использованием новейших технологий нейронных сетей и искусственного интеллекта. В системах третьего поколения, созданных на основе этих технологий, реализован нечеткий поиск по полному содержанию документа и очень "компактное" индексирование (всего лишь 30% от объема исходного текста).

Нечеткий поиск означает индифферентность по отношению к ошибкам как во входных данных, так и в формулировках запроса, т.е. он сокращает до минимума влияние ошибок распознавания символов, ошибок набора на клавиатуре при вводе данных, а также ошибок правописания в запросах поиска. С помощью механизма нечеткого поиска вы можете найти то, что ищете, даже если вы не знаете, как это пишется, забыли, как это называется или если это окажется неправильно зарегистрировано. Система всегда выдает пользователю ответ, наилучшим образом согласованный с терминами или фразами запроса, по которому проводится поиск.

На рынке коммерческие системы EDMS третьего поколения представлены программным продуктом Excalibur EFS (Excalibur Technologies Corp.). Пакет Excalibur EFS базируется на технологии адаптивного распознавания образов APRP (Adaptive Pattern Recognition Processing), разработанной компанией Excalibur Technologies и реализованной в пакете с использованием механизма нейронных сетей.

Технология APRP обеспечивает автоматическую индексацию всего содержания документа, что исключает необходимость выбирать ключевые слова вручную и дает возможность проведения нечеткого поиска любого слова в документе. Это означает, что в экстремальной ситуации пользователю системы Excalibur EFS не нужно беспокоиться о том, как вспомнить правильное название документа, точную фразу или правильное написание сложной формулы, чтобы получить именно ту информацию, которая ему нужна в данный момент.

· Excalibur EFS предоставляет пользователю и другие режимы поиска и получения информации:

· нечеткий поиск по именам документов;

· ассоциативный поиск по всему тексту с установленными пользователем синонимами;

· прямой доступ по пиктограммам файлов;

· запросы в стиле обычной базы данных; поиск по ключевым словам в полном тексте, именах и названиях; л

· логический поиск по всему тексту.

СУБД, системы workflow и системы EDMS - это средства управления информационными потоками. Как же они соотносятся друг с другом?

В таблице 2 приведены их краткие характеристики.

  Назначение Примечание
СУБД Ввод, хранение и поиск структурированной информации в электронной форме Это только 15% всей информации, с которой приходится работать
Системы управления документами Ввод, хранение и поиск неструктурированной информации в электронном виде Это 85% всей информации, которая проходит через организацию, включая бумажные документы, переведенные в электронную форму
Системы workflow Управление, маршрутизация и координация передвижением документов в рамках корпоративной системы; контроль за своевременной обработкой документов Системы могут быть интегрированы как с СУБД, так и системами управления документами

Таблица 2.

Комбинация технологий СУБД, workflow и управления электронными документами и, соответственно, интеграция программных продуктов, реализующих эти технологии, дает полное решение проблемы автоматизации работы с документами любого вида в корпорации любого рода деятельности.