Классификация баз данных научной информации

В настоящее время в мире наблюдается устойчивый рост числа производимых в мире баз данных научной информации. Сейчас количество баз данных, производимых в мире, оценивается цифрой 8 тысяч, а годовой прирост числа баз данных превышает 10 %. С одной стороны, это дает возможность констатировать появление на рынке производителей новой мощной индустрии - индустрии баз данных, а с другой, обостряет проблему типологии баз данных. В то же время качественные характеристики, отличительные особенности и применимость базы данных (или группы баз данных) для решения конкретной задачи (задач) пользователя не могут быть оценены без знания типа базы данных.

Однако задача классификации уже существующих на информационном рынке (и возможных в будущем) баз данных не так проста, какой она представляется на первый взгляд. Это связано с тем, что глубоких исследований по проблемам построения некоей общепринятой типологии баз данных не существует, а сложившаяся зарубежная терминологическая практика (в приложении к типам баз данных) далеко не всегда адекватно отражает истинную типологию, и к тому же производители баз данных не всегда следуют данной практике.

Например, предлагается следующая классификация баз данных научной информации в зависимости от типа хранимой в них информации:

числовые;

тексточисловые;

по физико-химическим свойствам;

полнотекстовая;

библиографическая;

адресно-справочная;

справочная;

база программ для ЭВМ;

смешанная;

адресная;

фактографическая;

реферативная;

документографическая;

лексикографическая.

Числовыми (или цифровыми) базами называют базы данных, содержащие структурированную информацию числового характера. В случае, если наряду с числовой информацией в базе данных содержится также и текстовая информация, базу называют тексточисловой. К полнотекстовым относят базы, содержащие полные тексты информационных источников (например, полные тексты патентов, законодательных актов, монографий и т.п.).

Библиографические (реферативно-библиографические) базы данных - это базы, содержащие описания публикуемых (книги, статьи, доклады, тезисы и пр.) и непубликуемых (авторские свидетельства и патенты, отчеты, диссертации и др.) документов, для которых обычно дается полное библиографическое описание (автор, название, источник, том, выпуск, год издания, страницы и т.д.), набор ключевых слов и рубрикационных шифров, раскрывающих тематику и содержание документа, а также приводятся рефераты или аннотации работ.

Адресно-справочными базами называют базы, содержащие адресную (например, по фирмам, компаниям) и другую справочную (например, различного рода расписания) информацию. Часто указывается конкретно, что данная база справочная (или адресная).

Программными (software) базами данных (или базами программ) являются базы, содержащие представленные в различных видах (исходные тексты, исполняемые модули и др.) программы для ЭВМ (например, программы статистической обработки данных).

К лексикографическим базам относят базы, представляющие собой различные машиночитаемые словарные массивы (словари тематической лексики, тезаурусы и др.), где объектом описания являются лексические единицы.

Видно, что несмотря на достаточно большое количество типов, все их множество может быть условно поделено на два класса по характеру используемой для создания баз данных информации: на первичные, куда включаются числовые, тексточисловые, полнотекстовые базы данных и базы по физико-химическим свойствам, и вторичные, куда входят библиографические, адресные, справочные и тому подобные базы данных. Первичные базы данных содержат непосредственные результаты научных исследований и разработок, новые научные сведения или новое осмысление известных идей и фактов. Вторичные же содержат результаты аналитико-синтетической и логической переработки одного или нескольких первичных документов или сведения о них).

С другой стороны, базы данных иногда подразделяют по типу хранимых в них сведений, и тогда один класс базы данных называют документальным, включая в него библиографические, полнотекстовые, справочные и другие базы, содержащие документальную, текстовую информацию; второй класс в этом случае образуют фактографические базы, к которым относятся числовые, тексточисловые и справочные базы, где данные носят, как правило, числовой характер. Однако на практике часто бывает невозможно однозначно отнести базу данных к какому-то одному типу, поэтому в большинстве классификаций присутствуют в той или иной форме смешанные базы данных.