Понятие базы данных научной информации
База данных — это набор записей, состоящих из нескольких полей, который является поэтому идеальной структурой для каталога неструктурированных источников информации. При необходимости использовать определенную базу данных научной информации, возникает необходимость знать ее организацию. Поэтому в данной работе под базой данных будем понимать упорядоченную совокупность информационных соединений (библиографических описаний опубликованных и неопубликованных источников, полных текстов и т.п.), относящихся к определенной теме и представленных на машинных (машиночитаемых) носителях - магнитных лентах, дисках, дискетах, компактных оптических (магнитооптических) дисках в виде специальным образом организованного файла или группы файлов.
Основными достоинствами использования баз данных научной информации являются:
более короткий срок поступления к пользователю по сравнению с журналами в печатной форме;
разнообразие доступа (на CD-ROM, и в режиме on-line);
возможность "перекачивания" полного текста статьи в память персонального компьютера пользователя;
отсутствие необходимости переплета и размещения в книгохранилище;
возможность одновременного использования одного и того же журнала несколькими читателями;
дополнительные услуги: выборка информации и навигации внутри одного документа или среди нескольких.
К важным характеристикам баз данных научной информации относятся:
1. Охватываемая сфера:тематика, типы источников, насколько полно представлен каждый источник, охватываемый период времени;
2. Структура и содержание записи, возможность обращения к отдельным полям:из каких полей состоит запись, как они организованы, по каким из них можно проводить поиск;
3. Размер:сколько записей в базе данных, средний размер одной записи.
4. Современность и обновление информации:сколько времени проходит между публикацией статьи и появлением соответствующей записи в базе данных, как часто добавляются новые записи в базу данных;
5. Качество:кто несет ответственность за базу данных и какой контроль ее качества предусмотрен;
6. Способы поиска:поиск при помощи произвольного текста или при помощи упорядоченной индексирующей системы (управляемый словарь);
7. Рекомендации по методике поиска, документация, оперативная справка:обычно обеспечивается в печатном или электронном виде изготовителем или поставщиком.
8. Стоимость:в зависимости от условий доступа.
В настоящее время для удовлетворения потребностей пользователей ресурсов к информационным системам, содержащим базы данных научной информации, предъявляются следующие требования:
1. Охватвсех уместных информационных ресурсов. Для сбора информации должны быть созданы процедуры ввода данных. Возможные варианты ввода данных:
интерактивным вводом данных пользователями;
сбором данных в сети посредством специализированных сетевых “пауков”;
путем обмена данными с другой информационной системой;
в ряде работ отмечается, что большинство информационных систем не смогут охватить всю информацию в одной центральной базе данных. Предполагается, что НИС кроме задач поиска информации в своей БД будут искать информацию и в других системах, а также служить порталами позволяющими выяснить, где же искать информацию, если нет в данной системе.
2. Релевантность документов. При автоматическом сборе информации в сети Интернет возможно накопление информации нерелевантной или малорелевантной для данной информационной системы. Это проблема может решаться следующими способами:
созданием подробных форматов представления метаданных о ресурсах и сильно структурированных справочников для тематической классификации ресурсов, требованием от создателей Web - страниц четко и точно следовать форматам метаданных и вкладывать описания в метаданных на Web-страницы. Проблематично требовать от пользователей записи в их Web - страницы метаданных в каком-либо формате, это требует дополнительной работы и знакомства с форматами метаданных. Способ решить эту проблему: создание профессиональных Web - страниц или метаописаний интерактивными средствами;
разделением всех информационных ресурсов на собранные экспертами/пользователями и “пауком”, и указанием степени достоверности информации в зависимости от ее источника;
точным указанием поисковым средствам пространства поиска и анализа информации, а также критериев качественности собранной информации;
введением соответствующих потребностям пользователей схем классификации ресурсов и классификации экспертами ресурсов согласно этим схемам.
3. Актуальность, полнота, достоверность происхождения документов. Проблемы актуальности и полноты решаются способами аналогичными способам проблемы решения охвата документов. Проблема достоверности происхождения информации решается:
для интерактивного ввода - ограничением ввода только аутентифицированными пользователями;
для автоматизированных систем сбора - путем ограничения области действия, собирающего информацию “паука”;
для ввода интеграцией с другими системами – путем установления точных фильтров на импортируемые информационные ресурсы;
для всех систем - проверкой и классификацией введенной информации.
4. Наличие интеллектуальных служб обслуживания запросов пользователя. Службы обслуживания запросов пользователей должны поддерживать поиск по атрибутам с поддержкой полнотекстового поиска, просмотр ресурсов по категориям. В ряде проектов определено, что службы поиска должны поддерживать семантический поиск.
Кроме того, к информационным системам, работающим со многими типами информационных ресурсов, предъявляются следующие требования:
5. Поддержка не централизованных архитектур информационной системы.Это требование является необходимым условием для полноты, аутентичности и актуальности информации. Опыт эксплуатации информационных систем показал, что трудно реализуемо, во многих случаях даже невозможно, создание централизованных научных систем, которые охватывают научную информацию в какой-то области науки, или в какой-то стране. Опыт создания таких систем завершился удачно лишь в Дании и Исландии;
6. Структурированность информационного пространства. Для поддержки сложных функций поиска, классификации информации недостаточно хранить только полнотекстовые описания;
7. Предоставление информации пользователю в виде, выбранном пользователем;
8. Историчность информации. Научная информация специфична достаточно коротким временем жизни и актуальности. Для многих типов информационных ресурсов важно хранить описание жизненного цикла этих ресурсов и иметь возможность восстановить состояние ресурса на любой момент времени.
9. Поддержка различных уровней абстракциидля представления информации.
Отмечено, что эффективность Интернет для НИС не является прямым следствием количества доступной информации, или даже ее качества, но является прямым следствием скорости и точности подбора информации на запросы исследователей, учитывая их ограничения по времени и компетентности по работе с информационными системами. Поддержка различных уровней абстракции при представлении информации позволяет ускорять поиск информации пользователем без потерь в качестве поиска.
НИС должны поддерживать множество уровней абстракции от кратких описаний для максимального быстрого поиска, до очень подробных описаний информационных объектов.
10. Архив. Выше было отмечено, что большая часть научной информации быстро устаревает. Но существуют информационные ресурсы, которые могут быть доступны длительное время. К таковым, например, относятся документы, имеющие длительную юридическую силу, патенты или мультимедийная информация об исторических событиях, которая может быть востребована через любой период времени. Кроме того, научные отчеты институтов, речи ученых могут также иметь огромную историческую ценность, становясь только еще ценнее со временем. Поэтому системы должна поддерживать возможность длительного хранения информационных ресурсов с возможностью восстановления их.
В условиях работы в распределенной среде к информационным системам предъявляются требования:
Поддержка принятых стандартов метаданных для экспорта и импорта данных;
Поддержка протоколов обмена информации с другими информационными системами;
Возможность проверки, экспертизы приходящей информации;
Поддержка возможности ссылки на внутренние ресурсы как в интерфейсах пользователей, так и на системном уровне.