Поиск информации в Интернете

5.2.1. Общие сведения о поисковых системах

Основную роль в обслуживании клиентов Интернета играют Web-серверы, содержащие все информационные ресурсы и реализующие сервисы Интернета. Для понимания эффективной работы в сети и реализации собственного Web-сервера необходимо хорошо представлять основные функции различных Web-серверов и логику навигации по ним. Ответ на этот вопрос поможет дать приведенная ниже классификация серверов в Интернете.

Несмотря на разнообразие представленных в Интернете Web-cepверов, можно выделить две основные группы:

серверы управления трафиком (Web Traffic Control Sites);

конечные серверы (Destination Sites).

Такое деление обусловлено общей логикой навигации в Интернете. В начале пользователь с помощью серверов первой группы должен найти требуемые ресурсы, а потом уже ими воспользоваться. Поэтому для эффективной работы Web-сервера должны быть, во-первых, учтены операции, связанные с первоначальным привлечением посетителей на сервер, выполняемые серверами первой группы, и, во-вторых, решена задача обеспечения максимального количества повторных посещений Web-сервера за счет предоставления пользователю услуг, информации, возможностей для интересного времяпрепровождения, – всего, что может удовлетворить те или иные потребности посетителей сервера.

Серверы управления трафиком

К этой группе можно отнести поисковые системы, каталоги и инициирующие серверы.

Поисковые системы

Задача поисковых систем – опознать другие серверы Интернета при помощи поиска по ключевым словам базы данных, которая состоит из проиндексированного содержания Web-серверов Интернета. Ярким представителем поисковых систем являются международная AltaVista и российский Rambler.

Поисковые системы состоят из трех основных частей. Спайдеры (Spider, Crawler, Robot) – программа, которая посещает Web-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Spider возвращается через определенные периоды времени, например каждый месяц, и повторяет индексацию страниц. Все, что находит и считывает Spider, попадает в индексы поисковой системы. Индексы системы представляют собой гигантское хранилище информации, где хранятся копии текстовой составляющей всех страниц, которые посетил и проиндексировал Spider. Третья часть – это программа, которая в соответствии с запросом пользователя перебирает индексы поисковой системы в поисках информации и выдает ему в порядке убывания релевантности найденные документы. Релевантность определяет, насколько полно тот или иной документ отвечает критериям, указанным в запросе пользователя. Разумеется, далеко не всегда документ, признанный поисковой системой наиболее релевантным, будет таким по мнению самого пользователя. В каждой поисковой системе работает собственный спайдер; каждая система индексирует страницы своим особым способом, и приоритеты при поиске по индексам тоже отличны. Поэтому запрос по определенным ключевым словам или выражениям в каждой из поисковых систем обычно порождает разные результаты.

Наиболее известными международными поисковыми системами являются:

AltaVista (http://www.altavista.digital.com/),

Excite (http://www.excite.com/),

Hot Bot (http://www.hotbot.com/),

Infoseek (http://www.infoseek.com/),

Lycos (http://www.Iycos.com/),

WebCrawler (http://www.webcrawler.com/).

Наиболее популярна российская поисковая система Rambler (http://www.rambler.ru), принадлежащая компании Stack Ltd. Поисковая система Rambler поддерживает рейтинг русских страниц Тор 100 (http://counter.rambler.ru/topl00). Списки страниц разбиты на группы, и многие пользователи используют данный рейтинг как каталог.

Наряду с сервером Rambler большой популярностью пользуются поисковые системы Yandex (http://yandex.ru) и «Апорт!» (http://www.aport.ru/).

Yandex является оригинальной разработкой фирмы CompTek, выполняет поиск по русской части Интернета с учетом морфологии русского языка и имеет очень мощный язык запросов. Результаты поиска упорядочиваются по степени значимости, при этом учитывается число встретившихся в документе терминов, их положение, число слов между ними, и, кроме того, они содержат удобную аннотацию. Поисковая система «Апорт!» разработана компанией «Агама» при поддержке Intel. Система понимает все кириллические кодировки и выполняет поиск с учетом морфологического анализа. Имеет гибкий язык запросов, поддерживает перевод запроса с русского на английский язык и наоборот. Результаты поиска упорядочиваются по частоте употребления искомых терминов. Вместе со ссылкой отображаются фрагмент текста, где встречается термин, дата и время последней модификации файла.

Каталоги (directories)

Аналогичную поисковым системам функцию выполняют серверы-каталоги, с той разницей, что поиск осуществляется пользователем вручную по иерархически организованной тематической структуре каталогов.

Для регистрации в каталоге необходимо либо заполнить опреде­ленную форму, либо послать запрос, содержащий указание, в какой раздел вы хотите поместить свою страницу, краткое описание сайта и список ключевых слов для поиска страницы в каталоге.

«Королем» каталогов по праву считается Yahoo (http://www.yahoo.com/). Этот каталог существует с конца 1994 года, содержит более полумиллиона Web-страниц и считается самым популярным и старейшим из основных каталогов Интернета. При вводе запроса Yahoo производит поиск по своему каталогу. Если результаты поиска неудовлетворительны, запрос автоматически перенаправляется к избранной поисковой системе AltaVista. Регистрация сайта в Yahoo, как правило, вносит значительный вклад в увеличение трафика пользователей. Некоторые онлайновые магазины утверждают, что 70% их клиентов пришли к ним именно через Yahoo.

Страницы внутри каталога идут в алфавитном порядке, так что если имя страницы начинается с цифр, то она находится недалеко от начала списка в директории. Вышеупомянутое утверждение верно, если пользователь переходит из каталога в каталог сам. В случае, если он пользуется внутренней поисковой системой, страницы будут выдаваться в порядке убывания релевантности, а не в алфавитном порядке.

Среди каталогов российской сети можно выделить «Созвездие Интернет» (http://www.stars.ru), Russia on the Net (http://www.ru), List.Ru (http://www.list.ru), Ay! (http://au.ru), The List of Russian Web Servers (http://weblist.ru/), а также появившихся достаточно недавно Search (http://search.site.ru/) и «Интернет Столица» (http://www.data.ru/).

Комбинированные системы

Некоторые поисковые системы имеют при себе и каталог. Индексы для самой поисковой системы добываются спайдером, а каталог пополняется через регистрационную форму или модераторами системы. Примерами таких систем являются:

Excite Net Directory (http://www.excite.com/);

InfoSeek (http://infoseek.go.coHi);

Lycos (http://www.Iycos.com);

WebCrawler (http://www.webcrawler.com/).

Инициирующие серверы

Инициирующие серверы относятся к группе серверов управления трафиком. Если цель поисковых машин или каталогов состоит в поиске информации и последующем перенаправлении пользователей к найденным ресурсам в соответствии с запросом, то инициирующие серверы используют комплексный подход и наряду с функциями поиска информации и перемещения к ней пользователей предоставляют достаточно широкое по тематике информационное содержание. Наиболее крупные из них получили название порталов.

Порталы – это Web-узлы, представляющие собой сочетание информационного наполнения, пользовательского сообщества и базовых услуг, таких как электронная почта. Они служат отправным пунктом навигации в Интернете, где можно ознакомиться с заголовками новостей, узнать о событиях в сети, и являются центрами, вокруг которых строятся взаимоотношения пользователей с Интернетом. Сюда пользователь может вернуться, если он заблудился в Паутине, здесь же можно следить за курсами акций, именно отсюда можно начинать поиск. Здесь находятся почтовые ящики пользователей, предназначенные для получения и отправления сообщений электронной почты, персональная базовая страница, портал выступает гарантией безопасности и ориентиром во всем, что касается Интернета.

Все порталы обладают примерно одинаковой комбинацией информационного наполнения и набора услуг. Различия определяются тем, насколько успешно интегрированы все функции и насколько удачно выбраны технологии для организации сообществ пользователей, Web-страниц, диалогов, электронной почты и мгновенной пересылки сообщений. Кроме того, порталы различаются с точки зрения простоты работы с ними и настройки на нужды конкретного пользователя, а также вероятности встретить в портале тех, с кем хотелось бы провести время в сети.

Основными составляющими элементами порталов являются:

Каналы. Одна из основных функций порталов – упрощение поиска интересующих данных путем разделения всей информации на каналы. Пионером в этой области была служба AOL, а разработчики других порталов учились у нее и в основном перенимали опыт, разделяя информацию на 16 – 18 легкоузнаваемых подкатегорий.

Электронная почта. Самое популярное занятие в сети стало стандартным дополнением к порталам, еще одним способом привлечь пользователей на узел и дать им ощущение связи с порталом. С помощью почтовых клиентов – не только автономных, но и на базе Web – можно просмотреть HTML-почту, создать папки и организовать адресную книгу.

Дискуссии. Возможность организации форума для обмена идеями и встреч с другими пользователями является одним из главных атрибутов любого портала. Большинство порталов наделено встроенными средствами диалогового взаимодействия, охватывающими все службы портала, с большим набором дискуссий – как открытых, так и руководимых ведущим.

Покупки. Интернет превратился в гигантский рынок товаров и услуг, и разработчики порталов извлекают выгоды из создавшегося положения, собирая ссылки на коммерческие узлы и предоставляя пользователям инструменты для поиска нужных им продуктов. Например, в Shopping Guide (Проводник покупателя) узла Yahoo предусмотрена функция поиска в Интернете товаров, например книг с самой низкой ценой.

Одним из самых популярных международных порталов является Excite (http://www.excite.com). Как портал Excite сочетает в себе отличные инструменты индивидуализации, превосходный механизм поиска с прогнозированием запросов пользователя и развитые средства организации сообществ.

Среди российских порталов одно из первых мест по праву занимает сервер компании IT InfoArt Stars (http://www.mfoart.ru). Компания IT InfoArt Stars, образованная в феврале 1999 г. на базе отдела интернет-проектов «ИнфоАрт», владеет несколькими ресурсами, включая информационно-новостной сайт IT InfoArt Stars и каталог Internet Stars, которые входят в число старейших и самых популярных серверов России. Партнерам компании и пользователям предоставляются многочисленные бесплатные интернет-сервисы: служба поиска и индексации iSearch; служба электронной почты e-mail; служба персонализации iCenter; служба push-каналов iPush; служба подсчета обращений к страницам iHITs; рейтинговая служба 1000 Stars и др.

Информационно-новостной сайт IT InfoArt Stars является одним из крупнейших в Европе (до 100 тысяч посетителей в день, свыше 100 миллионов запросов в месяц с 1 миллиона уникальных компьютерных систем мира) и помимо электронной публикации новостных, аналитических и иных материалов из области политики, экономики, науки и техники, спорта, погоды, культуры и искусства на основе новейших компьютерных тех­нологий постоянно совершенствует формы интернет-вещания, расширяет функциональные возможности служб Интернета. Информация размещается на основном и нескольких десятках зеркал-ретрансляторов по территории России и стран СНГ, а также передается посредством 40 тематических push-каналов десяткам тысяч пользователей.

Служба каталога Internet Stars, насчитывающая более 12 тыс. ресурсов, осуществляет регистрацию (по заявкам владельцев) и мониторинг отечественных и зарубежных интернет-ресурсов, ведет элитный рейтинг 1000 Stars (более 3 тыс. участников), учитывающий уникальных посетителей всего рейтингуемого ресурса в целом.

Специального упоминания заслуживает такой уникальный сервис, как организация и проведение интернет-брифингов, семинаров и пресс-конференций.

Группа «конечных серверов»

В группу «конечных серверов» входят конечные адресаты, предоставляющие пользователям разнообразные ресурсы, которыми могут быть информация в виде художественных произведений и документации, финансовые сводки, информация о курсах акций, фирмах, их продукции и услугах, о продаже товаров, различных способах времяпрепровождения. Исходя из выполняемых Web-серверами функций в этой группе можно выделить интерактивные магазины, серверы присутствия в Интернете и информационные серверы.

Серверы присутствия в Интернете

Серверы присутствия относятся к группе «конечных серверов». Они обеспечивают виртуальное присутствие фирм и их предложений в Интернете. Серверы этого типа можно разделить на два вида: рекламные и информирующие, хотя четкую границу между ними провести бывает довольно трудно.

Рекламный сервер может состоять из одной или нескольких Web-страниц и содержать различную рекламную информацию. Информация о продуктах или услугах фирмы обычно обеспечивается в том контексте, в котором они имеют значение для потребителя. Такой тип сервера особенно подходит для продуктов, не требующих представления большого количества информации, при этом основное воздействие на потребителей оказывается скорее в эмоциональном, чем в информационном плане.

Информирующие серверы обеспечивают детальную информацию о фирме и/или ее предложениях. Такие серверы могут иметь довольно разнообразное строение, и для облегчения навигации в случае сложного строения сервера или большого объема представленной информации можно использовать функцию поиска.

Примером информационного сервера присутствия в Интернете является сайт компании МЭЛТ (http://www.melt.aha.ru/). На сервере посетители могут ознакомиться с самыми свежими новостями о перспективных разработках и услугах, о выпускаемых в настоящий момент изделиях, получить самые свежие версии программ для управления изготавливаемыми фирмой продуктами, а также получить подробную документацию по выпускаемым в данный момент изделиям. В качестве другого примера сайта этой группы можно привести Web-сервер магазина «Максидом» (http://www.maxidom.ru/). По своему содержанию он значительно ближе к серверу рекламного типа. Информация и ее представление нацелены на то, чтобы сформировать определенный имидж магазина в глазах потенциальных покупателей: доступные цены, широкий ассортимент, позволяющий сделать все покупки за один визит, широкий спектр услуг и доброжелательный, опытный, квалифицированный персонал. Все укладывается в общий девиз бизнеса данной фирмы: «Большой магазин для большого города».

Еще одним примером корпоративного Web-сайта является сервер Волжского автомобильного завода (http://www.vaz.ru). На сервере представлена полная информация о выпускаемых моделях автомобилей, их характеристиках и ценах, опубликована история предприятия. Сайт ориентирован как на конечного потребителя, так и на партнеров по бизнесу. Например, АО «АВТОВАЗ» предлагает фирмам, торгующим автомобилями ВАЗ в России или желающим заниматься их реализацией, заключить дилерские соглашения.

Любой желающий может через Web-сайт получить консультацию, помощь специалистов предприятия или обратиться к администрации завода с деловым предложением. Для оптимизации такого взаимодействия на сервере представлены ответы на часто задаваемые вопросы.

В целом Web-сайт служит хорошим примером информационно-рекламного сервера.

Информационные серверы

Название серверов этой группы говорит само за себя: это серверы, главной своей целью ставящие представление той или иной информации пользователям Интернета. Наиболее характерное деление в группе можно провести по признаку необходимости оплаты для доступа к информации или для ее представления на Web-сервере.

Рассмотрим для начала платные серверы. В этом случае для доступа к информации пользователи платят определенную сумму. Возможен другой вариант, когда плата взимается за представление информации, например, фирма платит за включение информации о себе в базу данных Web-cервера.

Основной проблемой эффективного функционирования сервера такого типа является задача предоставления уникальной информации, поскольку Интернет – это информационно интенсивная среда, где существует много альтернатив поиска требуемой информации. Наиболее характерным примером серверов, относящихся к этой группе, являются, во-первых, Web-серверы, предоставляющие финансовую информацию, и, во-вторых, Web-серверы, предоставляющие информацию о рынке, то есть информацию о фирмах, их продукции и услугах с возможностью произведения выборок по регионам, отраслям.

Среди российских серверов ведущее место по представлению финансовой информации занимает сервер РИА «РосБизнес-Консалтинг» (bttp://www.rbc.ru). РИА «РосБизнес-Консалтинг» работает с начала 1992 года и предоставляет самый большой в России объем финансовой и аналитической информации по России и СНГ. Главными продуктами являются финансовые данные, новости и аналитика со всего мира. Доступ к разделам сервера платный, за исключением лишь нескольких из них.

Основными продуктами компании являются:

ежедневный бюллетень «Валюты-кредиты. Информация. Анализ. Комментарии»;

Rbc NEWS – лента финансовых и фондовых новостей в режиме реального времени.

Другим примером Web-сервера, предоставляющего платную информацию по широкому спектру рыночных отношений, фирмах и товарах, является Web-сервер Информационной коммерческой системы «Международные Информационные Рынки» (ИКС МИР).

В противовес платным серверам существует достаточно большое количество сайтов, предоставляющих информацию бесплатно. Примером такого Web-сервера, предлагающего бесплатные услуги по размещению информации о недвижимости в Санкт-Петербурге и предоставляющего возможность поиска по ней, является Web-сервер «Межагентская база данных» (http://on.wplus.net /talan/index.htm). На сервере можно произвести поиск интересующего варианта в случае продажи или аренды, оставить собственный вариант, подписаться на рассылку новостей и т.д.

 

5.2.2. Поиск баз данных в Интернете

Наибольший практический интерес представляют базы данных, доступные в режиме on line, некоторые из которых рассмотрены в данном подразделе.

В среде WWW осуществляется доступ к огромному числу самых разных баз данных – фактографических, библиографических, полнотекстовых объектографических и проч. В зависимости от содержания хранящейся в них информации они разделяются на универсальные, отраслевые и тематические.

По информационной насыщенности и возможности осуществления многоаспектного поиска в один ряд с базами данных можно поставить такой вид метаресурсов, как gateways – научные информационные порталы, создаваемые усилиями библиотечных работников и представляющие собой массивы аналитически обработанных документов различного типа (web-страницы, статьи, отчеты, обзоры), доступных через сеть Интернет.

Библиографические базы данных

Одной из крупнейших в России баз данных по естественным, точным и техническим наукам является база данных Всесоюзного института научной и технической информации (ВИНИТИ). Она включает материалы РЖ (Реферативного журнала) ВИНИТИ с 1981 года по различным отраслям науки и техники: математика, механика, науки о жизни (биология, медицина), науки о Земле (география, геофизика, геология, горное дело, охрана окружающей среды), физика, астрономия, химия и химическая технология, информатика, автоматизация и вычислительная техника, радиоэлектроника, электротехника, энергетика, металлургия, транспорт и машиностроение, экономика, комплексные межотраслевые проблемы.

Общий объем БД – более 20 млн. документов. БД формируется по материалам периодических изданий, книг, фирменных изданий, материалов конференций, тезисов, патентов, нормативных документов, депонированных научных работ, 30% которых составляют российские источники. БД ВИНИТИ пополняются ежемесячно. Документы БД ВИНИТИ содержат библиографию, ключевые слова, рубрики и реферат первоисточника на русском языке.

База данных «Российская медицина»

База данных по медицине и здравоохранению создается в Центральной научной медицинской библиотеке (1988 год) и охватывает весь фонд ЦНМБ, начиная с этого года комплектования.

База содержит библиографические описания всех статей из отечественных журналов и сборников, диссертаций и их авторефератов, депонированных рукописей, неопубликованных переводов, а также отечественных и иностранных книг, сборников трудов институтов, материалы конференций, симпозиумов и т.д. Объем базы данных к началу 1999 года составлял около 500 тыс. записей. Обновление происходит ежемесячно. Тематически база данных охватывает все области медицины и связанные с ней области по биологии, биофизике, биохимии, психологии, ветеринарии и т.д. Основные элементы библиографического описания и дескрипторы (предметные рубрики) представлены на русском и английском языках. База данных «Российская медицина» содержит библиографические описания первоисточников, имеющиеся в ЦНМБ. База данных не содержит рефератов, полных текстов самих документов.

Информация о компаниях:

ABI/INFORM Global – бизнес, менеджмент, маркетинг, финансы и т.д.;

Academic Research Library;

Academic Research Newspapers (The New York Times, Wall Street Journal, USA TODAY and Barron's);

Academic Research Periodicals (статьи из научных журналов по искусству, культурологии, социальным и техническим наукам);

Accounting & Tax;

Accounting & Tax Newspapers;

Accounting & Tax Periodicals;

Applied Science & Tech Plus (поддерживается издательством Wilson): машиностроение, физика, телекоммуникации, транспорт и т.д.;

Banking Information Source;

Career and Technical Education;

Core and All Modules;

Health Module;

General Science Plus (поддерживается издательством Wilson);

Pharmaceutical News Index;

ProQuest Asian Business;

ProQuest Computing (компьютерный дизайн, программное обеспечение, коммерция в интранете, Интернете и т.д.);

ProQuest Education Complete (около 500 журналов по образованию);

ProQuest European Business;

ProQuest Medical Library;

ProQuest Telecommunications;

Religious Periodicals;

Social Science Plus (поддерживается издательством Wilson).

Тип объекта – статьи из журналов и газет. Источник данных – официальные публикуемые документы. Естественный язык – английский. Число элементов данных – 10. Обновляется раз в неделю. Протокол теледоступа – http. ИПЯ – язык библиографических данных, рубрикатор, язык ключевых слов. Доступ платный, возможно получение бесплатного доступа для тестирования базы.

Расписание доступа – круглосуточно. Перерыв в будние дни с 2 до 3 ночи, в выходные дни с 10 вечера субботы до 10 утра воскресенья (по местному времени).

Базы данных Интегрум-Техно

На сегодняшний день это самая крупная в России подборка баз данных, включающая полнотекстовые базы по законодательству, центральным и региональным периодическим изданиям, библиографические базы данных ЦНСХБ и ИНИОН и другие ценные источники. Имеет хорошие возможности составления запроса. Поиск может осуществляться как по отдельной базе, так и по всем сразу. Доступ к полным текстам документов осуществляется за плату.

Research Databases (Duke University Libraries)

Представлена информация о более чем 100 базах данных. Основной перечень расположен в алфавитном порядке. Описание состоит из заголовка базы и краткой аннотации. По ссылке More Info можно получить более подробное описание (сведения о тематике, типе описываемых материалов, хронологическом охвате и проч.).

Можно просмотреть список только полнотекстовых БД. Имеется возможность поиска БД по названию, словам из названия, по ключевым словам. Возможен подбор БД с помощью тематических разделов (Art and Architecture; Business and Economics; General Government, Law, and Politics; Health and Medicine; History; International and Area Studies; Literature and Film; Music; Newspapers; Reference; Religion and Philosophy; Science and Technology; Social Sciences).

Internets

Internets.com представляет собой поисковую систему, в которой проиндексировано более 1000 БД в Интернете по всем областям знаний. Кроме БД индексируются web-сайты. Поиск осуществляется либо по ключевым словам, либо по разделам – от общего раздела к более узким темам.

Результаты поиска представлены в виде мультипоисковой страницы. Она содержит: ссылки на другие разделы Internets.com, где может содержаться искомая информация; раздел новостей, список самих БД по теме (Searchable Databases), а также важный раздел InLine Databases, где полностью или частично представлены поисковые интерфейсы наиболее крупных БД по теме с возможностью осуществления поиска без захода на сами сайты этих БД. В некоторых случаях можно получить доступ к полнотекстовой информации.

 

5.2.3. Поиск и использование информационных ресурсов

Быстрое развитие информационной индустрии обусловливает необходимость создания системы управления этой отраслью на основе постоянного использования и совершенствования форм и методов мониторинга информационных ресурсов.

Информационная индустрия создает несколько классов продукции и услуг:

информационные системы, услуги системной интеграции;

программные продукты, услуги по их поддержке;

информационно-телекоммуникационные технологии и услуги;

информационные ресурсы, продукты и услуги.

Ниже будут рассмотрены вопросы мониторинга информационных ресурсов (ИР), а также информационных продуктов и услуг.

Главной целью мониторинга ИР является управление процессом создания и использования государственных ИР, в ходе которого решаются задачи:

устранение дублирования;

учет ресурсов как государственного имущества;

фискальные задачи;

обеспечение прозрачности деятельности государственных организаций;

обеспечение информационной безопасности и др.

На основе систем мониторинга ИР можно и нужно решать смежные задачи:

обеспечение навигации пользователей в информационном пространстве;

установление и охрана прав владения и собственности на ИР;

планирование деятельности информационных организаций;

коммерческий маркетинг, в частности, электронная торговля информационными продуктами.

Кратко охарактеризуем состояние мониторинга российских ИР. Сведения о российских ИР регулярно появляются в разного рода справочных и обзорно-аналитических изданиях, а также в специализированных журналах.

Среди каталожно-справочных изданий наибольшим охватом сведений известны: в сфере баз данных – каталог «Базы данных России», в области научно-технической информации – справочник «Информационные и телекоммуникационные центры»; в коммерческой сфере – каталог «Компьютерный мир от А до Я» [2]. Наиболее фундаментальными справочниками по архивам и по библиотекам до настоящего времени остаются издания 1996 – 1998 гг. Существует ограниченное число ведомственных справочников информационных ресурсов, среди которых заметно выделяется Каталог ресурсов Государственного банка цифровой геологической информации.

Наиболее подробно представлена информация об Интернете в многочисленных сетевых источниках, таких как РОЦИТ (rocit.ru), Rambler (rumetrica.rambler.ru), Yandex (yandex.ru/chisla, yandex.ru/yaca) и многих других, имеется как аналитическая, так и фактическая информация об информационных ресурсах российского сегмента Интернета и их использовании. Полезную информацию об интернет-ресурсах можно почерпнуть в регулярных приложениях к журналу «Информационные ресурсы России». Следует только иметь в виду, что ИР Интернета составляют небольшую (не более 10%) долю российских электронных ресурсов, которые, в свою очередь, составляют малую долю (2 – 4 %) ресурсов на других носителях. Так, для деловой информации, по экспертным оценкам, ИР Интернета содержат 1 – 2 стотысячные доли общего объема ИР.

Мониторинг информационных ресурсов осуществляется в трех основных формах:

а) учет и регистрация;

б) статистический учет;

в) аналитические исследования.

Состояние учета и регистрация ИР

В России функционируют несколько государственных систем, ставящих целью учет информационных ресурсов. Центральной среди них, безусловно, является Государственный регистр баз и банков данных, действующий на основе Федерального закона «Об информации, информатизации и защите информации», а также Временного положения о государственной регистрации баз и банков данных, утвержденного Постановлением Правительства РФ № 226 от 28 февраля 1996 г.

Однако следует иметь в виду, что норма закона «Об информации, информатизации и защите информации» предусматривает регистрации «всех информационных ресурсов». Очевидно, что по многим причинам эта норма может быть выполнена лишь отчасти: действующее Временное положение о регистрации распространяется в части обязательной регистрации на базы и банки данных, созданные за счет федерального бюджета. Другие государственные и негосударственные базы данных согласно этому Положению регистрируются добровольно.

Наряду с Государственным регистром баз и банков данных или во взаимодействии с ним функционируют специализированные, ведомственные и региональные системы учета и регистрации ресурсов.

Регистрация баз данных (а также программ для ЭВМ) в целях защиты авторского права предусмотрена законом «О правовой охране программ для ЭВМ и баз данных». Эта регистрация осуществляется в Федеральном институте промышленной собственности (в данном законе соответствующая служба именовалась РАПО – Российское агентство по охране авторских прав на программы для ЭВМ, базы данных и топологии микросхем). Однако регистрация прав на объекты авторского права российским законодательством не предусмотрена. Поэтому данная регистрация юридического значения не имеет.

ИР Интернета регистрируются в виде доменных имен web-хостов. Данная форма регистрации реализуется в соответствии с международными правилами и осуществляется неправительственными организациями.

Существуют многочисленные (несколько десятков) службы учета и регистрации ИР, представленных в виде отдельных видов документов – изданий (периодических и монографических), отчетов, стандартов, патентов, средств массовой информации или цифровых электронных объектов, таких как технологии двойного назначения, электронные модели хромосом, генетически измененные организмы, селекционные достижения и др.

Все эти службы обычно не рассматриваются как службы регистрации ресурсов, поскольку регистрация документов и информационных массивов интерпретируется как задача разного уровня. Хотя согласно официальному определению ИР и документы, и массивы являются видовыми по отношению к понятию «ИР».

Информационные массивы как таковые учитываются в двух крупных отраслевых службах – в Росархиве (Центральный фондовый каталог) и системе библиотечной статистики (ГИВЦ Минкультуры РФ). Существует также ряд отраслевых служб, функционирующих как часть Государственного регистра баз и банков данных. Наиболее развитые из них – система метаданных ФАПСИ, Каталог ресурсов Государственного банка цифровой геологической информации МПР РФ, база метаданных Госкомрыболовства.

Начаты работы по созданию служб учета ИР в таких крупных, с точки зрения ИР, ведомствах, как Минпромнауки, Минобразования, РАН. На уровне нормативных актов поставлена задача создания еще некоторых систем такого типа, например музейных фондов, картографических массивов.

Созданы службы учета и регистрации в нескольких десятках регионов. Некоторые из них (Санкт-Петербург, Калининград, Якутия, Великий Новгород и др.) созданы и функционируют по модели Государственного регистра баз и банков данных как его региональные части. В других случаях (Москва, Московская область и др.) модель регистрации иная – ресурсы рассматриваются не сами по себе, а только как компоненты некоторых информационных систем. Несмотря на некоторые положительные моменты, в целом существующие системы учета действуют неудовлетворительно: не вписаны в систему управления, не защищают прав владельцев, не осуществляют навигацию с должной полнотой. Кроме того, эти службы действуют несогласованно, не имеют общей методической и правовой основы.

Методология выбора системы статистических показателей

для информационных ресурсов

Создание системы государственной статистики в области информатизации вообще и в области ИР в частности признана одной из актуальных задач в области государственной политики в сфере информатизации. Эта задача поставлена в ФЦП «Электронная Россия».

Система статистики принципиально отличается от систем учета и регистрации тем, что основным инструментом статистического учета является показатель измеряемого объекта, в то время как для систем учета основным инструментом является идентификация объекта учета. Разработка системы показателей, хотя и тесно связана с проблемой определения объектов учета, тем не менее имеет свою специфику.

При выборе системы статистических показателей для ИР необходимо учитывать основные аспекты функционирования ИР. Можно выделить два аспекта: формирование (создание) и использование ресурсов.

Соответственно предлагается формировать систему показателей с учетом этих аспектов. Отдельно рассматривается возможность применения финансовых показателей как процессов формирования, так и использования ИР.

Особую роль в выборе системы статистических показателей для ИР играет преемственность по отношению к существующим ведомственным системам показателей.

Хотя понятие ИР является относительно новым (в нормативных актах оно появилось в 1990-х гг.), эта область включает некоторые уже сложившиеся системы ИР со своими системами учета и статистическими показателями (библиотечные, музейные, архивные, картографические, НТИ и др.). С другой стороны, сфера формирования и использования ИР включает такие объекты и услуги, по которым отсутствует всякая практика учета, например создание баз данных и информационное обслуживание граждан в органах власти. Существует богатая практика использования различных показателей формирования и использования электронных ИР в Интернете (счетчики и рейтинги), однако в ней слабо используют теорию и методику статистического учета.

Существенной проблемой для выбора и применения статистических показателей является практически поголовное игнорирование требования законодательства об учете ИР как имущества и отражении их в бухгалтерских документах (исключением являются сложившиеся системы учета в библиотеках, музеях, архивах и еще некоторых категориях организаций, в основном государственных). Это ведет к тому, что поступающие данные даже при доброй воле поставщиков информации не могут быть верифицированы.

Одним из важных источников данных для получения статистических показателей являются существующие справочники, каталоги, поисковые системы и другие инструменты навигации. Однако серьезными препятствиями являются несогласованность, неполнота и недостоверность имеющихся сведений об отечественных ИР, а также их распыленность. Данные разовых обследований ИР в той или иной области, даже если и дают возможность локального анализа состояния и тенденций информационной деятельности, достаточно быстро устаревают. Постоянная актуализация метаданных об ИР и достаточно частое проведение обширных обследований весьма трудоемки и затруднительны для отдельных (даже крупных) организаций, пытающихся заниматься мониторингом ИР. С другой стороны, использование такого мощного инструмента, как государственная система статистики, открывает для организации мониторинга принципиально новые возможности.

При разработке системы показателей для ИР следует учитывать, что имеющиеся различия в принципах, структуре, составе описания ИР, применение несовпадающих и не всегда хорошо продуманных подходов к классификации и группировке ИР и используемой терминологии приводят к несопоставимости данных, появляющихся в различных источниках. Особенно наглядно эта проблема проявляется в Интернете. Почти каждый каталог и портал предлагают свои, не совпадающие друг с другом системы классификации ИР. Проблемы классификации и описания интернет-ресурсов довольно остро стоят во всем мире, но в России пока не возникли достаточно крупные группы информационных организаций, активно проводящие единую политику в области разработки классификации и массовой каталогизации ИР.

Обзор существующих показателей формирования ресурсов

Рассмотрим сначала существующие подходы к выбору показателей ИР с точки зрения носителя – традиционных, электронных и микроносителей. Наиболее общим по отношению к исследуемому объекту является подход, разрабатываемый НТЦ «Информрегистр» в комплексе аналитических исследований ИР, прежде всего в регулярно подготавливаемом Национальном докладе «Информационные ресурсы России».

Идеология этого подхода заключается в интегральном подходе к показателям формирования и объема ИР. Принципиальным для оценки ресурсов является наличие в хранилищах тех или иных изданий, документов или данных, а вид носителя и технология доступа к этим ИР являются вторичными.

В то же время интегральный подход ведет в определенных случаях к дублированию данных или повторному счету. Во-первых, имеющиеся в стране системы ИР не разделены жестко и в ряде случаев пересекаются. Так, часть Архивного фонда РФ хранится в библиотеках и музеях, другая – в организациях, входящих в систему НТИ, еще одна значительная часть – на депозитарном хранении и в организациях-источниках. Система НТИ включает кроме непосредственно органов НТИ научно-технические библиотеки, которые одновременно входят в библиотечную сеть. Некоторая часть информационных фондов о природных ресурсах включена в библиотечную сеть и архивную сети или систему НТИ, другая часть существует самостоятельно. Неясен статус картографических фондов: кое-где они самостоятельны, в других случаях отнесены к библиотечным, архивным фондам или фондам НТИ. Таких примеров много, поэтому общая оценка весьма затруднена.

Другая проблема интегральной оценки заключается в многократном счете документов на различных носителях.

Третья и главная проблема – это методологические расхождения в составе показателей объема фондов в традиционных и компьютерных информационных подотраслях. Основными фактически используемыми показателями формирования ИР в традиционных информационных отраслях являются показатели состава и комплектования фондов. Для Интернета и других компьютерных технологий и систем (сферы информатизации в узком смысле) доминируют показатели числа компьютеров (серверов, хостов и др.), число ресурсов (страниц, документов), их объем в физических единицах.

Возможная альтернатива интегральному подходу – попытка организации учета ИР, изначально существующих в электронном виде и потому не входящих в систему учета традиционных фондов. Эта методология фактически лежала в основе создания Государственного регистра баз и банков данных. В 1980-х и в первой половине 1990-х гг. такая методология была вполне осмысленна, поскольку даже в библиотеках базы данных существовали как бы отдельно от основного режима формирования и использования библиотечных фондов. Тем более самостоятельно существовали информационные центры, генераторы и дистрибьюторы баз данных, изначально ориентированные на создание и распространение электронных информационных продуктов.

Начиная с середины 1990-х гг. бурный рост информатизации и особенно Интернета привел к фактической интеграции компьютерных и традиционных информационных технологий. В этой ситуации отдельный учет формирования и использования ИР как в традиционной, так и в электронной форме становится крайне затруднительным. Тем не менее в большинстве систем учета продолжаются усилия по ведению учетов традиционных и электронных ресурсов как самостоятельных. Пример тому – отчеты ГПНТБ России, а также действующая в настоящее время система статистической отчетности архивных фондов.

НТЦ «Информрегистр» в течение ряда лет публикует статистику по зарегистрированным БД, включая показатели:

общее количество БД (шт.), их объем (в Мб);

распределение БД (в %);

тип БД (фактографические, полнотекстовые, библиографические и проч.);

назначение (справочные, исследовательские, учебные и проч.);

форма собственности (федеральные, субъектов РФ, муниципальные, акционерные и проч.).

Количество БД, их объем и распределение по типам является общепринятым как для отечественного, так и для зарубежного опыта: подавляющее число исследований информационного производства и информационного рынка использует эти показатели.

Состав традиционного (книжного) фонда измеряется в иных показателях, чем это делается в книгоиздательской статистике, где отдельно учитываются книги, изоиздания, картографические издания и некоторые другие.

Принятые единицы измерения – экземпляры и наименования – используются по-разному для оценки состава фонда и его динамики.

Электронные издания (ЭИ) оцениваются отчасти в числе наименований, отчасти в физическом объеме (в Мб).

Для собственного производства объем ЭИ в HTML-формате учитывается отдельно. Для других форматов данных нет.

Поступления отечественных и иностранных документов учитываются отдельно, что связано с различными затратами на каталогизацию, но вносит дополнительные трудности при интеграции показателей.

В составе фонда число документов на микроносителях учитывается отдельно, в то время как в показателях комплектования этот вид носителя не учитывается.

Возникает много вопросов при оценке даже такой апробированной системы статистических показателей, какой является библиотечная статистика. Следует добавить, что в настоящее время в ТК 46 ИСО ведется разработка международного стандарта, регламентирующего статистические показатели электронного библиотечного обслуживания.

Для архивных учреждений основным показателем является состав фондов, включающий:

число фондов, имеющихся в данном учреждении, в том числе по видам архивных учреждений, видам документов или фондов, периодам, источникам комплектования;

число единиц хранения каждого фонда и в сумме для учреждения, в том числе по видам носителей;

количество создаваемых баз данных и их объем (в Мб).

Формирование ресурсов в традиционной форме отчасти отражается также в книгоиздательской статистике.

Следует обратить внимание на то, что подавляющее большинство печатных изданий в настоящее время готовится изначально в электронной форме, поэтому книгоиздательская статистика косвенно отражает и объем формируемых электронных ресурсов. Однако какая часть этих ресурсов попадает в доступ непосредственно в электронной форме, например через Интернет, неизвестно. Известно, что многие книги и журналы вновь сканируются в различных информационно-библиотечных технологиях, в частности при электронной доставке. Это один из примеров двойного счета.

Интерес представляют системы учета, применяемые в Интернете, особенно в российском. Приведем системы показателей объема ресурсов Интернета, используемые в наиболее известных порталах: Yandex (раздел «Числа») и Rambler (раздел «Руметрика»).

Показатели Yandex:

прямые величины:

количество уникальных серверов (шт.),

количество уникальных документов (шт.),

объем проиндексированной информации (Гб);

обратные величины:

средний размер одной страницы (документа) (Кб),

среднее количество страниц на одном сервере (шт.),

средний объем одного сервера, (Мб).

Практическое значение имеет суммарный объем всех проиндексированных уникальных документов. При этом речь идет только о текстовых документах. Файлы в графических и вообще в бинарных форматах не учитываются.

Кроме вышеприведенных показателей Yandex предлагает различные количественные данные о составе ИР Интернета, подсчитанные на основе каталога Yandex, который включает ресурсы, обработанные вручную, что, естественно, составляет небольшую часть общих ресурсов Интернета (по состоянию на июль 2002 г. каталог Yandex включал около 40 тыс. ресурсов).

Большой интерес представляют относительные значения показателей.

Каталог Yandex включает распределение ИР по тематике, регионам, назначению, источникам информации и даже по форме собственности. Последний показатель включает 3 значения: государственные, коммерческие, некоммерческие.

Государственные ИР, согласно данным этого каталога, составляют приблизительно 10% от общего числа каталогизированных ресурсов и приблизительно 30% от числа ресурсов, для которых в каталоге имеется какое-нибудь значение показателя «форма собственности».

Действующая нормативная база не позволяет последовательно и однозначно разделять ИР по форме собственности. Поэтому действующие системы указывают форму собственности ИР субъективно – либо по заявлению владельца (НТЦ «Информрегистр»), либо на основании косвенных данных (Yandex).

Другой известный портал – Rambler – предлагает показатели:

объем заиндексированных документов HTML;

количество уникальных документов: русских, английских, язык не определен;

количество уникальных URL;

количество Web-ресурсов.

Rambler индексирует домены .ru, .su, .ua, .by, .kz, .kg, .ge, .uz и некоторые русскоязычные ресурсы из доменов: .com, .net, .org. Графические изображения (картинки), MP3 и другие бинарные файлы не индексируются и при подсчете объема заиндексированных документов не учитываются.

В отличие от некоторых других поисковых машин Rambler, как правило, не индексирует чаты, конференции, доски объявлений и т.п., а также сайты, полностью построенные на 8-3946.php">⇐ Назад

  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 111213
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • Далее ⇒
  •