Универсальные поисковые машины

Поисковые машины - это роботизированные системы (Search Engines). Специальная программа-робот, которую называют паук (spider) или ползун (crawler), постоянно обходит Сеть в поисках новой информации, которую она вносит в базу данных. База данных содержит URL-адреса и проиндексированную информацию, связанную с этими адресами. Важными показателями качества поисковой машины являются объем базы данных (количество документов), скорость обхода Сети (с этим связана скорость обновления информации в базе данных), алгоритм индексации (только по ключевым словам Web-страницы или по всему тексту, с учетом морфологии или без него, с поиском по тэгам HTML - заголовкам, ссылкам, подписям к изображениям и другим), а также дополнительные возможности (расширенный поиск, поиск похожих документов, ограничение области поиска), удобный пользовательский интерфейс и справочная система.

Мощная поисковая машина обходит всю сеть за несколько дней. При этом составляется весьма свежий и довольно подробный индекс - опись доступных ресурсов. При каждом новом цикле обхода индекс обновляется, и старые недействительные адреса удаляются. Однако автоматизированный подход приводит к тому, что в индекс могут попасть дубликаты (один и тот же документ на разных сайтах, в разных кодировках). Поисковые машины индексируют фреймы покадрово, не индексируют редиректы, а иногда и скрипты. Кроме того, часть интернета для поисковых машин закрыта. Это информация, доступ к которой осуществляется по паролю, а также базы данных, доступ в которые осуществляется по запросу из формы (а не по ссылке).

Характеристики поисковых систем

Длина заголовка (title): не более 512 символов (Rambler), не более 203

символов(Yandex) не более 256 символов(Арог1).

Размер поисковой системы: (URL) - количество хранящихся в индексах адресов страниц; (DOC) - количество проиндексированных документов. Их, как правило, меньше чем (URL), т.к. по нескольким URL может находиться один и тот же документ; (SERV) - количество проиндексированных серверов. На одном сервере может располагаться от одной до нескольких тысяч страниц, поэтому данная цифра больше свидетельствует о широте охвата системы, чем об ее информационном объеме. От размера поисковой системы зависит, будет ли ваш веб-сайт представлен в ее индексах, сколько страниц веб-сайта будет проиндексировано и т.д.

Количество индексируемых в день страниц: Количество страниц, которые индексируются роботами поисковых систем за одни сутки. Чем выше данный параметр, тем чаще происходит переиндексация страниц, тем актуальнее информация в системе.

Период обновления страницы в индексах: Среднее и максимальное время, через которое происходит повторная индексация страницы. Содержимое многих веб-страниц часто меняется, некоторые страницы попросту исчезают, поэтому для поисковой системы немаловажно поддерживать актуальную информацию в своих индексах. Однако ссылки в поисковой системе могут быть как однодневной давности, так и не обновлявшимися несколько месяцев. Причина в том, что робот не возвращается на все страницы через одинаковый промежуток времени. На скорость обновления могут влиять следующие факторы:

- регистрация по запросу пользователя, при этом указанная страница заносится в индекс "вне очереди";

- зависимость скорости обновления от популярности страницы;

- зависимости скорости обновления от динамичности страницы.

Появление в индексах после регистрации: Время, через которое зарегистрированная пользователем страница появится в индексах системы. По идее робот поисковой системы рано или поздно найдет Вашу страницу, если на нее указывают другие веб-ресурсы. Но на практике гораздо быстрее это произойдет при их непосредственной регистрации (обычно ADD URL).

Появление в индексах незарегистрированных страниц: При регистрации (add url) пользователи, как правило, указывают URL главной страницы сайта. При этом поисковые системы обычно оперативно помещают в индексы указанную страницу и ставят весь остальной сайт в очередь на индексацию. Данный пункт указывает период, через который остальные страницы сайта появятся в индексах.

Глубина индексирования: Данный пункт показывает, сколько страниц помимо указанной будет индексировать поисковая система. Как правило, у крупных поисковых машин нет ограничения на глубину, и их роботы пытаются проиндексировать все страницы веб-сайта. Это не всегда получается, т.к. на их пути могут возникнуть преграды, такие, как фреймы, Image maps, динамически созданные страницы и т.д. Ряд поисковых систем (например, Lifoseek, Lycos) при индексации ограничиваются лишь некоторым количеством страниц веб-сайта. Количество страниц зависит как от самой системы, так и от популярности индексируемого ресурса.

Поддержка фреймов: Некоторые поисковые системы не понимают фреймовой структуры сайта. Вследствие этого практически все страницы вашего сайта могут быть не проиндексированы.

Поддержка ImageMaps: He все поисковые системы могут следовать по ссылкам, указанным посредством image maps. Вследствие этого некоторые страницы вашего сайта могут быть не проиндексированы.

Индексация закрытых разделов: Ряд поисковых машин могут индексировать защищенные разделы на серверах, если им указать login и пароль. Пользователь не сможет сразу перейти на защищенную страницу и изучить всю информацию, но благодаря поисковой системе он будет знать, что такая информация существует и, возможно, примет решение заплатить и получить к ней доступ.

Популярность веб-сайта: Поисковая система может определить "популярность" веб-сайта по количеству ссылок на него с других веб-ресурсов. "Популярность" может быть одним из факторов в принятии системой решения о том, индексировать данный веб-сайт или нет.

Определение частоты обновления: Некоторые поисковые машины определяют, насколько часто обновляются те или иные страницы. Данная информация помогает соответствующим образом спланировать график повторных визитов роботов для переиндексации страниц. Часто обновляемые ресурсы посещаются чаще, статичные страницы - реже. В силу некоторых обстоятельств администратор сайта может не желать индексации всех или определенных страниц своего веб-ресурса. Избежать индексации можно двумя путями:

- с помощью файла Robots.txt, размещенного на веб-сервере. Его
спецификации вы можете изучить по адресу
http://info.webcrawler.com/mak/projects/robots/exclusion.html

- при помощи специального мета-тега, который помещается на конкретную
страницу веб-сайта и предписывает роботам не заносить ее в индексы
системы.

Возможность проверки страницы на наличие в индексах: Очень полезная опция, которой обладают далеко не все поисковые машины. Позволяет определить наличие в индексах системы той или иной страницы и посмотреть, как она выглядит в системе. Синтаксис запроса для Rambler - $URL: host/url name

Синтаксис запроса для Yandex - попробовать добавить страницу на http://yandex.ru/addurl.htmX, если страница уже есть в индексах, система выдаст соответствующее сообщение. Синтаксис запроса для Апорта - url=www.promotion.aha.ru.

Возможность проверки наличия ссылок с других страниц: Для человека, занимающегося продвижением сервера, немаловажно знать, какие ресурсы сети содержат на него ссылку, в каком контексте эта ссылка используется и т.д. Поэтому возможность вывода сайтов, содержащих подобные ссылки, придает поисковой системе дополнительную ценность. Синтаксис запроса для Апорта - link=www.promotion.aha.ru (пока можно указывать только имя сервера).

 

Занятие 5. Поиск информации в сети. Современные интернет-технологии.

1. Средства и способы поиска. White- и yellow- поиск.

2. Поиск по иерархическому классификатору и по ключевым словам.

3.Язык запросов. Основные операторы.

4.Поиск с расстоянием.

1.Средства и способы поиска. White- и yellow- поиск.

 

Для решения стандартных, часто встречающихся поисковых задач сеть имеет стандартные же средства - мощные инструменты, разработанные именно для этой цели. Эти основные средства поиска работают автоматически, а значит, отвечают на запрос достаточно быстро и им не надоедает множество запросов от одного абонента.

Дополнительные способы поиска используют возможности, предоставляемые некоторыми другими службами сети, ее персоналом, а также ее абонентами, которые могут как-то способствовать поиску. Эти способы являются дополнительными, поскольку они:

• либо не предназначены для массового использования;

• либо не являются универсальными (накапливают адреса в недостаточном объеме или по узким направлениям);

• либо не являются стандартными или обязательными для того, кто их предоставляет (то есть, вообще говоря, нет гарантии, что на запрос хоть как-то ответят).

Характерным примером такого дополнительного способа поиска является публикация запроса ("крика о помощи") в соответствующей телеконференции - есть некоторая вероятность, что кто-нибудь отзовется по существу, но могут и промолчать.

Ниже в основном описываются средства и способы поиска, а круг решаемых ими задач ясен из описания. Это оказалось удобнее, чем сначала называть задачи, а затем перечислять пути их решения.

Если вы хотите, чтобы и вас могли найти при помощи поисковых служб Интернет, то не забывайте оставлять о себе информацию на поисковых серверах, которые предоставляют эту возможность.

Большинство систем предлагают "зарегистрироваться", т.е. заполнить форму своими координатами. Обычно регистрация не обязательна, хотя бывают и исключения. Часто регистрация позволяет пользоваться дополнительными возможностями поиска.

Для целей дальнейшего изложения следует различать white-поиск и yellow-поиск. Понимание того, что является исходными данными и что результатом, весьма полезно как само по себе, так и для ориентации среди многочисленных поисковых средств Интернет.

Под White-поиском понимается поиск адреса одного конкретного адресата по его достаточно определенному имени (человека - по фамилии, организации - по названию). "Достаточно определенное имя" означает, что объект поиска заранее известен: есть уверенность в его существовании и предлагаемое для поиска его имя вполне уникально.

Yellow-поиск предназначен для поиска информации не только по конкретному собственному имени адресата (человека, организации), но и по неким общим признакам, когда конкретное имя не определено, а есть целая область поиска, например “фирмы, производящие легковые автомобили”, “что-нибудь о телескопах”.