Проблемы индексирования

Изначально целью поисковиков было проиндексировать веб-страницы, т.е. тексты в формате HTML, выложенные на сайт и отображаемые веб-сервером по протоколу HTTP. Позже обнаружилось, что много полезной информации выложено в Интернете в виде статей, прейскурантов, документации, руководств и т.п. в разных "офисных" форматах. Поэтому большинство поисковиков в 2004–2007 гг. начали индексировать выложенные на сайт документы в форматах MS Word, PDF и MS Excel. Широкое распространение динамических страниц в формате Flash заставило поисковики индексировать и тексты, скрытые в этом формате файлов.

Однако не стоит рассчитывать на индексацию вашей информации в этих экзотических для Интернета форматах, поскольку нет гарантии, что поисковик заиндексирует их хорошо. Если есть возможность, всегда следует дублировать на сайте любые важные тексты в формате HTML.

Например, нужно всегда иметь прейскурант в виде обычной веб-страницы, потому что до прейскуранта в формате Excel поисковик может не добраться, а если и доберется, то индексация, поиск и показ его в результатах поиска будут обязательно хромать, поскольку поисковики не умеют разбирать структуру Excel-файлов так же хорошо, как HTML- страниц.

Заметим, что поисковики не индексируют тексты, которые выводятся на экран пользователя динамически разными программными средствами наподобие сценариев на языке Java Script.

Теоретически глубина и объем индексации ограничений не имеют, однако на практике поисковик нс станет выкачивать с вашего сайта миллионы страниц (если они там есть). Ведь у поисковика в очереди на индексацию кроме вашего сайта стоят миллионы других сайтов, поэтому он старается за один раз, за один проход взять с каждого сайта некоторое разумное количество страниц. На следующем цикле индексации поисковик может взять еще какое-то количество ваших страниц и т.д. Чтобы не брать каждый раз слишком много, поисковик старается не погружаться слишком глубоко по ссылкам внутрь вашего сайта.

Это означает, что даже при большом количестве страниц сайт должен быть разумно организован, скажем, не должно быть страниц, до которых можно добраться только по цепочке из десяти ссылок.

Очень часто сайты с большим объемом данных хранят свои страницы в какой-либо базе данных (например, MySQL или Microsoft SQL Server). Это гораздо удобнее для хранения и обновления сайта, поскольку база данных позволяет легко добавлять, модифицировать и удалять информацию.

Как поисковики обращаются с такими сайтами, могут ли они их индексировать?

Ответ тут простой: если страницы сайта выдаются из базы данных при переходе по ссылкам внутри сайта, то поисковику в принципе все равно, откуда они берутся при подобном переходе. Находится ли страница на сайте или генерируется динамически при переходе по ссылке – для индексации неважно. А вот если для получения страницы пользователь должен обязательно ввести какой-то запрос к базе данных, то поисковик таких страниц просто "не видит".

Таким образом, при создании сайта нужно помнить, что поисковик индексирует на вашем сайте только то, на что есть гипертекстовая ссылка. Большие базы данных с единственным способом доступа к их содержимому в виде окна поиска для поисковика невидимы. Таких баз в Интернете много, именно поэтому говорят о "глубинном Интернете", который невидим поисковикам и который больше видимого в десятки или даже сотни раз.

Как часто поисковая машина обходит Интернет?

Более точно этот вопрос можно сформулировать так: как быстро новые страницы появляются в индексе поисковика и как часто поисковик их потом обновляет?

Безусловно, идеальный поисковик должен иметь всякую страницу в своем индексе сразу же, как только она появилась. И существующие поисковики к этому стремятся. Однако огромный объем Интернета ставит здесь свои препятствия и ограничения.

От обхода раз в месяц в начале текущего века Яндекс и Рамблер к настоящему времени добрались до еженедельной индексации. Однако поскольку есть такие типы информации (новости, цены, курсы валют), для которых обновление раз в неделю – это чрезвычайно медленно, поисковики имеют специального "быстрого робота", который может обходить быстро изменяющиеся сайты по нескольку раз в день.

Каким образом сайты попадают в списки такого "быстрого робота" – отдельный разговор. Поисковик имеет механизмы самообучения "быстрого робота". Если ваш сайт уже достаточно авторитетен (имеет высокий ссылочный ранг) и при этом имеет много страниц, которые часто изменяются, у него довольно много шансов быть замеченным "быстрым роботом".