Формат записи файла robots.txt

Тема 3

Поисковые системы и алгоритмы работы. Карта сайта, Робот тхт.

I. Алгоритмы работы ПС

1. Краулер (crawler) - считывает информацию переходя по ссылкам.

2. Спайдер (spider) - скачивает сайт в модуль индексации.

3. Фильтры.

4. Модуль ранжирования - расставляет позиции.

5. Все хранится в базе данных - Индексе.

Важные факторы

1. Ссылки:

Внутренние

Внешние

2. Что учитывается:

- анкор;

- Page Rank;

- околоанкорный текст;

- тематичность донора;

- количество внешних ссылок;

- расположение ссылки на странице;

- наличие уникального текста на странице;

- отсутствие скрытого контента;

- посещаемость страницы;

3.Что делаем:

- полная проверка внутреннего фактора;

- проверка на дубли;

- проверка на переспам;

- чистка ссылочной массы;

- составление качественного анкор-листа;

- использование разбавки;

- плавное наращивание ссылочной массы.

4. Внутренние факторы:

Домен — имя вашего сайта, которое в большинстве своём определят его судьбу (не логично к примеру будет писать про политику на домене с именем music.ru). Включение в домен ключевого слово благоприятно влияет на продвижение сайта по заданному ключу. Однако не стоит так кропотливо относиться к данному факту — в большинстве будет правильным присвоить название компании к домену. Это крупица, которой лучше пожертвовать, чем ухудшать включением несвязными словами. Также домен не должен быть слишком большим, содержать повторяющиеся слова и иметь ошибки. Это не только не красиво, но также и негативно влияет со стороны поисковых систем. Если же Вы все таки решите использовать ключевые слова, то прибегните к транслиту (продвижение=prodvizhenie), т.к. перевод на английский не всегда даёт должный результат.

URL адрес страницы — внутренний фактор, который даёт неплохие результаты, несмотря на свою простоту. Суть заключается в применении в названии страниц ключевых слов в транслите. Также важно указывать расширение страницы сайта (php,html). Я изначально негативно отношусь в идеи кириллицы в домене. Латиница наиболее правильно и полно воспринимается всеми поисковыми системами без исключения, чем не может похвастаться русскоязычный сегмент доменов. Также данное правило применительно и к названию картинок, которые размещаются на веб сайте.

Заголовок страницы. Тег Title отображается в верхнем (синем) блоке браузера и указывает название той или иной страницы сайта. Имеет весьма солидное влияние на релевантность. Однако не следует забыть, что текст находящийся в данном теге, должен быть связан со страницей сайта. Также не стоит злоупотреблять повторением ключевых слов и несвязанным заголовком. Должен быть уникальным.

Заголовки H1/ H2/ H3 — Без сомнения, компоновка и группировка текста с разделением на заголовки позитивно влияет на восприятие. Так считают не только читатели, но и поисковики. Ключевые слова, находящиеся в данных заголовках имеют больший вес, чем в тексте. Важная особенность — чем заголовок главнее, тем текст имеет большее значение. К примеру H1 будет примерно в 10 раз важнее H10

Описание. Тег description служит для краткого описания страницы. Учитывается поисковым роботом. Google в большинстве своем ставит связанный текст данного тега в снипет(краткое описание страницы в поисковой выдачи), чем не может похвастаться Yandex.

Тег ключевых слов keywords позволяет сообщить под какие ключевые фразы заточен текст. Многие рекомендуют употреблять слова без запятых, полагая что ПС сама выберет подходящие.

Частота ключевого слова означает как часто было использовано слово в тексте. Основателем оценки считается человек с фамилией Zipf. он предложил следующую теорию: любое слово в русском языке имеет свою популярность употребления. К примеру слово «Мама» намного популярнее, чем «позитрон», а следовательно и более значимое. Если применить данное правило к внутреннему Seo — чем чаще мы используем ключевик, тем он более значимый. Однако существуют ограничения (5-8%), перешагнув которые можно подхватить фильтры за спамность.

Плотность ключевого слова в тексте — важный фактор оптимизации, заключающийся в нахождении ключевых слов друг к другу. Т.е. чем ближе ключи между собой, тем плотность больше. Оптимизаторы также называют данный фактор «тошнотность». Не стоит злоупотреблять, что бы ваших читателей буквально не тошнило от чрезмерной плотности.

Важность (близость) слова. Обычно важные новости по ТВ показывают первыми, а в газетах на первых полосах обложек. Так же и здесь. Чем текст ближе к началу документа, тем он более важен. Нужно следовать правилу — плотность ключевика должна быть выше в начале текста, с последующим равномерным распределением по оставшейся части.

Цельность слова. Если ключевик состоит из 2 или 3 слов, то это уже фраза, которая может быть разбита. Как раз плотность разбитых частей ключевой фразы в тексте значимо.

Название и описание картинки. Тег Alt и title. Картинки важны для продвижения и являются значимыми факторами. Однако как рассказать ПС что это за картинка? Как раз для этого и придумали тег ALT — название картинки (появляется, если по какой-либо причине картинка не загрузилась). Тег TITLE служит описанием, которое всплывает при наведении курсора на графику.

Выделение текста «B», подчеркивание «U» и курсив «I» позволяют выделять слова в тексте. Поисковик конечно же это видит и реагирует. Стоит знать, что сейчас лучше употреблять «strong» место «b», а также не подчеркивать слова. В интернете сложилось правило — если слово подчеркнуто, то это активная гиперсылка. Не стоит вводить в заблуждение посетителей.

Размер статьи. Не стоит писать большие тексты (портянки). Минимально-рекомендованный размер составляет 300 слов, максимальный 700. Это не правило, а скорее рекомендации.

Размерность пассажа. Пассаж — правильное предложение. Разделителем является точка, восклицание, вопросительный знак. Оптимизаторы сходятся в том, что предложения должны иметь не более 64 слова, так как последующие не будут учитываться. некоторая доля логики в этом и вправду есть.

Скорость загрузки страниц — внутренний фактор продвижения, который имеет весьма весомое значение. Если сайт будет открываться долго, либо время от времени не будет доступным — провал в позициях ему обеспечен.

Перелинковка страниц — указание ссылок в тексте на другие страницы сайта. При этом каждая ссылка имеет анкор, который связан логически с контентом по ссылке, а также самим текстом ссылаемой статьи. Данный метод позволяет не только удержать посетителей на сайте и заинтересовать их другими статьями, но также ускорить индексацию новых страниц сайта, равномерно распределить внутренний вес и обозначить наиболее главные страницы сайта

II/ robots.txt
robots.txt - особый файл (точнее, это - обычный текстовый файл с расширением txt, но составленный особым образом), лежащий в корневой директории сайта (например, если сайт имеет адрес [url]http://filosofia.ru/[/url], то файл robots.txt должен находиться по адресу: [url]http://filosofia.ru/robots.txt)[/url].

Обратите внимание: имя файла и расширение надо писать в нижнем регистре! Любой поисковик, заходя на какой-либо сайт, прежде всего, проверит наличие и содержимое файла robots.txt. И, уже исходя из полученной информации, будет осуществлять свою дальнейшую деятельность на этом сайте. На одном сайте может быть только один файл robots.txt. Если робот не находит файл исключений для поисковых роботов, то он действует на сайте по своему собственному алгоритму (делает что хочет :-)).

Формат записи файла robots.txt

В файле robots.txt указывается: какому роботу и что НЕ надо индексировать на сервере. Вообще, записи в этом файле составлены из нескольких групп инструкций, а проще говоря - блоков (разделяемых пустой строкой), каждый из которых предназначен для одного или нескольких роботов. Название робота указывается в первой строке блока (параметр User-agent, его наличие в robots.txt обязательно):

User-agent: robot1 robot2 robot3, где:

robot1, robot2 и robot3 - названия поисковых роботов. Например:

User-agent: WebCrawler Lycos StackRambler

Как видите, названия поисковых роботов иногда отличаются от названий поисковых систем (в нашем примере: робота поисковой системы Rambler "зовут" StackRambler). В большинстве случаев, однако, писать названия роботов не требуется. Достаточно просто написать:

User-agent: *, здесь знак "*" означает, что запись относится ко всем роботам (в файле может быть только одна такая строка).

Далее идёт вторая строка:

Disallow: путь, где:

путь - часть URI, который запрещено посещать роботу. Можно указывать полностью или частично (любой URI, начинающийся с указанного значения роботу посещать запрещено). Для каждого объекта, запрещённого к индексации нужно писать отдельный Dissallow.

Обратите внимание: указываются не абсолютные, а относительные пути.

Например:

Disallow: /topsecret/ - запрещает доступ к директории с таким именем, но не запрещает файлы с таким именем, т.е. файл topsecret.html будет проиндексирован, а все файлы в директории /topsecret/ - нет.

Disallow: /privat - запрещает доступ как к директориям с таким именем, так и к файлам.

Disallow: /folder/file.htm - запрещает доступ к определённому файлу в определённой директории.

Из примера видно, что для каждого объекта, запрещённого к индексированию, записывается отдельная строка Disallow. Пустое значение параметра Disallow означает, что все URL могут загружаться. В файле robots.txt должен быть, по крайней мере, один параметр Disallow. Параметр Disallow всегда относится только к предшествующему параметру User-agent, поэтому для каждого параметра User-agent нужно задавать свои параметры Disallow.

Примеры записи файлов

Проще всего понять синтаксис файла robots.txt и научиться грамотно его использовать можно на конкретных примерах. Ниже приведены примеры нескольких типичных записей в этот файл.

Пример 1.

# robots.txt file for http://dengi.filosofia.ru/
# contact webmaster@filosofia.ru for critics

User-agent: StackRambler Googlebot
Disallow:

User-agent: *
Disallow: /tmp/
Disallow: /logs/

Значок # означает комментарий. Комментарии лучше писать на отдельной строке.

В этом примере всем роботам запрещается посещать директории tmp и logs, и только роботам StackRambler и Googlebot разрешено посещать всё.

Пример 2.

# I hate search engines!

User-agent: *
Disallow: /

В этом примере всем роботам запрещена любая деятельность на сайте.

Пример 3.

User-agent: *
Disallow: /private/letters/
# This is top secret directory.
Disallow: /cgi-bin/
Disallow: /anektods.html

В этом примере всем роботам запрещается посещать страницы, находящиеся в директориях /private/letters/ и /cgi-bin/, а так же файл anektods.html.

Пример 4.

User-agent: *
Disallow:

Это самый простой случай. Всем роботам можно обрабатывать любые документы на сервере.

Проблемы безопасности

Использование на своём сайте файла robots.txt хранит в себе потенциальную опасность. Вы можете пострадать от действий злоумышленников. Если кто-то наберёт в адресной строке броузера непосредственно адрес этого файла, ему станет известно, какие каталоги и файлы администратор пытается скрыть от посторонних глаз. Затем можно в строке броузера набирать прямой путь к этим "секретным объектам" и спокойно их лицезреть. Это называется "чёрный ход".

Как же защитить информацию от посторонних? Самое очевидное - не размещать её на общедоступных ресурсах. Если это действительно важная информация, зачем выкладывать её в глобальную Сеть? Если же информацию всё-таки надо выложить, используйте в заголовках документов мета-тег "robots". И установите надлежащую систему аутентификации.

III. Sitemap

Sitemap придумали для возможности в стандартизированной форме передовать поисковым системам список страниц сайта, подлежащих к индексации. Sitemap.XML представляет собой файл XML-формата, где перечислены адреса страниц сайта с указанием даты последнего изменения, условной "важности" страницы и частоты её обновления.

Создать можно здесь:

XML-Sitemaps.com

IV. Полезный сервис

Адрес:http://www.cy-pr.com

Удобный СЕО сервис, позволяющий получить мгновенный снимок состояния веб-сайта, его основных показателей .

Все, что необходимо, это ввести URL интересующей страницы, далее СЕО сервис выполнит всю работу самостоятельно и предоставит всевозможную информацию о странице. Единственное, что необходимо учитывать – так это указывать URL в правильной форме, т.е. с www или без. Иначе сервис предоставит ложные сведения.