Источники данных для анализа

При обращении пользователя к сайту происходит сразу несколько событий:

1. Клиент передает на WWW-сервер запрос на выдачу страницы, при этом на сервере становятся известны:

a. Обязательные параметры: IP-адрес клиента, запрашиваемый URL, дата и время запроса. По IP-адресу можно определить географическое положение клиента.

b. Дополнительные (необязательные, но обычно передаваемые) параметры: используемое клиентом ПО, URL документа с которого произошел переход, имя пользователя и пароль для защищенных страниц и т.д.

2. Сервер возвращает клиенту запрошенный документ (HTML или картинку).

3. Сервер записывает данные о произошедшей транзакции в журнальный файл(log-файл). Пример нескольких записей журнального файла показан на рис. 1.

 

62.205.178.34 [17/Jun/2005:00:06:52 +0400] "/apache-talk/msg05126.html HTTP/1.1" 12854 "http://www.yandex.ru/yandsearch?rpt=rad&text=RFC1945" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; .NET CLR 1.1.4322)" "ruid=0000000142B1DAE9000092EA03030F02"   62.205.178.34 [17/Jun/2005:00:06:52 +0400] "image/color_logo.gif HTTP/1.1" 2649 "http://www.lexa.ru/apache-talk/msg05126.html" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; .NET CLR 1.1.4322)" "ruid=0000000142B1DAE9000092EA03030F02"   Рис. 1. Пример записей в log-файле: получение HTML-страницы (1-я запись) и вложенной в нее картинки (2-я). Оставлены только существенные для изложения поля данных (в порядке следования: IP-адрес, дата, URL, размер документа, URL ссылающейся страницы, название пользовательского ПО и идентификатор пользователя).

 

 


Как правило, web-документы являются составными т.е. состоят из HTML-текста и какого-то количества вставленных в текст изображений. Необходимо упомянуть такие особенности составных документов:

· Для каждого вложенного документа (изображения, текста в фрейме, стилевого файла и т.п.) пользовательский браузер делает отдельный запрос.

· Элементы составного документа могут браться с нескольких WWW-серверов (URL вложенных элементов описываются во внешнем). В этом случае в журнальных файлах этих серверов появятся записи о запросе клиента.

Журнальные файлы представляют собой «сырые данные», в них содержится вся необходимая информация, никаких других данных в большинстве случаев не существует.

Подсчет посетителей.

Для подсчета посетителей используется технология «cookie», которая заключается в следующем:

1. При первом посещении сайта клиентскому браузеру выдается уникальный идентификатор (cookie), по сути это простая текстовая строчка.

2. При последующих просмотрах страниц сайта, браузер сообщает этот идентификатор выдавшему сайту (и только ему), таким образом можно отследить как нескольких пользователей, приходящих с одного IP-адреса, так и одного пользователя, приходящего с разных IP-адресов.

На сегодняшний день для большинства сайтов этот метод является единственным способом отследить пользователей без их регистрации (и последующего ввода имени-пароля). В то же время, cookie у пользователя теряют по многим причинам: согласно современным оценкам от 10 до 30% пользователей в течение месяца очищают (или теряют) cookie. Это приводит к тому, что оценка количества новых пользователей оказывается завышенной.

Точность подсчетов

Реальная жизнь несколько сложнее описанной выше простой схемы. Аккуратный подсчет статистики сайта затрудняется по следующим причинам:

· Часть пользователей выходит в интернет с разделением одного IP-адреса между многими пользователями. Это происходит при разделении одного ADSL-соединения между несколькими клиентами, при использовании корпоративных «серверов-посредников» (proxy server) и т.п.

· Часть пользователей меняет свой IP-адрес в процессе работы (восстановление после обрыва dialup-соединения может происходить со сменой адреса).

· Используются персональные и корпоративные «файрволлы» (firewall) и анонимизаторы, которые не дают передавать cookies и другие необязательные данные запроса.

· Часть обращений к сайтам не происходит т.к. страница берется с локального диска пользователя (если она была скачана ранее) или из WWW-акселератора провайдера (если другие пользователи провайдера уже обращались к данной странице).

Вследствие этих причин, полученные статистическими сервисами данные отличаются от реальных. Не существует каких-то корректных способов оценить величину отклонения «реальности» от измеренных характеристик, однако принято считать что отклонения не превышают 5-10%. В то же время, если аудитория сайта достаточно велика и нет оснований полагать, что она резко меняется (например, вследствие активной рекламы на ресурсах с большой посещаемостью), то можно считать ошибку измерения постоянной и успешно сравнивать данные по соседним дням, неделям, месяцам.

4. Обработка данных: собственный анализ данных или счетчик ?

На сегодня существуют два основных способа обработки исходных данных о посещаемости:

1. Накопление журнальных файлов у себя и их самостоятельный анализ с помощью программы анализа логов. Требуется покупка и установка соответствующей программы и регулярные усилия по получению и обработке данных.

2. Использование сервиса обработки данных (счетчика). В этом случае третьей стороной ведется журнал загрузок элемента сайта (обычно картинки), эти данные обрабатываются и предоставляются потребителю в обработанном виде.

Каждый из этих способов имеет свои особенности, достоинства и недостатки. Основные параметры двух способов обработки данных сведены в таблицу 1.

Основные различия между собственной обработкой данных и сервисом можно свести к следующему:

· Сервис (счетчик) дешевле по стартовым затратам, начать его использовать можно через несколько минут. Получаемые результаты (набор отчетов и их точность) ограничены возможностями, предоставляемыми сервисом.

· Собственная обработка журнальных файлов требует относительно больших денежных и временных затрат на стадии внедрения, однако обеспечивает большую гибкость при дальнейшей эксплуатации.

· Часть отчетов доступна только для одной из технологий, в частности:

o Сравнение аудиторий невозможно сделать средствами анализа только собственных журнальных файлов.

o Анализ заходов роботов классическими счетчиками невозможен, а предлагаемые ими решения имеют серьезные недостатки.

· Установка счетчика (особенно, многих счетчиков) замедляет доступ клиента к сайту, в ряде случаев вызывает раздражение.

Таким образом, выбор средств анализа статистики должен производиться исходя из имеющихся задач.


Табл. 1: Анализаторы логов и счетчики: сравнительные характеристики

1. Параметр 2. Счетчики 3. Анализаторы логов
Стоимость установки и эксплуатации Бесплатно или месячная оплата ($5-50/мес. и выше) Разовая оплата или бесплатно. Встречается схема аренды ПО (ежегодная оплата)
Трудоемкость установки и эксплуатации Небольшая: требуется установка «кода» (фрагмента HTML) на всех страницах сайта (в шаблоне). Требуется установка программы на сервере, где расположен сайт, либо регулярное копирование log-файлов на обрабатывающую машину. Для подсчета посетителей может потребоваться дополнительная настройка WWW-сервера.
Доступность результатов анализа. Real-time для данных за сегодня, с задержкой для длинных периодов. Подробные данные хранятся не слишком долго. Обсчет требует времени, для сайтов с посещаемостью в тысячи посетителей в день и менее это время невелико.
Доступность исходных данных (log-файлов) Данные накапливаются у владельца сервиса, переход на другой сервис невозможен. Как правило, исходные данные долго не хранятся Данные остаются у владельца сайта.
Потери данных Рядовое явление – при перегрузке сервиса счетчика часть посещений не считается. Журнальные файлы могут быть утеряны из-за аварии или некомпетентности системного администратора.
Доступные типы статистики
Общая посещаемость сайта + +
Посещаемость отдельных страниц и групп страниц + +
Переходы по ссылкам с других сайтов + +
Трафик с поисковых систем. + (детальный анализ поисковых фраз – не для всех счетчиков) +
Заходы поисковых роботов Классические счетчики не отслеживают. Решения этой проблемы для счетчиков имеют свои недостатки. +
Сравнение аудитории с конкурентами +( технологически возможно, политически – не всегда) - (нет данных конкурента для анализа)
Соц.-дем. характеристики аудитории -+ (возможно для крупных счетчиков, однако услуги нет) -
География посетителей + +- (требуется источник данных о географии)
Фильтрация данных по критериям (источник трафика, точка продаж) -+ (возможности ограничены) +- (не все анализаторы, хотя возможна фильтрация исходных данных внешней программой)

 

5. Счетчики: возможности, достоинства и недостатки