Что такое лог-файлы. Анализ лог-файлов
Лог-файл (или просто лог) - это главный источник информации о поведении посетителя на вашем Web-сайте. Когда кто-то заходит на сайт, лог-файл записывает, например, какие ключевые слова он использовал, чтобы найти ваш ресурс, какие страницы посетил, насколько там задержался и т.д.
Каждое обращение к сайту фиксируется сервером и о нем остается запись в лог-файле. По этим записям можно узнать огромное количество информации о посетителях. Лог-файл сервера представляет собой текстовый файл, в котором в особом формате записаны все данные об обращениях к сайту.
При обращении пользователя к сайту происходит сразу несколько событий.
Событие 1. Запрос страницы.
Браузер посетителя передает на сервер (на котором находится сайт) запрос на выдачу страницы. При этом на сервере становится известной следующая информация:
- IP-адрес посетителя;
- Запрашиваемый URL;
- Дата и время запроса;
- Географическое положение клиента;
- Используемый пользователем браузер;
- Адрес страницы с которой зашел посетитель и т.д.
Событие 2. Выдача страницы.
Сервер возвращает клиенту запрошенный документ (страницу, картинку, файл и пр.).
Событие 3. Запись в лог.
Сервер записывает данные о произошедшей транзакции в журнал событий (лог-файл).
Пример записей в лог-файле.
213.180.195.231 - - [29/Jan/2007:00:07:17 +0000] "GET /excel/lsn015.html HTTP/1.1" 200 18918 "-" "YaDirectBot/1.0"
74.6.71.37 - - [29/Jan/2007:00:13:03 +0000] "GET /eralash HTTP/1.0" 301 317 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
74.6.71.37 - - [29/Jan/2007:00:13:06 +0000] "GET /eralash/ HTTP/1.0" 200 12234 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
213.186.116.166 - - [29/Jan/2007:00:26:51 +0000] "GET /eralash/soft/speed.zip HTTP/1.0" 200 217872 "-" "Wget/1.10.2 (Red Hat modified)"
213.180.207.25 - - [29/Jan/2007:00:27:14 +0000] "GET /robots.txt HTTP/1.1" 200 54 "-" "Yandex/1.01.001 (compatible; Win16; I)"
Лог-файлы представляют собой сырые данные, которые необходимо обработать. Качество обработки и определяет качество статистики.
В лог-файлах сайта содержится вся необходимая информация, которой вполне достаточно, чтобы знать все об аудитории, которая посещает сайт.
Следует иметь ввиду, что абсолютно "реальную" статистику получить практически невозможно, в силу ряда технических причин. Не существует каких-то корректных способов оценить величину отклонения "реальности" от измеренных характеристик, однако принято считать, что эти отклонения в среднем не превышают 5-10%. Если сайт живет "размеренной жизнью" (не проводятся активные рекламные кампании и проч.), то можно считать ошибку измерения постоянной и успешно сравнивать между собой данные по соседним дням, неделям и месяцам.
Существуют специализированные программы для работы с лог-файлами - это, так называемые, анализаторы лог-файлов. Наиболее известные - Analog, Webalizer, Webtrends, NetPromoter, WebAnalizer.
На данном сайте представлена оригинальная разработка для анализа лог-файлов - Loganalyzer. С помощью ЛОГАНАЛИЗАТОРА можно определить следующие статистические данные:
Общая статистика:
- Хосты;
- Посетители;
- Просмотры;
- Поисковики.
Обращения к страницам:
- URL страницы;
- Количество посещений;
- Заходы с поисковиков;
- Трафик (Мб);
- Поддерживаемые поисковики: Yandex, Google, Rambler, Апорт, Майл.ру, Webalta
Рефереры:
- Домены;
- URL;
Поисковые запросы:
- Текст запроса;
- Количество запросов;
- Поддерживаемые поисковики: Yandex, Google, Rambler, Апорт, Майл.ру, Webalta
Поисковики:
- Наименование паука;
- Количество запросов;
- URL страницы;
- Код;
- IP паука;
- Дата запроса;
- Поддерживаемые поисковики: Yandex, Google, Rambler, Апорт, Webalta
Более подробно с программой можно ознакомиться на странице ЛОГАНАЛИЗАТОРА.