|
В марте прошлого года (запись в блоге автора от 03.12.2007, [1]) программный инженер компании Apple, Эндрю Вустер, провёл исследование файлов управления поисковыми роботами (robots.txt). Исследование проводилось для сайтов, включённых в каталог DMOZ. Главным выводом исследования стало то, что каждый четвёртый сайт имеет ошибки в файле robots.txt. При этом у 65% сайтов в данном каталоге этот файл вообще отсутствовал.
Исследований русскоязычного сегмента Интернет на предмет корректности файла robots.txt ранее не проводилось. В качестве источника сайтов мы выбрали самый большой русскоязычный каталог – каталог сайтов поисковой системы Яндекс.
Цели исследования
Определить качественный уровень грамотности вебмастеров сайтов, размещенных в каталоге Яндекса.
Определить, насколько профессионально используется файл управления индексацией сайта robots.txt.
Сравнить полученные результаты с аналогичными для сайтов, описанных в каталоге DMOZ.
Методы и средства
На момент исследования в каталоге Яндекса было зарегистрировано 86534 сайта. Посредством автоматического сбора был составлен список из 77643 уникальных доменных имён из 75 доменных зон.
Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать главный домен, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д. ([3]).
Исследовались следующие параметры файла robots.txt:
- статус коды ответов серверов,
- mime типы для файлов robots.txt,
- наличие и правильность указания кодировки в заголовке ответа сервера,
- проверка корректности синтаксиса и орфографии при написании директив,
- использование специализированных команд.
Статус-коды
HTTP коды статуса (возвращаемые сервером заголовки) говорят веб-браузерам и роботам поисковых систем, какого рода ответ они получают при загрузке страницы. Например, код 200 (ОК) значит, что все нормально, а 404 (file not found) - что веб-сервер не смог найти файл по заданному адресу.
Для оценки того, насколько активно вебмастера используют возможность управлением индексацией своего сайта, соберём статус-коды для файлов robots.txt для обозначенного выше списка сайтов.
Для сайтов нашей выборки распределение выглядит следующим образом:
|
Класс
|
Число сайтов
|
В % от всех
|
|
5xx
|
119
|
0,15
|
|
4xx
|
45732
|
59,00
|
|
3xx
|
72
|
0,09
|
|
2xx
|
31593
|
40,76
|
|
1xx
|
0
|
0,00
|
|