Категории каталога
Каталог / Интернет / Раскрутка сайтов / Dmoz: каждый четвертый сайт имеет ошибки в robots.txt

Dmoz: каждый четвертый сайт имеет ошибки в robots.txt

Эндрю Вустер (программный инженер Apple) провел исследование файлов robots.txt на сайтах из каталога Dmoz. В ходе своего исследования HTTP заголовков он разработал собственного «паука» и собрал большую базу доменов. Скормив своему пауку эту базу ресурсов из Dmoz, Эндрю Вустер получил MySQL базу, в которой сохранялись содержание robots.txt, HTTP заголовки и полный ответ сервера. Объем базы составил 12 Gb. После получасовой работы анализатора были получены интересные данные и статистика о содержании robots.txt на более чем 4.6 миллионах доменов.

Статус коды

HTTP коды статуса (возвращаемые сервером значения) говорят веб-браузерам и роботам поисковых систем, какого рода ответ они получают при загрузке страницы. Например, код “200 значит, что все нормально, а “404 (file not found) - что веб-сервер не смог найти файл по заданному адресу. IETF спецификация robots.txt говорит о том, что 404 код возврата (по-другому - код ошибки) по адресу robots.txt значит отсутствие ограничений для загрузки сайта роботами, а коды 2ХХ говорят о том, что роботу следует руководствоваться правилами, прописанными в robots.txt.

Статус коды интересны, в первую очередь, тем, что с их помощью можно быстро подсчитать количество сайтов, имеющих файл robots.txt. Исследовав 4.6 миллиона сайтов, можно по статус кодам определить, у скольких сайтов есть robots.txt и у скольких его нет:

Класс Число сайтов В % от всех
5xx 4,338 0.09
4xx 3,035,454 65.86
3xx 350,946 7.61
2xx 1,217,559 26.42
1xx 12 0.00
invalid 21 0.00

Материал предоставлен: Интернет-издание SEONEWS
Автор: Google

Реклама:
Где заказать рерайтинг текстов узнай на сайте eTXT.ru