|
Эндрю Вустер (программный инженер Apple) провел исследование файлов robots.txt на сайтах из каталога Dmoz. В ходе своего исследования HTTP заголовков он разработал собственного «паука» и собрал большую базу доменов. Скормив своему пауку эту базу ресурсов из Dmoz, Эндрю Вустер получил MySQL базу, в которой сохранялись содержание robots.txt, HTTP заголовки и полный ответ сервера. Объем базы составил 12 Gb. После получасовой работы анализатора были получены интересные данные и статистика о содержании robots.txt на более чем 4.6 миллионах доменов.
Статус коды
HTTP коды статуса (возвращаемые сервером значения) говорят веб-браузерам и роботам поисковых систем, какого рода ответ они получают при загрузке страницы. Например, код “200 значит, что все нормально, а “404 (file not found) - что веб-сервер не смог найти файл по заданному адресу. IETF спецификация robots.txt говорит о том, что 404 код возврата (по-другому - код ошибки) по адресу robots.txt значит отсутствие ограничений для загрузки сайта роботами, а коды 2ХХ говорят о том, что роботу следует руководствоваться правилами, прописанными в robots.txt.
Статус коды интересны, в первую очередь, тем, что с их помощью можно быстро подсчитать количество сайтов, имеющих файл robots.txt. Исследовав 4.6 миллиона сайтов, можно по статус кодам определить, у скольких сайтов есть robots.txt и у скольких его нет:
|
Класс
|
Число сайтов
|
В % от всех
|
|
5xx
|
4,338
|
0.09
|
|
4xx
|
3,035,454
|
65.86
|
|
3xx
|
350,946
|
7.61
|
|
2xx
|
1,217,559
|
26.42
|
|
1xx
|
12
|
0.00
|
|
invalid
|
21
|
0.00
|
|