Что такое robots

advertisement
Что такое robots.txt?
Технические аспекты созданного сайта играют не менее важную роль для продвижения сайта
в поисковых системах, чем его наполнение. Одним из наиболее важных технических аспектов
является индексирование сайта, т. е. определение областей сайта (файлов и директорий),
которые могут или не могут быть проиндексированы роботами поисковых систем. Для этих целей
используется специальный файл robots.txt.
Понятие файла robots.txt и требования, предъявляемые
к нему
Файл /robots.txt предназначен для указания всем поисковым роботам (spiders) индексировать
информационные сервера так, как определено в этом файле, т.е. только те директории и файлы
сервера, которые не описаны в /robots.txt. Этот файл должен содержать 0 или более записей,
которые связаны с тем или иным роботом (что определяется значением поля agent_id)
и указывают для каждого робота или для всех сразу, что именно им не надо индексировать.
Синтаксис файла позволяет задавать запретные области индексирования, как для всех, так
и для определённых, роботов.
Содержимое файла robots.txt
Файл robots.txt включает в себя две записи: «User-agent» и «Disallow». Названия данных записей
не чувствительны к регистру букв.
Некоторые поисковые системы поддерживают еще и дополнительные записи. Так, например,
поисковая система «Yandex» использует запись «Host» для определения основного зеркала сайта
(основное зеркало сайта – это сайт, находящийся в индексе поисковых систем).
Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости
от количества закрываемых от индексации страниц или (и) директорий и количества роботов,
к которым Вы обращаетесь.
Предполагается следующий формат строк файла robots.txt:
имя_записи[необязательные пробелы]:[необязательные пробелы]значение[необязательные
пробелы]
Чтобы файл robots.txt считался верным, необходимо, чтобы, как минимум, одна директива
«Disallow» присутствовала после каждой записи «User-agent». Полностью пустой файл robots.txt
эквивалентен его отсутствию, что предполагает разрешение на индексирование всего сайта.
Запись «User-agent»
Запись «User-agent» должна содержать название поискового робота. В данной записи можно
указать каждому конкретному роботу, какие страницы сайта индексировать, а какие нет.
Пример записи «User-agent», где обращение происходит ко всем поисковым системам
без исключений и используется символ «*»:
User-agent: *
Пример записи «User-agent», где обращение происходит только к роботу поисковой системы
Rambler:
User-agent: StackRambler
Робот каждой поисковой системы имеет своё название. Существует два основных способа узнать
его (название):
o
на сайтах многих поисковых систем присутствует специализированный раздел «помощь
веб-мастеру», в котором часто указывается название поискового робота;
o
при просмотре логов веб-сервера, а именно при просмотре обращений к файлу robots.txt,
можно увидеть множество имён, в которых присутствуют названия поисковых систем
или их часть. Поэтому Вам остается лишь выбрать нужное имя и вписать его в файл
robots.txt.
Запись «Disallow»
Запись «Disallow» должна содержать предписания, которые указывают поисковому роботу
из записи «User-agent», какие файлы или (и) каталоги индексировать запрещено.
Рассмотрим различные примеры записи «Disallow».
Пример (сайт полностью открыт для индексирования):
Disallow:
Пример (сайт полностью запрещен к индексации. Для этого используется символ «/»):
Disallow: /
Пример (для индексирования запрещен файл «page.htm», находящийся в корневом каталоге
и файл «page2.htm», располагающийся в директории «dir»):
Disallow: /page.htm
Disallow: /dir/page2.htm
Пример (для индексирования запрещены директории «cgi-bin» и «forum» и, следовательно, всё
содержимое данной директории):
Disallow: /cgi-bin/
Disallow: /forum/
Возможно закрытие от индексирования ряда документов и (или) директорий, начинающихся
с одних и тех же символов, используя только одну запись «Disallow». Для этого необходимо
прописать начальные одинаковые символы без закрывающей наклонной черты.
Пример (для индексирования запрещены директория «dir», а так же все файлы и директории,
начинающиеся буквами «dir», т. е. файлы: «dir.htm», «direct.htm», директории: «dir», «directory1»,
«directory2» и т. д.):
Disallow: /dir
Некоторые поисковые системы разрешают использование регулярных выражений в записи
«Disallow».
Так, например, поисковая система «Google» поддерживает в записи «Disallow» символы «*»
(означает любую последовательность символов) и «$» (окончание строки). Это позволяет
запретить индексирование определенного типа файлов.
Пример (запрет индексации файлов с расширением «htm»):
Disallow: *.htm$
Запись «Host»
Запись «host» используется поисковой системой «Yandex». Она необходима для определения
основного зеркала сайта, т. е. если сайт имеет зеркала (зеркало – это частичная или полная копия
сайта. Наличие дубликатов ресурса бывает необходимо владельцам высокопосещаемых сайтов
для повышения надежности и доступности их сервиса), то с помощью директивы «Host» можно
выбрать то имя, под которым Вы хотите быть проиндексированы. В противном случае «Yandex»
выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации.
В целях совместимости с поисковыми роботами, которые при обработке файла robots.txt
не воспринимают директиву Host, необходимо добавлять запись «Host» непосредственно после
записей Disallow.
Пример: www.site.ru – основное зеркало:
Host: www.site.ru
Комментарии
Любая строка в robots.txt, начинающаяся с символа «#», считается комментарием.
Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут
неправильно распознать данную строку.
Пример (комментарий находится на одной строке вместе с директивой):
Disallow: /cgi-bin/ #комментарий
Желательно размещать комментарий на отдельной строке. Пробел в начале строки разрешается,
но не рекомендуется.
Примеры файлов robots.txt
Пример файла robots.txt, разрешающего всем роботам индексирование всего сайта:
User-agent: *
Disallow: Host: www.site.ru
Пример файла robots.txt, запрещающего всем роботам индексирование сайта:
User-agent: *
Disallow: /
Host: www.site.ru
Пример файла robots.txt, запрещающего всем роботам индексирование директории «abc», а так же
всех директорий и файлов, начинающихся с символов «abc».
User-agent: *
Disallow: /abc
Host: www.site.ru
Пример файла robots.txt, запрещающего индексирование страницы «page.htm», находящейся
в корневом каталоге сайта, поисковым роботом «googlebot»:
User-agent: googlebot
Disallow: /page.htm
Host: www.site.ru
Пример файла robots.txt, запрещающего индексирование: – роботу «googlebot» – страницы
«page1.htm», находящейся в директории «directory»; – роботу «Yandex» – все директории
и страницы, начинающиеся символами «dir» (/dir/, /direct/, dir.htm, direction.htm, и т. д.)
и находящиеся в корневом каталоге сайта.
User-agent: googlebot
Disallow: /directory/page1.htm
User-agent: Yandex
Disallow: /dir
Host: www.site.ru
Заключение
Таким образом, наличие файла robots.txt, а так же его составление, может повлиять
на продвижение сайта в поисковых системах. Не зная синтаксиса файла robots.txt, можно
запретить к индексированию возможные продвигаемые страницы, а так же весь сайт. И, наоборот,
грамотное составление данного файла может очень помочь в продвижении ресурса, например,
можно закрыть от индексирования документы, которые мешают продвижению нужных страниц.
Download