Что такое robots

Что такое robots.txt? Технические аспекты созданного сайта играют не менее важную роль для продвижения сайта в поисковых системах, чем его наполнение. Одним из наиболее важных технических аспектов является индексирование сайта, т. е. определение областей сайта (файлов и директорий), которые могут или не могут быть проиндексированы роботами поисковых систем. Для этих целей используется специальный файл robots.txt. Понятие файла robots.txt и требования, предъявляемые к нему Файл /robots.txt предназначен для указания всем поисковым роботам (spiders) индексировать информационные сервера так, как определено в этом файле, т.е. только те директории и файлы сервера, которые не описаны в /robots.txt. Этот файл должен содержать 0 или более записей, которые связаны с тем или иным роботом (что определяется значением поля agent_id) и указывают для каждого робота или для всех сразу, что именно им не надо индексировать. Синтаксис файла позволяет задавать запретные области индексирования, как для всех, так и для определённых, роботов. Содержимое файла robots.txt Файл robots.txt включает в себя две записи: «User-agent» и «Disallow». Названия данных записей не чувствительны к регистру букв. Некоторые поисковые системы поддерживают еще и дополнительные записи. Так, например, поисковая система «Yandex» использует запись «Host» для определения основного зеркала сайта (основное зеркало сайта – это сайт, находящийся в индексе поисковых систем). Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости от количества закрываемых от индексации страниц или (и) директорий и количества роботов, к которым Вы обращаетесь. Предполагается следующий формат строк файла robots.txt: имя_записи[необязательные пробелы]:[необязательные пробелы]значение[необязательные пробелы] Чтобы файл robots.txt считался верным, необходимо, чтобы, как минимум, одна директива «Disallow» присутствовала после каждой записи «User-agent». Полностью пустой файл robots.txt эквивалентен его отсутствию, что предполагает разрешение на индексирование всего сайта. Запись «User-agent» Запись «User-agent» должна содержать название поискового робота. В данной записи можно указать каждому конкретному роботу, какие страницы сайта индексировать, а какие нет. Пример записи «User-agent», где обращение происходит ко всем поисковым системам без исключений и используется символ «*»: User-agent: * Пример записи «User-agent», где обращение происходит только к роботу поисковой системы Rambler: User-agent: StackRambler Робот каждой поисковой системы имеет своё название. Существует два основных способа узнать его (название): o на сайтах многих поисковых систем присутствует специализированный раздел «помощь веб-мастеру», в котором часто указывается название поискового робота; o при просмотре логов веб-сервера, а именно при просмотре обращений к файлу robots.txt, можно увидеть множество имён, в которых присутствуют названия поисковых систем или их часть. Поэтому Вам остается лишь выбрать нужное имя и вписать его в файл robots.txt. Запись «Disallow» Запись «Disallow» должна содержать предписания, которые указывают поисковому роботу из записи «User-agent», какие файлы или (и) каталоги индексировать запрещено. Рассмотрим различные примеры записи «Disallow». Пример (сайт полностью открыт для индексирования): Disallow: Пример (сайт полностью запрещен к индексации. Для этого используется символ «/»): Disallow: / Пример (для индексирования запрещен файл «page.htm», находящийся в корневом каталоге и файл «page2.htm», располагающийся в директории «dir»): Disallow: /page.htm Disallow: /dir/page2.htm Пример (для индексирования запрещены директории «cgi-bin» и «forum» и, следовательно, всё содержимое данной директории): Disallow: /cgi-bin/ Disallow: /forum/ Возможно закрытие от индексирования ряда документов и (или) директорий, начинающихся с одних и тех же символов, используя только одну запись «Disallow». Для этого необходимо прописать начальные одинаковые символы без закрывающей наклонной черты. Пример (для индексирования запрещены директория «dir», а так же все файлы и директории, начинающиеся буквами «dir», т. е. файлы: «dir.htm», «direct.htm», директории: «dir», «directory1», «directory2» и т. д.): Disallow: /dir Некоторые поисковые системы разрешают использование регулярных выражений в записи «Disallow». Так, например, поисковая система «Google» поддерживает в записи «Disallow» символы «*» (означает любую последовательность символов) и «$» (окончание строки). Это позволяет запретить индексирование определенного типа файлов. Пример (запрет индексации файлов с расширением «htm»): Disallow: *.htm$ Запись «Host» Запись «host» используется поисковой системой «Yandex». Она необходима для определения основного зеркала сайта, т. е. если сайт имеет зеркала (зеркало – это частичная или полная копия сайта. Наличие дубликатов ресурса бывает необходимо владельцам высокопосещаемых сайтов для повышения надежности и доступности их сервиса), то с помощью директивы «Host» можно выбрать то имя, под которым Вы хотите быть проиндексированы. В противном случае «Yandex» выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации. В целях совместимости с поисковыми роботами, которые при обработке файла robots.txt не воспринимают директиву Host, необходимо добавлять запись «Host» непосредственно после записей Disallow. Пример: www.site.ru – основное зеркало: Host: www.site.ru Комментарии Любая строка в robots.txt, начинающаяся с символа «#», считается комментарием. Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут неправильно распознать данную строку. Пример (комментарий находится на одной строке вместе с директивой): Disallow: /cgi-bin/ #комментарий Желательно размещать комментарий на отдельной строке. Пробел в начале строки разрешается, но не рекомендуется. Примеры файлов robots.txt Пример файла robots.txt, разрешающего всем роботам индексирование всего сайта: User-agent: * Disallow: Host: www.site.ru Пример файла robots.txt, запрещающего всем роботам индексирование сайта: User-agent: * Disallow: / Host: www.site.ru Пример файла robots.txt, запрещающего всем роботам индексирование директории «abc», а так же всех директорий и файлов, начинающихся с символов «abc». User-agent: * Disallow: /abc Host: www.site.ru Пример файла robots.txt, запрещающего индексирование страницы «page.htm», находящейся в корневом каталоге сайта, поисковым роботом «googlebot»: User-agent: googlebot Disallow: /page.htm Host: www.site.ru Пример файла robots.txt, запрещающего индексирование: – роботу «googlebot» – страницы «page1.htm», находящейся в директории «directory»; – роботу «Yandex» – все директории и страницы, начинающиеся символами «dir» (/dir/, /direct/, dir.htm, direction.htm, и т. д.) и находящиеся в корневом каталоге сайта. User-agent: googlebot Disallow: /directory/page1.htm User-agent: Yandex Disallow: /dir Host: www.site.ru Заключение Таким образом, наличие файла robots.txt, а так же его составление, может повлиять на продвижение сайта в поисковых системах. Не зная синтаксиса файла robots.txt, можно запретить к индексированию возможные продвигаемые страницы, а так же весь сайт. И, наоборот, грамотное составление данного файла может очень помочь в продвижении ресурса, например, можно закрыть от индексирования документы, которые мешают продвижению нужных страниц.

Что такое robots

Related documents

Products

Support

Что такое robots

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib