Регистрация Войти
Вход на сайт

Кратко о robots.txt

Кратко о robots.txt

Файл robots.txt находится в корневой директории сайта и содержит специальные инструкции для поисковых роботов.

Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное зеркало домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера.

Для того, чтобы исключить посещение сервера или его частей роботом необходимо создать на сервере файл, содержащий информацию для управления поведением поискового робота. Этот файл должен быть доступен по протоколу HTTP по локальному URL /robots.txt. Содержание этого файла см. ниже.
Такое решение было принято для того, чтобы поисковый робот мог найти правила, описывающие требуемые от него действия, всего лишь простым запросом одного файла. Кроме того файл /robots.txt легко создать на любом из существующих Веб-серверов.

Чтобы создать файл robots.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл robots.txt.

В файл robots.txt обычно пишут нечто вроде:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/ 

В этом примере запрещена индексация трех директорий.

Заметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*» не поддерживаются.

Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров:

Запретить весь сайт для индексации всеми роботами:
User-agent: *
Disallow: /


Разрешить всем роботам индексировать весь сайт:
User-agent: *
Disallow:

Или можете просто создать пустой файл «/robots.txt».

Закрыть от индексации только несколько каталогов:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/


Запретить индексацию сайта только для одного робота:
User-agent: BadBot
Disallow: /


Разрешить индексацию сайта одному роботу и запретить всем остальным:
User-agent: Yandex
Disallow: 

User-agent: *
Disallow: /


Запретить к индексации все файлы кроме одного:
Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:
User-agent: *
Disallow: /docs/


Либо вы можете запретить все запрещенные к индексации файлы:
User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html


Разберёмся что означают поля(директивы) и их значения в файле robots.txt:
User-Agent
- значением этого поля должно являться имя поискового робота, которому в этой записи устанавливаются права доступа.
- если в записи указано более одного имени робота, то права доступа распространяются для всех указанных имен.
- заглавные или строчные символы роли не играют
- если в качестве значения этого поля указан символ «*», то заданные в этой записи права доступа распространяются на любых поисковых роботов, запросивших файл /robots.txt

Disallow
- значением этого поля должен являться частичный URL, который не должен индексироваться. Это может быть полный путь или частичный; любой URL, начинающийся с такого пути не должен индексироваться.
Например, Disallow: /help закрывает и /help.html, и /help/index.html, тогда как Disallow: /help/- только /help/index.html.

- если значение Disallow не указано, то это означает, что индексируется все дерево каталогов сервера

Использование спецсимволов \"*\" и \"$\"
При указании путей директив Allow-Disallow можно использовать спецсимволы * и $, задавая, таким образом, определенные регулярные выражения. Спецсимвол * означает любую (в том числе пустую) последовательность символов. Примеры:

Спецсимвол *
User-agent: *
Disallow: /cgi-bin/*.aspx

запрещает /cgi-bin/example.aspx и /cgi-bin/private/test.aspx
Disallow: /*private

запрещает не только /private, но и /cgi-bin/private

По умолчанию к концу каждого правила, описанного в robots.txt, приписывается *, например:
User-agent: *
Disallow: /cgi-bin*

блокирует доступ к страницам начинающимся с /cgi-bin

User-agent: *Disallow: /cgi-bin

то же самое

Спецсимвол $
Чтобы отменить \''*\'' на конце правила, можно использовать спецсимвол $, например:

User-agent: *
Disallow: /example$

запрещает /example,
но не запрещает /example.html

User-agent: *
Disallow: /example

запрещает и /example, и /example.html

User-agent: *
Disallow: /example$

запрещает только /example
User-agent: *
Disallow: /example*$

так же, как
User-agent: *
Disallow: /example

запрещает и /example.html и /example

Sitemap
Если вы используете описание структуры вашего сайта в формате sitemaps.xml, и хотите, чтобы робот узнал о ней, укажите путь к sitemaps.xml в качестве параметра директивы «Sitemap» (если файлов несколько, укажите все). Пример:
User-agent: *
Disallow: /engine/
Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml

Робот запомнит пути к sitemaps.xml, обработает файлы и будет использовать результаты при последующем формировании сессий закачки.

Host
Во избежания возникновения проблем с зеркалами сайта рекомендуется использовать директиву «Host», которую понимает робот Яндекса и она указывает ему на главное зеркало сайта.
Host следует писать без аббревиатуры протокола передачи гипертекста, то есть без http:// и без закрывающего слеша /
В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву «Host» необходимо добавлять в группе, начинающейся с записи «User-Agent», непосредственно после директив «Disallow»(«Allow»). Аргументом директивы «Host» является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием.
User-agent: *
Disallow: /engine/
Host: site.ru


Кроме файла robots.txt для управления поисковыми роботами существует ещё и метатег robots.

источник: Все о файле robots.txt по-русски и Яндекс.Вебмастер

Категория: SEO и SEM
Актуальные версии, стоимость и возможности сервисов и программ уточняйте на сайтах их авторов.
comments powered by Disqus
» » Кратко о robots.txt