Файл robots.txt, Назначение, синтаксис и прочее...

11
Файл robots.txt
Что такое robots.txt и для чего он нужен
Файл robots.txt размещается в корневой директории сайта и описывает исключения для поисковых ботов. Придерживающийся стандартов бот проверяет сначала url "/robots.txt", если файл существует, то бот анализирует его содержимое на предмет наличия запретов к посещению определённых частей сайта. Имя файла не должно содержать заглавных букв. Записи в файле разделяются одной или несколькими пустыми строками. Комментарии в файле robots.txt начинаются знаком “#” и заканчиваются окончанием строки (строки, содержащие только комментарии игнорируются ботами и не являются разделителями записей). User-agent
Имя бота, к которому применяются правила исключений на сайте. Можно прописать несколько строк с User-agent, в этом случае правила, описанные в данной записи будут применяться указанными ботами. Для описывания правил ботам, для которых отдельная запись не составлена применяют следующий параметр: «*» (в файле robots.txt может быть только одна запись User-agent: *).

Disallow
В данном поле прописывается полный или частичный путь к месту на сайте, посещение которого запрещено для бота. В каждой записи должно присутствовать как минимум одно поле Disallow. Пустое поле Disallow подразумевает разрешение боту посещать все директории и файлы сайта. Не допускается использование в данном поле регулярных выражений и символов подстановки.


Примеры для http://site.ru/
(Показывает как можно сочетать директивы в файле robots.txt но не несущий смысловой нагрузки)

Цитата:
User-agent: Yandex
Disallow: /test/
Disallow: /print.html
# Запрещает ботам Яндекса посещать папку http://site.ru/test/
# и файл http://site.ru/print.html

User-agent: Aport
User-agent: Googlebot
Disallow: /temp/img/
# Запрещает посещение ботами Google и Апорт http://site.ru/temp/img/

User-agent: StackRambler
Disallow:
# Для бота поисковой системы Рамблер разрешено посещение всех
# страниц и папок сайта

User-Agent: *
Disallow: /lesson.php?action=test
# Запрещает посещение всеми ботами, для которых не сделана
#отдельная запись,
# динамических страниц, начинающихся с http://site.ru/lesson.php?action=test
# например: http://site.ru/lesson.php?action=test&id=13
# чувствительно к порядку переменных в ссылке
Некоторые поисковые системы поддерживают дополнительные поля в файле robots.txt. Яндексом поддерживается директива Host, служащая для назначения основного зеркала:

Цитата:
User-agent: Yandex
Disallow: /test/
Host: site.ru
# разрешено посещение всех страниц и папок на сайте, кроме http://site.ru/test/
# основным зеркалом назначено http://site.ru/

User-agent: *
Disallow:
# всем ботам, кроме бота Яндекса, разрешено посещение всех страниц и
# папок на сайте
Запретить сайт к индексации полностью можно с помощью такого файла robots.txt

Цитата:
User-agent: *
Disallow: /
Наиболее актуальные для Рунета, на мой взгляд, боты:
(думаю, даже расшифровывать не требуется)
Yandex
Googlebot
StackRambler
Aport

Более полным списком не вижу смысла загромождать топик, кому интересно - обращайтесь в личку - вышлю.

Рекомендации по запрету к индексации
Что не следует указывать в файле robots.txt:
- папки с административными файлами
- файлы, о которых посторонним вообще знать не стоит
Прописывание путей к данным частям сайта может породить нездоровый интерес и попытки совершения зловредных действий, рады которым Вы уж точно не будете. К тому же есть и альтернативные способы запрета посещения и индексации ботами страниц.

Стоит запретить к индексации:
- документы "для печати"
- папки со скриптами
- папки с картинками (если у Вас не предвидится целевой аудитории с поиска по картинкам)
- сервисные страницы, такие как, например, страница с формой отправки письма администрации, схема проезда

Ошибки, допускаемые при составлении robots.txt
Как не надо делать:
Имя файла содержит заглавные буквы – Robots.txt или ROBOTS.TXT
Файл robots.txt размещается не в корневой директории
Пустая строка после поля User-agent
Отсутствие директивы Disallow
Использование в поле Disallow символов подстановки или регулярных выражений, например: "?", "*"
Больше одной строки "Disallow: *"

Пример ничего не запрещающего robots.txt
(основное зеркало site.ru)
Цитата:
User-agent: *
Disallow:

User-agent: Yandex
Disallow:
Host: site.ru

Добавить комментарий


Защитный код
Обновить

« Пред.   След. »


Тему народных митингов используют российские спамеры По всей России 10 декабря 2011 года прошли митинги, в которых принимали участие несогласные с итогами выборов....Readmore


Доставляю
SEO оптом

Актуальные
новости SEO в вашем
почтовом ящике:

LifeHack - взламываем мироздание


Russian Internet Week оказалась познавательной

 В Москве состоялась четвертая «Неделя Российского интернета». Это мероприятие получило название Russian Internet...



Тему народных митингов используют российские спамеры

По всей России 10 декабря 2011 года прошли митинги, в которых принимали участие несогласные с итогами выборов....



Технические seo приемы


Как мало хостингов хороших – как много хостингов плохих

Что может вывести из душевного равновесия вебмастера? Бан от ПС – то само собой или когда фильтры поймал – но это б...



Как подбирать ключевые слова

Одна из основных проблем при поиске правильных ключевых слов – это правильный подбор слов. И действительно, это не всегда т...



Теоретические seo вопросы


TOP SEO Блогов по rss подписчикам и 76 ресурсов для rss submit

Многие считают что количество подписчиков по feedburner определяют крутость блога, я к числу таких не отношусь, это довольно пос...



Особенности Яндекс.Wordstat

Яндекс.Wordstat является наиболее используемым сервисом, который показывает статистику ключевых слов и помогает в прогнозиров...



Авторизация

Вход / Регистрация

Наши партнеры:
Портал рекомендует скачать фильмы бесплатно и кино 2012 года.
Только у нас безкомплексные проститутки екатеринбурга ублажат вас по вашему желанию.

Заработок в интернете — это не миф, а реальность, но работать для этого надо много и упорно. Есть ли заработок в интернете, нет ли заработка в интернете Вы не узнаете пока сами не начнете работать и зарабатывать в интернете.

Блог SEO Философа Bormaley

Twitter Bormaley

В SEO денег НЕТ

При цитировании и использовании любых материалов гиперссылка на сайт Bormaley.com обязательна. Републикация авторских материалов возможна только после письменного согласования.
Блог SEO Философа Bormaley — SEO блог о практике SEO
(Search Engine Optimization, поисковая оптимизация сайта, раскрутка сайта, продвижение сайта)
Design by Bormaley – bormaley.com

Статистика


Rambler's Top100