| Файл robots.txt, Назначение, синтаксис и прочее... |
| 11.05.2008 23:07 | |||||
|
Что такое robots.txt и для чего он нужен Файл robots.txt размещается в корневой директории сайта и описывает исключения для поисковых ботов. Придерживающийся стандартов бот проверяет сначала url "/robots.txt", если файл существует, то бот анализирует его содержимое на предмет наличия запретов к посещению определённых частей сайта. Имя файла не должно содержать заглавных букв. Записи в файле разделяются одной или несколькими пустыми строками. Комментарии в файле robots.txt начинаются знаком “#” и заканчиваются окончанием строки (строки, содержащие только комментарии игнорируются ботами и не являются разделителями записей). User-agent Имя бота, к которому применяются правила исключений на сайте. Можно прописать несколько строк с User-agent, в этом случае правила, описанные в данной записи будут применяться указанными ботами. Для описывания правил ботам, для которых отдельная запись не составлена применяют следующий параметр: «*» (в файле robots.txt может быть только одна запись User-agent: *). Disallow В данном поле прописывается полный или частичный путь к месту на сайте, посещение которого запрещено для бота. В каждой записи должно присутствовать как минимум одно поле Disallow. Пустое поле Disallow подразумевает разрешение боту посещать все директории и файлы сайта. Не допускается использование в данном поле регулярных выражений и символов подстановки. Примеры для http://site.ru/ (Показывает как можно сочетать директивы в файле robots.txt но не несущий смысловой нагрузки) Цитата:
Цитата:
Цитата:
(думаю, даже расшифровывать не требуется) Yandex Googlebot StackRambler Aport Более полным списком не вижу смысла загромождать топик, кому интересно - обращайтесь в личку - вышлю. Рекомендации по запрету к индексации Что не следует указывать в файле robots.txt: - папки с административными файлами - файлы, о которых посторонним вообще знать не стоит Прописывание путей к данным частям сайта может породить нездоровый интерес и попытки совершения зловредных действий, рады которым Вы уж точно не будете. К тому же есть и альтернативные способы запрета посещения и индексации ботами страниц. Стоит запретить к индексации: - документы "для печати" - папки со скриптами - папки с картинками (если у Вас не предвидится целевой аудитории с поиска по картинкам) - сервисные страницы, такие как, например, страница с формой отправки письма администрации, схема проезда Ошибки, допускаемые при составлении robots.txt Как не надо делать: Имя файла содержит заглавные буквы – Robots.txt или ROBOTS.TXT Файл robots.txt размещается не в корневой директории Пустая строка после поля User-agent Отсутствие директивы Disallow Использование в поле Disallow символов подстановки или регулярных выражений, например: "?", "*" Больше одной строки "Disallow: *" Пример ничего не запрещающего robots.txt (основное зеркало site.ru) Цитата:
|
|||||
| « Пред. | След. » |
|---|
Читайте также:
- Сложность ключевого слова и размер сайта
- Яндекс – это диагноз
- Twitter траффик
- Сделать доброе дело - это просто!
- Начинаем публиковать с Google News
- Отжимаем свою копейку с варезников
- Новые локальные фильтры Google
- Яндекс: «Значение оптимальной плотности ключевых слов на странице различно»
- Маразм крепчает – полный распад сео психической деятельности
- Интернет сделает человечество умнее?




Комментарии
не Больше одной строки "Disallow: *"
не
Disallow /ляля
Disallow /фафа
и т.д.
а
Disallow: *
запрет индексации сайта - один раз указать
Цитата:
у Вас норм, теоретически, предугадать все ли разделы Вы указали заочно я не смогу. Цитировать
..ошибки..Больше одной строки "Disallow: *"
мой роботс правильный? если нет- то где косяк??
User-agent: *
Disallow: /
Disallow: /imgs/
Disallow: /out/
Disallow: /cart.htm
Disallow: /checkout
Disallow: /*?add= (это не правильная строчка?)
Disallow: /account.htm
Disallow: /contact.htm
Disallow: /policy.htm
Disallow: /faq.htm
Sitemap: sitemap.xml
псы:я хотел, чтобы главная индексировалась , а разделы - нет Цитировать
Спасибо! Цитировать
Раньше в голову не приходило разобраться с robots.txt, а теперь понял, что эта информация приходится в дальнейшем.
У меня вопрос на счет рекомендаций по запрету к индексации \"не следует указывать в файле robots.txt папки с административны ми файлами\":
применяется ли в практике указывание ложной административно й папки, есть ли смысл такое делать?
Joomla похоже данного совета не придерживается, путь к административно й папке указан. Цитировать