Как составить правильный robots.txt?

Автор: admin - Опубликовано: Среда, Январь 6, 2010 - Leave a Comment

«Каждый покупатель может приобретать автомобиль любого цвета при условии, что цвет будет черный»

Генри Форд

В данный пост мне не удалось внести ни одну свою мысль. Да и нужно ли? Я, как «покупатель» robots.txt, могу «приобретать любой цвет автомобиля», т.е. описать его составление любыми словами, лишь бы «цвет был черный», то есть robots должен соответствовать стандарту и рекомендациям поисковых систем. Так что пост будет состоять просто из подбора ссылок по данной теме:

Из Википедии:

Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.

Файл robots.txt может использоваться для указания расположения файла и может показать, что именно нужно, в первую очередь, проиндексировать поисковому роботу.

Роботы известных поисковых систем поддерживают стандарт http://www.robotstxt.org/orig.html, исходя из него, и надо составлять файл robots.txt

Общая информация: Все о файле robots.txt по-русски

Рекомендации Google: Блокировка и удаление страниц с помощью файла robots.txt

Рекомендации Рамблера: Формат файла robots.txt

Рекомендации Яндекса: Использование robots.txt для Яндекса

Обратите внимание на директивы, по типу Host, которые не поддерживается роботами других поисковых систем.

В принципе все ясно, для облегчения составления robots.txt для сайтов, сделанных на популярных движках, можете воспользоваться этими ссылками:

Для wordpress: Оптимизация robots.txt для WordPress, единственное, правильнее, вместо строк:

Disallow: /wp-content
Allow: /wp-content/uploads/

прописать строки:

Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes

так как не только Яндексом и Google жив интернет.

Кстати, вот эти две строки:

User-agent: YandexBlog
Disallow:

при проверки полного robots.txt в анализаторе Яндекса “Анализ robots.txt” делают остальные записи, кроме строки про Sitemap, бессмысленными для Яндекса. По крайней мере, так показывает его анализатор. Так что эти две строки рекомендую вообще не прописывать, хотя бы до того момента, пока анализатор не начнет учитывать и другие строки.

Для DLE: Robots.txt для Dle. Делаем правильно. Да будет сайт проиндексирован., Посвящается всем, кто использует DLE

Для joomla: Нормальный и правильный robots.txt для joomla

Для drupal: RobotsTxt

Для ucoz: Robots.txt индексация сайта 

Для vBulletin, phpbb, e107, phpFusion (правильность не проверял): Правильный ROBOTS.TXT для CMS


Комментарии:

You need to enable javascript in order to use Simple CAPTCHA.
Security Code: