Как составить правильный robots.txt?
«Каждый покупатель может приобретать автомобиль любого цвета при условии, что цвет будет черный»
Генри Форд
В данный пост мне не удалось внести ни одну свою мысль. Да и нужно ли? Я, как «покупатель» robots.txt, могу «приобретать любой цвет автомобиля», т.е. описать его составление любыми словами, лишь бы «цвет был черный», то есть robots должен соответствовать стандарту и рекомендациям поисковых систем. Так что пост будет состоять просто из подбора ссылок по данной теме:
Из Википедии:
Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.
Файл robots.txt может использоваться для указания расположения файла и может показать, что именно нужно, в первую очередь, проиндексировать поисковому роботу.
Роботы известных поисковых систем поддерживают стандарт http://www.robotstxt.org/orig.html, исходя из него, и надо составлять файл robots.txt
Общая информация: Все о файле robots.txt по-русски
Рекомендации Google: Блокировка и удаление страниц с помощью файла robots.txt
Рекомендации Рамблера: Формат файла robots.txt
Рекомендации Яндекса: Использование robots.txt для Яндекса
Обратите внимание на директивы, по типу Host, которые не поддерживается роботами других поисковых систем.
В принципе все ясно, для облегчения составления robots.txt для сайтов, сделанных на популярных движках, можете воспользоваться этими ссылками:
Для wordpress: Оптимизация robots.txt для WordPress, единственное, правильнее, вместо строк:
Disallow: /wp-content
Allow: /wp-content/uploads/
прописать строки:
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
так как не только Яндексом и Google жив интернет.
Кстати, вот эти две строки:
User-agent: YandexBlog
Disallow:
при проверки полного robots.txt в анализаторе Яндекса “Анализ robots.txt” делают остальные записи, кроме строки про Sitemap, бессмысленными для Яндекса. По крайней мере, так показывает его анализатор. Так что эти две строки рекомендую вообще не прописывать, хотя бы до того момента, пока анализатор не начнет учитывать и другие строки.
Для joomla: Нормальный и правильный robots.txt для joomla
Для drupal: RobotsTxt
Для ucoz: Robots.txt индексация сайта
Для vBulletin, phpbb, e107, phpFusion (правильность не проверял): Правильный ROBOTS.TXT для CMS
