Файл robots.txt для Joomla

Для начала надо понять, что такое файл robots.txt ?

Файл robots.txt – это текстовый файл, в котором прописаны специальные инструкции для поисковых роботов. Его можно использовать для указания расположения файла и можно показать, что именно нужно, в первую очередь, проиндексировать поисковому роботу. Robot.txt представляет из себя обычный текстовый файл, который можно создать и редактировать в любом текстовом редакторе ( блокнот, Notepad++). После того как были заданы все правила для поисковиков сохраняем файл на жестком диске ( все буквы в названии должны быть написаны в нижнем регистре — это основное правило). Затем с помощью FTP- клиента переносим файл robots.txt в корневую папку сайта. То есть поисковый бот его должен найти по адресу: http://namesite/robots.txt.

Теперь осталось только правильно прописать основные директивы.
Обычно, в файле robots.txt указывается для какого поискового робота созданы правила (директива ‘User-agent’), сами разрешающие (‘Allow’) и запрещающие директивы (‘Disallow’), а также еще прописывается директива ‘Sitemap’ для указания поисковикам, где именно находится файл карты сайта.

Структура robots.txt простая. Все начинается с директивы User-agent, в которой указываем какой поисковый робот должен индексировать страницы. Директива User-agent, адресованная всем ботам , будет иметь следующий вид:

User-agent: *

Если же мне нужно задать в данной директиве условия индексирования для какого — то определенного поискового робота, предположим для Яндекса, то директива будет иметь следующий вид:

User-agent: Yandex

Каждая поисковая система имеет своего робота, который имеет свое название. Я приведу имена наиболее встречаемых поисковых роботов:

Поисковый робот от Yandex – User-agent: Yandex;
Поисковый робот от Google – User-agent: Googlebot;
Поисковый робот от Rambler – User-agent: StackRambler;
Поисковый робот от Yahoo! – User-agent: Yahoo! Slurp;
Поисковый робот от MSN – User-agent: MSNbot;

После указания директивы User-agent строчкой ниже прописываем директиву Disallow — инструкцию для бота. Между этими строчками не должно быть пустых строк, иначе это будет означать конец блока.

Для разрешения всем поисковым роботам индексировать весь сайт необходимо прописать:

User-agent: *
Disallow:

Чтобы запретить всем индексировать сайт нужно в robots.txt прописать директиву Disallow с «/»:

User-agent: *
Disallow: /

И так чтобы запретить индексирование определенной папки, то прописываем следующее:

User-agent: *
Disallow: /name/

Где вместо значения name указываем имя папки.

Значение

User-agent: *
Disallow: /name

запрещает индексирование любых папок и файлов, которые называются или имеют в своем названии (name.html, names.html, папки: name, names1, name56 и так далее)

Затем многие прописываю директиву Host, чтобы не было проблем с зеркалом сайта.

User-agent: *
Host: www.site.ru

или же можно прописать

User-agent: *
Host: site.ru

Вариант написания этой директивы зависит от того, что вам будет оптимально.
И в самом конце прописываем директиву Sitemap, которая указывает на расположение карты сайта в формате .xml. Например:

Sitemap: http://namesite.ru/sitemap.xml

Можно еще указатать директиву Crawl-delay: n
Где n – величина задержки в секундах перед индексированием страницы, необходимо для медленных серверов.

Вот и все основные моменты, которые я учитывала при составлении своего файла robots.txt для сайта на Joomla. В итоге у меня получилось следующее:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: http://needforhope.ru/sitemap.xml

Или же просто наберите в адресной строке http://needforhope.ru/robots.txt и просмотрите мой robots.txt. То есть я просто закрыла индексацию всех системных папок для всех поисковых роботов и указала путь к карте сайта.

Для того чтобы проверить правильно ли написан файл robots.txt можно воспользоваться сервисом.

Здесь просто в строке Имя хоста — нужно ввести адрес сайта (стрелочка 1, и нажать на кнопку Загрузить с сайта(стрелочка 2). Когда загрузка завершится файл robots.txt отразится в поле Robots.txt.(стрелочка 3) Далее необходимо нажать кнопку Проверить.(стрелочка 4)

robot

Если файл правильно составлен, то получаем вот такой ответ.(стрелочка 1) При неправильном написании или ошибке вы сможете узнать из сообщений, расположенных в правом углу.(стрелочка 2)

rob

Составленный robots.txt правильно избавит от многих проблем!