Для начала надо понять, что такое файл robots.txt ?
Файл robots.txt – это текстовый файл, в котором прописаны специальные инструкции для поисковых роботов. Его можно использовать для указания расположения файла и можно показать, что именно нужно, в первую очередь, проиндексировать поисковому роботу. Robot.txt представляет из себя обычный текстовый файл, который можно создать и редактировать в любом текстовом редакторе ( блокнот, Notepad++). После того как были заданы все правила для поисковиков сохраняем файл на жестком диске ( все буквы в названии должны быть написаны в нижнем регистре — это основное правило). Затем с помощью FTP- клиента переносим файл robots.txt в корневую папку сайта. То есть поисковый бот его должен найти по адресу: http://namesite/robots.txt.
Теперь осталось только правильно прописать основные директивы.
Обычно, в файле robots.txt указывается для какого поискового робота созданы правила (директива ‘User-agent’), сами разрешающие (‘Allow’) и запрещающие директивы (‘Disallow’), а также еще прописывается директива ‘Sitemap’ для указания поисковикам, где именно находится файл карты сайта.
Структура robots.txt простая. Все начинается с директивы User-agent, в которой указываем какой поисковый робот должен индексировать страницы. Директива User-agent, адресованная всем ботам , будет иметь следующий вид:
User-agent: *
Если же мне нужно задать в данной директиве условия индексирования для какого — то определенного поискового робота, предположим для Яндекса, то директива будет иметь следующий вид:
User-agent: Yandex
Каждая поисковая система имеет своего робота, который имеет свое название. Я приведу имена наиболее встречаемых поисковых роботов:
Поисковый робот от Yandex – User-agent: Yandex;
Поисковый робот от Google – User-agent: Googlebot;
Поисковый робот от Rambler – User-agent: StackRambler;
Поисковый робот от Yahoo! – User-agent: Yahoo! Slurp;
Поисковый робот от MSN – User-agent: MSNbot;
После указания директивы User-agent строчкой ниже прописываем директиву Disallow — инструкцию для бота. Между этими строчками не должно быть пустых строк, иначе это будет означать конец блока.
Для разрешения всем поисковым роботам индексировать весь сайт необходимо прописать:
User-agent: *
Disallow:
Чтобы запретить всем индексировать сайт нужно в robots.txt прописать директиву Disallow с «/»:
User-agent: *
Disallow: /
И так чтобы запретить индексирование определенной папки, то прописываем следующее:
User-agent: *
Disallow: /name/
Где вместо значения name указываем имя папки.
Значение
User-agent: *
Disallow: /name
запрещает индексирование любых папок и файлов, которые называются или имеют в своем названии (name.html, names.html, папки: name, names1, name56 и так далее)
Затем многие прописываю директиву Host, чтобы не было проблем с зеркалом сайта.
User-agent: *
Host: www.site.ru
или же можно прописать
User-agent: *
Host: site.ru
Вариант написания этой директивы зависит от того, что вам будет оптимально.
И в самом конце прописываем директиву Sitemap, которая указывает на расположение карты сайта в формате .xml. Например:
Sitemap: http://namesite.ru/sitemap.xml
Можно еще указатать директиву Crawl-delay: n
Где n – величина задержки в секундах перед индексированием страницы, необходимо для медленных серверов.
Вот и все основные моменты, которые я учитывала при составлении своего файла robots.txt для сайта на Joomla. В итоге у меня получилось следующее:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: http://needforhope.ru/sitemap.xml
Или же просто наберите в адресной строке http://needforhope.ru/robots.txt и просмотрите мой robots.txt. То есть я просто закрыла индексацию всех системных папок для всех поисковых роботов и указала путь к карте сайта.
Для того чтобы проверить правильно ли написан файл robots.txt можно воспользоваться сервисом.
Здесь просто в строке Имя хоста — нужно ввести адрес сайта (стрелочка 1, и нажать на кнопку Загрузить с сайта(стрелочка 2). Когда загрузка завершится файл robots.txt отразится в поле Robots.txt.(стрелочка 3) Далее необходимо нажать кнопку Проверить.(стрелочка 4)
Если файл правильно составлен, то получаем вот такой ответ.(стрелочка 1) При неправильном написании или ошибке вы сможете узнать из сообщений, расположенных в правом углу.(стрелочка 2)
Составленный robots.txt правильно избавит от многих проблем!