Robots.txt – это текстовый файл, в котором содержатся инструкции для поисковых роботов по индексации сайта. Он позволяет запрещать индексацию страниц и целых разделов сайта, указывать правильное зеркало домена, задавать путь к карте сайта. Это далеко не весь перечень возможностей файла robots.txt, а лишь те, которые чаще всего используются.
Прежде чем индексировать сайт, поисковики изучают файл robots.txt. Именно поэтому очень важно наличие этого файла, а еще важнее его содержание. Надо помнить, что все команды, содержащиеся в файле robots.txt не являются обязательными для выполнения, а имеют для ботов рекомендательных характер.
Robots.txt – это обычный текстовый файл .txt, который создают с помощью любого текстового редактора и размещают в корневой директории сайта. Важно, чтобы имя файла была именно в нижнем регистре, то есть названия Robots.txt или ROBOTS.TXT является неправильными.
При создании файла robots.txt является очень важным придерживаться синтаксиса его написания. Стандарт написания директив для следования робота был принят еще в 1994 году и с тех пор не менялся. Поэтому большинство ботов поддерживают команды, которых нет в стандарте.
Основные команды для robots.txt:
1. User-Agent – задает имя робота, к которому относится набор команд. Если набор инструкций предназначен для всех ботов, то вместо названия укажите звездочку (User-agent: *).
2. Disallow и Allow – запрещает или разрешает доступ к определенным страницам сайта. Обратите внимание, что инструкция Allow стандартом не поддерживается. Несмотря на это, эта инструкция поддерживается роботами Google и Yandex.
3. Host – эта директива поддерживается только поисковым роботом Yandex и указывает ему какое зеркало сайта считать главным. Под зеркалами понимаются домены сайта с префиксом www и без него. Домен нужно задавать без аббревиатуры протокола http:// и без закрывающего слеша. Данную директиву нужно указывать после всех команд Disallow.
4. Sitemap – информирует работа наличия карты сайта и указывает путь к ней. Эта директива является межсекционной.
Правила написания инструкций для файла robots.txt:
• В каждой строке с инструкцией Disallow должен быть указан только один файл или директория.
• Название файла должно быть в нижнем регистре.
• Строка User-agent не может быть пустым. Для обращения всех роботов, используйте звездочку (*).
• В директиве Disallow нельзя использовать символы подстановки вроде: Disallow: file *. html.
• Комментарии к инструкциям пишите в отдельной строке.
• По стандарту инструкция Disallow является обязательной. Поэтому, если вы не хотите ничего запрещать, то оставьте эту инструкцию пустой.
• При запрете индексации каталогов обязательно используйте слеши (Disallow: / folder /)
• Пустые строчки используются только для разделения секций.
Для избежания дублирования контента на WordPress блогах можно закрыть для индексации последующие строки:
• Страницы тегов: Disallow: / tag /
• Страницы архивов: Disallow: / archives /
• Страницы категорий: Disallow: / category /
Закрывать эти страницы или нет – это уже вам решать. Наконец, каждую из этих страниц можно раскручивать по определенному ключевому запросу. А если вы продаете ссылки на биржах, то такие страницы могут приносить неплохой заработок.