В статье будет рассказано о том, что такое файл robot.txt, как он работает и зачем нужен. Также будут даны рекомендации по составлению правильного протокола для роботов на сайте.
Написание файла robot.txt — это первый шаг в SEO-оптимизации вашего сайта. Это протокол, который сообщает роботам, какие страницы им можно индексировать, а какие — нет. Файл должен располагаться в корневой директории сайта и иметь имя «robot.txt». Этот протокол имеет очень простой синтаксис и может содержать несколько директив.
Первая и самая важная директива — это «User-agent:». Она позволяет указать конкретный робот поисковой системы, к которому применяются директивы, которые следуют за этой строкой. Например:
User-agent: Googlebot
User-agent: Bingbot
User-agent: *
«Disallow:» директива указывает, какие страницы не должны индексироваться. Это может быть целая директория или определенная страница. Например:
Disallow: /admin/
Disallow: /checkout.html
Обратите внимание, что запрещение индексации страницы не защищает её от переходов посетителей по ссылкам. Поэтому, если вам нужно ограничить доступ к определенным страницам сайта для роботов и посетителей, аналогом управления доступом является функционал .htaccess.
C помощью директивы «Disallow» можно ограничить доступ роботов к папкам с сайта. Для этого достаточно использовать следующую инструкцию:
Disallow: /temp/
Можно ограничить обход только пары страниц:
Disallow: /folder/page.html
Хотя в Google рекомендуют использование полных URL, вместо относительных:
Disallow: http://www.site.com/folder/page.html
Если же необходимо запретить индексацию всего сайта, то можно использовать следующую инструкцию:
User-agent: *
Disallow: /
Также можно указать sitemap.xml с помощью директивы «Sitemap:». Это помогает роботам быстрее проиндексировать ваши страницы.
Sitemap: http://www.example.com/sitemap.xml
Наконец, пользуясь циклом ClickHouse, будет удобнее комбинировать директивы. Например, если вы хотите запретить индексацию папки «/admin/» поисковым роботам, а также указать на наличие sitemap.xml файле, то можно использовать следующий пример:
User-agent: *
Disallow: /admin/
Sitemap: http://www.example.com/sitemap.xml
Помните, что плохо скомпонованный файл robot.txt может привести больше неприятностей, чем хороший. Поэтому старайтесь не использовать маски, коих «хитрые» SEO-специалисты часто включают в директиву «Disallow:».
При написании файлов robot.txt рекомендуется использовать директиву Host, которая указывает на конкретный сайт и предотвращает индексацию ошибочных ресурсов других сайтов, что особенно полезно, если вы работаете на VPS.
Файл robot.txt может быть использован в операционной системе Windows. Он может быть сохранен через блокнот. Но, как правило, директории более удобно создавать с помощью конструкторов — Bitrix, Joomla, WordPress.
Кроме того, не забудьте, что файл robot.txt должен быть обязательно доступен для чтения роботами поисковых систем.
Онлайн калькуляторы:
1) Для генерации правил: https://varvy.com/robottxt-generator.html
2) Для поверки: https://robotstxt.hashbangcode.com/
Используя все эти рекомендации и инструменты, вы сможете создать правильный файл robot.txt для своего сайта и улучшить его позиции в поисковых системах.