Что на сайте нужно спрятать от поискового робота?

автор

статья от

Алексей Лазутин

Специалист по поисковому маркетингу

Нормальное продвижение сайта невозможно без специального файла, который находится в корневой папке сайта и называется robots.txt. Это специальный набор правил для поисковых роботов, с помощью которых можно как разрешить, так и запретить им посещать определенные страницы или разделы вашего сайта. А еще он может сообщить «паукам» дополнительные сведенья.

Когда то с помощью robots.txt можно было только запрещать заходить в определенные разделы. Возможность разрешать индексацию добавилась не так давно сразу в двух поисковых системах – Яндексе и Google.

Структура robots.txt

  • директива User-agent, которая показывает, для  какого конкретно робота прописаны следующие инструкции.
  • директива Disallow – указывает, какие разделы индексировать запрещено;
  • Allow – разрешает индексацию;
  • для следующего User-agent повторяются эти же действия;

Для Яндекса нужно указать директиву Host – показывает, какое зеркало сайта основное, с WWW или без.

Директива Sitemap, в которой указан адрес карты сайта.

В директивах Disallow и Allow можно указывать спецсимовлы — * и $. * означает любой символ, а  $ — конец адреса.

Рассмотрим пример:

Disallow: /adm/*.php

Это правило запрещает индексацию всех файлов, которые находятся в папке adm и заканчиваются на .php.

Disallow: /admin$

Это правило означает, что роботу запрещено индексировать адрес /admin, но не /admin.php, если такой есть.

Еще есть директива Crawl-delay. Она дает возможность задать интервал между загрузкой страниц роботом, в дробном значении. Это пригодится сайтам, которые расположены на слабых, недорогих или бесплатных хостингах. Такой сервер может не выдерживать «приход в гости» поискового робота.

Но учтите, что поисковый робот Google не воспринимает эту директиву.

Чтобы проверить, правильно ли составлен robots.txt, воспользуйтесь Вебмастером Google. Зайдите в раздел «Сканирование» — «Посмотреть как Googlebot». Инструмент просканирует сайт и покажет вам, как его видят люди, и как – поисковой робот системы. Также вам предоставят список файлов, индексация которых запрещена, и ухудшает корректное считывание сайта «пауком». Некоторые нужные файлы вы можете тут же разрешить для индексации: обычно это изображения, файлы стилей и тп. Если вы разрешите все эти файлы, вид сайта для пользователей и для робота будет идентичным.

Какие файлы нужно закрыть от индексации?

Далеко не все нужно показывать поисковому роботу. Интернет-магазинам можно и нужно закрыть страницы авторизации, корзину, окно восстановления пароля, папки админпанели, системные папки, страницы с персональными данными (контактами пользователей).

Большинство современных движков уже имеют стандартный файл robots.txt, в котором указаны нужные правила. Но во время разработки сайта может потребоваться доработать его до нужного вида.

Прежде всего в robots.txt нужно задать:

  • Директивы User-agent:Yandex (для робота Яндекса), User-agent:Googlebot, для роботов других поисковых систем — User-agent:*
  • Для Яндекса – указать Host с главным зеркалом сайта
  • Sitemap с адресом в формате sitemap.xml

Если вы не сможете разобраться с этим сами, вы всегда можете привлечь специалиста. Настраивать роботс умеет каждый разработчик. А если вы не уверены, что у вашего сайта всё в порядке с индексацией и ранжированием? Закажите SEO-аудит и я подскажу как всё исправить.

seohead.pro