Главная /
Блог /
Что нужно спрятать от поисковых роботов на вашем сайте?

Что нужно спрятать от поисковых роботов на вашем сайте?

автор

статья от 02.01.2025

Специалист по поисковому маркетингу

Нормальное продвижение сайта невозможно без специального файла, который находится в корневой папке сайта и называется robots.txt. Это специальный набор правил для поисковых роботов, с помощью которых можно как разрешить, так и запретить им посещать определенные страницы или разделы вашего сайта. А еще он может сообщить «паукам» дополнительные сведенья.

Когда то с помощью robots.txt можно было только запрещать заходить в определенные разделы. Возможность разрешать индексацию добавилась не так давно сразу в двух поисковых системах – Яндексе и Google.

Структура robots.txt

директива User-agent, которая показывает, для какого конкретно робота прописаны следующие инструкции.
директива Disallow – указывает, какие разделы индексировать запрещено;
Allow – разрешает индексацию;
для следующего User-agent повторяются эти же действия;

Для Яндекса нужно указать директиву Host – показывает, какое зеркало сайта основное, с WWW или без.

Директива Sitemap, в которой указан адрес карты сайта.

В директивах Disallow и Allow можно указывать спецсимовлы — * и $. * означает любой символ, а $ — конец адреса.

Рассмотрим пример:

Disallow: /adm/*.php

Это правило запрещает индексацию всех файлов, которые находятся в папке adm и заканчиваются на .php.

Disallow: /admin$

Это правило означает, что роботу запрещено индексировать адрес /admin, но не /admin.php, если такой есть.

Еще есть директива Crawl-delay. Она дает возможность задать интервал между загрузкой страниц роботом, в дробном значении. Это пригодится сайтам, которые расположены на слабых, недорогих или бесплатных хостингах. Такой сервер может не выдерживать «приход в гости» поискового робота.

Но учтите, что поисковый робот Google не воспринимает эту директиву.

Чтобы проверить, правильно ли составлен robots.txt, воспользуйтесь Вебмастером Google. Зайдите в раздел «Сканирование» — «Посмотреть как Googlebot». Инструмент просканирует сайт и покажет вам, как его видят люди, и как – поисковой робот системы. Также вам предоставят список файлов, индексация которых запрещена, и ухудшает корректное считывание сайта «пауком». Некоторые нужные файлы вы можете тут же разрешить для индексации: обычно это изображения, файлы стилей и тп. Если вы разрешите все эти файлы, вид сайта для пользователей и для робота будет идентичным.

Какие файлы нужно закрыть от индексации?

Далеко не все нужно показывать поисковому роботу. Интернет-магазинам можно и нужно закрыть страницы авторизации, корзину, окно восстановления пароля, папки админпанели, системные папки, страницы с персональными данными (контактами пользователей).

Большинство современных движков уже имеют стандартный файл robots.txt, в котором указаны нужные правила. Но во время разработки сайта может потребоваться доработать его до нужного вида.

Прежде всего в robots.txt нужно задать:

Директивы User-agent:Yandex (для робота Яндекса), User-agent:Googlebot, для роботов других поисковых систем — User-agent:*
Для Яндекса – указать Host с главным зеркалом сайта
Sitemap с адресом в формате sitemap.xml

Если вы не сможете разобраться с этим сами, вы всегда можете привлечь специалиста. Настраивать роботс умеет каждый разработчик. А если вы не уверены, что у вашего сайта всё в порядке с индексацией и ранжированием? Закажите SEO-аудит и я подскажу как всё исправить.

Содержание

Какие файлы нужно закрыть от индексации?