Что на сайте нужно спрятать от поискового робота?
Нормальное продвижение сайта невозможно без специального файла, который находится в корневой папке сайта и называется robots.txt. Это специальный набор правил для поисковых роботов, с помощью которых можно как разрешить, так и запретить им посещать определенные страницы или разделы вашего сайта. А еще он может сообщить «паукам» дополнительные сведенья.
Когда то с помощью robots.txt можно было только запрещать заходить в определенные разделы. Возможность разрешать индексацию добавилась не так давно сразу в двух поисковых системах – Яндексе и Google.
Структура robots.txt
- директива User-agent, которая показывает, для какого конкретно робота прописаны следующие инструкции.
- директива Disallow – указывает, какие разделы индексировать запрещено;
- Allow – разрешает индексацию;
- для следующего User-agent повторяются эти же действия;
Для Яндекса нужно указать директиву Host – показывает, какое зеркало сайта основное, с WWW или без.
Директива Sitemap, в которой указан адрес карты сайта.
В директивах Disallow и Allow можно указывать спецсимовлы — * и $. * означает любой символ, а $ — конец адреса.
Рассмотрим пример:
Disallow: /adm/*.php
Это правило запрещает индексацию всех файлов, которые находятся в папке adm и заканчиваются на .php.
Disallow: /admin$
Это правило означает, что роботу запрещено индексировать адрес /admin, но не /admin.php, если такой есть.
Еще есть директива Crawl-delay. Она дает возможность задать интервал между загрузкой страниц роботом, в дробном значении. Это пригодится сайтам, которые расположены на слабых, недорогих или бесплатных хостингах. Такой сервер может не выдерживать «приход в гости» поискового робота.
Но учтите, что поисковый робот Google не воспринимает эту директиву.
Чтобы проверить, правильно ли составлен robots.txt, воспользуйтесь Вебмастером Google. Зайдите в раздел «Сканирование» — «Посмотреть как Googlebot». Инструмент просканирует сайт и покажет вам, как его видят люди, и как – поисковой робот системы. Также вам предоставят список файлов, индексация которых запрещена, и ухудшает корректное считывание сайта «пауком». Некоторые нужные файлы вы можете тут же разрешить для индексации: обычно это изображения, файлы стилей и тп. Если вы разрешите все эти файлы, вид сайта для пользователей и для робота будет идентичным.
Какие файлы нужно закрыть от индексации?
Далеко не все нужно показывать поисковому роботу. Интернет-магазинам можно и нужно закрыть страницы авторизации, корзину, окно восстановления пароля, папки админпанели, системные папки, страницы с персональными данными (контактами пользователей).
Большинство современных движков уже имеют стандартный файл robots.txt, в котором указаны нужные правила. Но во время разработки сайта может потребоваться доработать его до нужного вида.
Прежде всего в robots.txt нужно задать:
- Директивы User-agent:Yandex (для робота Яндекса), User-agent:Googlebot, для роботов других поисковых систем — User-agent:*
- Для Яндекса – указать Host с главным зеркалом сайта
- Sitemap с адресом в формате sitemap.xml
Если вы не сможете разобраться с этим сами, вы всегда можете привлечь специалиста. Настраивать роботс умеет каждый разработчик. А если вы не уверены, что у вашего сайта всё в порядке с индексацией и ранжированием? Закажите SEO-аудит и я подскажу как всё исправить.
seohead.pro