(найти ошибки на сайте)
Когда я провожу SEO-аудиты сайтов, то очень часто встречаю одну очень серьезную ошибку. Это отсутствие файла robots.txt или неправильную его настройку.
Файл robots.txt представляет собой инструкцию для поисковых роботов. Простыми словами, в нем прописаны команды, какие страницы можно индексировать, какие – нельзя. С помощью этого файла можно запретить индексацию сайта или отдельных его страниц.
Если этого файла нет, индексация может пройти некорректно, сайт может долго заходить в индекс, или же в поиск попадут совсем не нужные вам страницы.
Находится этот файл в корневой папке сайта. Посмотреть, есть ли он на вашем сайте, вы можете, вбив в адресную строку браузера адрес-вашего-сайта.ру/robots.txt.
Структура файла robots.txt
Обычно настройка файла robots txt такова: в нем сначала идут общие правила:
User-agent: *
Потом инструкции для одного поискового робота (Яндекс), которые задаются командой:
User-agent: Yandex
затем – для другого (Google):
User-agent: Googlebot
То есть, вы с помощью настройки этого файла даже можете запретить индексировать сайт конкретной поисковой системе.
После инструкций идет команда Host: адрес-вашего-сайта.ру. Тут вы можете указать, какое зеркало вашего сайта главное – с www или без.
Затем указаны ссылки на карту сайта:
Sitemap: ссылка-на-карту-сайта.xml
Вот пример файла, чтобы не быть голословным:
Директивы и их значение
Каждая команда в файле имеет свое значение.
User-agent – указывает, для какого поискового паука будет идти инструкция.
Disallow – запрет на индексацию.
Allow – открыто для индексации (обычно не используется, все что не запрещено – открыто). У меня в примере этого параметра нет.
*- любое значение.
Порядок расположения директив на индексацию сайта не влияет.
Правильная настройка robots txt
Теперь разберемся, как правильно настроить robots txt.
Настройка файла robots txt – это дело вебмастера. Но случается всякое, если вы сами разрабатываете сайт или хотите внести изменения – дальше информация для вас.
Вы можете прописать инструкцию просто в текстовом редакторе, в том же блокноте. Общую схему документа вы уже поняли.
Обратите внимание, что после инструкций для конкретного робота нужно сделать пустую строку.
User-agent: *
Disallow: /адрес-страницы
User-agent: Googlebot
Disallow: /адрес-страницы
А вот внутри пары User-agent+ Disallow пустых строк быть не должно. Получается, что инструкции для каждого бота идут отдельным блоком.
Чтобы в robots txt запретить индексацию конкретной страницы, нужно указать то, что написано в адресной строке после основного адреса вашего сайта.
Поясню.
Адрес вашего сайта: подоконники.рф. Вы хотите закрыть от индексации страницу подоконники.рф/корзина. В файле robots txt пишем:
User-agent: Googlebot
Disallow: /корзина
То есть, слэш (/) и то, что идет после него. Это называется «относительный адрес».
Приведу несколько стандартных манипуляций по настройке robots txt.
Полностью закрыть сайт от индексации в robots txt можно следующим образом:
User-agent: *
Disallow: /
Вы можете закрыть от индексации конкретные страницы:
User-agent: Googlebot
Disallow: /no-index/this-page.html
Или запретить индексировать отдельный тип файлов:
User-agent: *
Disallow: /*.xls$
Что касается карты сайта, то если вы постоянно публикуете новый уникальный контент, в файл robots txt можете ссылку на него не добавлять, достаточно добавить ссылку на карту сайта и роботы сами увидят новый контент.
После того, как вы прописали этот файл, его нужно залить в корневую папку сайта. Проверить корректность файла помогут инструменты для вебмастеров, если сайт туда добавлен и права подтверждены. Яндекс.Вебмастер:
и Google Search Console (Сканирование -> Инструмент проверки файла robots.txt.).
Что нужно закрывать от индексации?
Вам может показаться, что чем больше страниц в индексе – тем лучше. Оно так. Только часто в индекс попадают мусорные или служебные страницы. Их нужно закрывать от индексации через robots txt. Это:
- админка сайта;
- страницы или файлы с личными данными;
- страницы входа;
- корзину;
- страницы регистрации;
- дубли страниц.
Вы можете легко закрыть от индексации любую страницу на сайте, появление которой в результатах поиска будет для вас нежелательным.
Настройка файла robots txt – это один из основных пунктов по внутренней оптимизации сайта. Его правильная настройка поможет вашему сайту зайти в индекс надлежащим образом. Откройте нужные страницы и закройте ненужные.
Существует ли вероятность того, что поисковые роботы обойдут рекомендации, которые вы прописали? Небольшая вероятность есть. Потому всегда проверяйте состояние дел по сайту через инструменты для вебмастеров.