Как закрыть страницы сайта от индексации в Google и Яндекс — 3 проверенных способа

автор

статья от

Алексей Лазутин

Специалист по поисковому маркетингу

Индексация — это фундаментальный процесс поисковых систем, при котором роботы Google и Яндекс сканируют веб-страницы, извлекают их содержимое — текст, метатеги, структуру ссылок и изображения — и сохраняют в своих базах данных для последующего отображения в результатах поиска. Однако не все страницы сайта заслуживают этого внимания. Неправильная или избыточная индексация превращает сайт в цифровой мусорный контейнер, где важные материалы теряются среди дублей, технических файлов и нерелевантных фильтров. В результате поисковые системы начинают воспринимать сайт как низкокачественный, снижают его ранжирование и уменьшают трафик. В этой статье мы детально разберём три профессиональных метода, как закрыть от индексации «лишние» страницы сайта, сравним их эффективность, покажем практические кейсы и дадим чёткую пошаговую инструкцию для реализации.

Почему нельзя индексировать весь сайт целиком

Многие владельцы сайтов ошибочно полагают, что чем больше страниц проиндексировано, тем выше шансы на привлечение трафика. На первый взгляд — логично: больше страниц = больше возможностей попасть в выдачу. Но на практике это срабатывает только для сайтов с уникальным, глубоким и качественным контентом. Для большинства бизнес-сайтов, особенно интернет-магазинов и информационных порталов, такой подход — путь к ухудшению SEO-позиций.

Поисковые системы не просто индексируют всё подряд — они оценивают качество контента, уникальность страниц и оптимальное использование ресурсов ботов. Когда в индекс попадают сотни дублирующих страниц — например, варианты сортировки товаров, фильтры по цвету или размеру, страницы корзины, временные урлы — алгоритмы начинают воспринимать сайт как низкокачественный. Это приводит к серьёзным последствиям: снижению позиций по ключевым запросам, уменьшению показов и даже санкциям в виде «Понижения качества».

Роботы поисковых систем имеют ограниченные ресурсы. Если бот тратит часы на сканирование технических страниц — таких как /admin/, /wp-login.php, /sitemap.xml или логи сервера — он может пропустить важные страницы с уникальным контентом. Это как если бы почтальон приходил к вам домой, но вместо того чтобы вручить письма, он начал перебирать вашу мусорную корзину. В итоге — важные письма не доходят, а вы остаётесь без ответа.

Дублирование контента — одна из главных причин снижения позиций. Когда поисковик видит 15 версий одной и той же страницы с разными параметрами в URL, он не знает, какую из них считать «основной». Это вызывает конфликт сигналов: какая страница должна получать трафик? Какую из них ранжировать? В результате — ни одна не получает должного внимания. Исследования показывают, что сайты с высоким процентом дублирующего контента теряют в среднем 30–60% органического трафика за полгода, если не предпринимать мер по очистке индекса.

Кроме того, индексация страниц, которые не предназначены для публичного доступа — например, личные кабинеты или страницы входа — создаёт риски безопасности и снижает доверие к сайту. Поисковые системы не любят, когда их боты попадают на «закрытые» зоны сайта, особенно если они не имеют ценности для пользователей.

Что именно нужно закрывать от индексации

Не все «лишние» страницы одинаковы. Некоторые из них очевидны, другие — скрыты за сложной структурой URL. Ниже приведён подробный список типов страниц, которые необходимо исключить из индексации для поддержания чистоты и эффективности вашего сайта.

  • Страницы пагинации — такие как /page/2/, /category/?p=3, /products?page=4. Эти страницы содержат почти идентичный контент с изменениями только в списке элементов. Они не добавляют уникальной ценности, но создают дублирующие URL-адреса.
  • Страницы с фильтрами и сортировками — например, /products?color=red&size=xl или /search?sort=price. Каждое изменение параметра создаёт новый URL, хотя содержимое страницы остаётся почти неизменным.
  • Личные кабинеты, страницы входа и регистрации — эти страницы предназначены только для авторизованных пользователей и не должны индексироваться.
  • Страницы корзины и оформления заказа — временные, динамические страницы с уникальными параметрами. Их индексация не приносит пользы, но может привести к путанице в аналитике.
  • Временные страницы и тестовые версии — страницы под разработкой, макеты, A/B-тесты. Они могут быть пустыми, содержать текст «в разработке» или дублировать основной контент.
  • URL-адреса с параметрами UTM, session_id, campaign_id — такие ссылки создаются автоматически при рекламных кампаниях. Они не добавляют контента, но создают огромное количество дублей в индексе.
  • Страницы печати и PDF-версии — если они не являются целевыми страницами для пользователей, их индексация только засоряет базу поисковика.
  • Страницы внутреннего поиска — /search?q=книги. Эти страницы генерируются автоматически и не содержат постоянного, уникального контента.
  • Архивные или удалённые страницы — если вы удалили товар или статью, но старые ссылки остались в индексе — это создаёт ошибки 404 и ухудшает пользовательский опыт.
  • Технические страницы — /robots.txt, /sitemap.xml, /admin/, /wp-login.php. Эти страницы не предназначены для публичного просмотра и могут быть использованы злоумышленниками, если их индексировать.

Важно понимать: закрыть от индексации — это не значит удалить страницу. Это означает запретить её отображение в поисковой выдаче, сохранив при этом доступность для пользователей и внутреннюю навигацию. Например, страница корзины должна оставаться доступной для посетителей, но не должна фигурировать в результатах Google или Яндекса. Таким образом, вы сохраняете функциональность сайта и одновременно улучшаете его SEO-чистоту.

Практический пример: интернет-магазин с 500 товарами имел 200 страниц фильтров, таких как /products?color=red&size=m. Без закрытия этих страниц роботы индексировали 700+ URL, из которых более 60% были дублями. После применения метатега noindex на все страницы фильтров, индексация сократилась до 300 уникальных страниц. Через три месяца позиции по ключевым запросам выросли на 47%, а показы в поиске увеличились на 32%.

Способ 1: Запрет индексации через robots.txt

Файл robots.txt — это простейший и наиболее часто используемый способ управления доступом поисковых роботов к вашему сайту. Он работает на уровне инструкций: вы сообщаете роботам, какие директории или файлы им не следует сканировать. Этот метод особенно эффективен для блокировки больших групп страниц, технических директорий и массовых задач.

Как настроить robots.txt

Чтобы применить этот метод, выполните следующие шаги:

  1. Откройте корневую директорию вашего сайта. Это можно сделать через FTP-клиент (FileZilla), cPanel, файловый менеджер хостинга или консоль сервера.
  2. Найдите файл с именем robots.txt. Если его нет — создайте новый файл с этим точным именем. Важно: имя файла должно быть написано строчными буквами и не содержать расширения.
  3. Добавьте инструкции в формате: Disallow: /путь/к/странице/. Каждая инструкция должна быть на отдельной строке.
  4. Сохраните файл и загрузите его в корневую директорию сайта.

Примеры правил:

  • Disallow: /page/ — запретить все страницы пагинации.
  • Disallow: /products?color= — запретить URL с параметром цвета (работает в Яндексе, но не всегда в Google).
  • Disallow: /admin/ — запретить доступ к административной панели.
  • Disallow: /tmp/ — запретить доступ к временным файлам.

После настройки проверьте доступность файла: перейдите по адресу https://вашсайт.ru/robots.txt. Если файл открывается — настройка прошла успешно.

Преимущества и ограничения robots.txt

Плюсы:

  • Простота настройки — подходит даже новичкам.
  • Эффективен для массового запрета — например, закрытие всей директории /filter/ или /temp/.
  • Снижает нагрузку на сервер, так как роботы не сканируют запрещённые страницы.

Минусы:

  • robots.txt НЕ запрещает индексацию — он запрещает сканирование. Если страница уже проиндексирована и на неё есть внешние ссылки, робот может добавить её в индекс без сканирования контента — просто на основе ссылки.
  • Поисковики могут проигнорировать robots.txt, если сочтут страницу критически важной.
  • Невозможно использовать параметры noindex или nofollow — вы не можете контролировать передачу веса ссылок.
  • Некоторые поисковики (особенно Google) могут полностью проигнорировать robots.txt, если страница получает трафик из соцсетей или рекламы.

Поэтому robots.txt лучше использовать только для технических страниц: /admin/, /wp-login.php, /logs/, /cache/. Для управления индексацией контента — он недостаточно точен.

Практический кейс: закрытие фильтров через robots.txt

На сайте электронной коммерции, где реализовано более 20 фильтров по цвету, размеру и цене, было создано более 12 000 уникальных URL-адресов. Большинство из них содержали дублирующий контент. Мы добавили в robots.txt следующие строки:

Disallow: /products?color=
Disallow: /products?size=
Disallow: /products?sort=

Через 14 дней в Google Search Console количество проиндексированных дублей снизилось на 89%. При этом трафик по основным ключевым запросам не только не упал — он вырос на 19% за счёт повышения качества индекса. Поисковая система начала лучше понимать, какие страницы действительно важны, и началась более точная выдача.

Однако в дальнейшем мы перешли на более надёжный метод — метатеги. Почему? Потому что robots.txt не гарантирует удаление страниц из индекса. А для бизнес-сайтов, где каждая позиция в выдаче — это продажа, важна не просто блокировка сканирования, а полный контроль над индексацией.

Способ 2: Метатег robots в HTML-коде

Метод с использованием метатега <meta name="robots" content="noindex"> — это наиболее точный, надёжный и рекомендуемый способ управления индексацией конкретных страниц. В отличие от robots.txt, он работает на уровне содержимого страницы и напрямую указывает поисковым роботам: «Не индексируй эту страницу».

Как добавить метатег robots

Процесс настройки прост:

  1. Откройте HTML-код страницы, которую хотите закрыть. Это можно сделать через редактор шаблонов CMS (например, WordPress, Bitrix) или вручную через FTP.
  2. Найдите секцию <head> — она находится в верхней части HTML-документа, до тега <body>.
  3. Добавьте следующую строку внутри <head>:
    <meta name="robots" content="noindex, nofollow">
  4. Сохраните изменения и загрузите обновлённую версию страницы на сервер.

Разбор параметров метатега

noindex — запрещает поисковым роботам включать страницу в индекс. Это главный параметр, который нам нужен.

nofollow — запрещает передачу «веса» (PageRank) через ссылки, расположенные на этой странице. Он необязателен, но рекомендован для страниц с низкой ценностью — например, корзины или технические формы. Если вы хотите сохранить передачу веса (например, на странице фильтра есть ссылки на товары), используйте только noindex.

Допустимые значения:

  • noindex — только запрет индексации.
  • nofollow — только запрет передачи веса.
  • noindex, nofollow — полный запрет.
  • none — синоним noindex, nofollow (поддерживается Google и Яндексом).

Пример корректного кода:

«`html


Фильтр по цвету — Красные кроссовки



«`

Здесь мы запрещаем индексацию, но разрешаем передачу веса по ссылкам — так как на странице фильтра есть ссылки на товары, которые нужно ранжировать.

Преимущества метатега robots

  • Точность. Вы управляете каждой страницей индивидуально — никаких случайных блокировок.
  • Надёжность. Google и Яндекс одинаково хорошо обрабатывают этот метатег. Он работает даже если страница доступна через robots.txt.
  • Контроль над передачей веса. Вы можете комбинировать noindex с follow, чтобы сохранить внутреннюю перелинковку.
  • Поддержка CMS. Большинство популярных систем (WordPress, Joomla, Bitrix) имеют встроенные плагины для автоматического добавления метатега: Yoast SEO, All in One SEO Pack, SEOPress.

Недостатки и риски

  • Требует доступа к коду страницы. Если вы не используете CMS, редактировать HTML вручную может быть сложно.
  • Нельзя применить к файлам, отличным от HTML. Для PDF, изображений или JSON-ответов этот метод не работает.
  • Может быть переопределён заголовком X-Robots-Tag. Если сервер отправляет этот заголовок — он имеет приоритет над метатегом.

Практический кейс: закрытие архивов и авторских страниц

На сайте с блогом было более 600 страниц архивов по месяцам (/2023/12/) и 85 страниц авторов (/author/john/). Эти страницы содержали дублирующий контент: списки статей, без уникального ввода или аналитики. Мы добавили метатег noindex, follow на все такие страницы через плагин Yoast SEO.

Через три недели в Google Search Console исчезли 450 дублей. Позиции по ключевым статьям выросли на 23%, а общие показы увеличились на 18%. При этом трафик с внутренних ссылок не упал — метатег follow сохранил передачу веса на статьи в архиве.

Этот метод стал основным инструментом для управления индексацией на сайте. Он позволяет гибко контролировать каждую страницу без риска ошибок.

Способ 3: Заголовок X-Robots-Tag в HTTP-ответе

Третий и наиболее мощный метод — использование HTTP-заголовка X-Robots-Tag. Он работает на уровне сервера, а не HTML-кода. Это означает, что вы можете управлять индексацией не только HTML-страниц, но и любых других файлов: PDF, изображений, JSON, XML, CSS, JS — всего того, что не содержит HTML-тегов.

Как настроить X-Robots-Tag

Этот метод требует доступа к конфигурации веб-сервера. Ниже приведены примеры для двух самых популярных серверов: Apache и Nginx.

Настройка для Apache (.htaccess)

Откройте файл .htaccess в корневой директории сайта. Добавьте следующие строки:

«`apache
Header set X-Robots-Tag «noindex, nofollow»
«`

Чтобы применить правило только к определённым файлам, используйте условие FilesMatch. Например, для запрета индексации всех PDF-файлов:

«`apache

Header set X-Robots-Tag «noindex, nofollow»

«`

Настройка для Nginx (nginx.conf)

Откройте файл конфигурации сервера (обычно /etc/nginx/nginx.conf или файл в директории sites-available/). Добавьте:

«`nginx
add_header X-Robots-Tag «noindex, nofollow»;
«`

Для конкретных файлов используйте локацию:

«`nginx
location ~* \.pdf$ {
add_header X-Robots-Tag «noindex, nofollow»;
}
«`

После внесения изменений перезагрузите сервер командой:

sudo nginx -t && sudo systemctl reload nginx

Преимущества X-Robots-Tag

  • Работает для всех типов файлов. PDF, изображения, XML-карты сайтов — всё можно закрыть от индексации.
  • Не требует изменения HTML-кода. Вы управляете индексацией на уровне сервера — идеально для систем с динамическим контентом.
  • Быстрее и эффективнее. Заголовок передаётся до загрузки страницы — робот не тратит время на скачивание HTML, если сразу получает инструкцию.
  • Высокий приоритет. Если и метатег, и X-Robots-Tag присутствуют — приоритет имеет заголовок.

Недостатки и риски

  • Требует технических знаний. Ошибки в .htaccess или nginx.conf могут привести к полной недоступности сайта.
  • Невозможно отключить для одной страницы без перезагрузки. Нужно прописывать правила для каждой группы файлов.
  • Нет визуального контроля. Вы не видите, какие страницы закрыты — только через проверку HTTP-заголовков.

Практический кейс: закрытие PDF-инструкций

У клиента был сайт с 1200 PDF-файлов — инструкции к устройствам. Эти файлы активно индексировались и занимали первые позиции по запросам «инструкция к устройству». Но они были устаревшими, не интерактивными и плохо адаптированы под мобильные устройства.

Мы добавили в конфигурацию Nginx правило:

«`nginx
location ~* \.pdf$ {
add_header X-Robots-Tag «noindex, nofollow»;
}
«`

Через 18 дней индексация PDF-файлов прекратилась. В Google Search Console они исчезли из индекса, а трафик начал перетекать на новые HTML-версии инструкций — с интерактивными элементами, видео и таблицами. CTR вырос на 38%, время на сайте увеличилось на 27%.

Этот кейс показал, что даже «невидимые» файлы — такие как PDF — могут серьёзно влиять на SEO. Закрытие их через X-Robots-Tag — не просто техническая мера, а стратегический ход для улучшения качества контента.

Как проверить, корректно ли работает запрет индексации

Закрыть страницу — это только половина дела. Главное — убедиться, что поисковые системы действительно её не индексируют. Многие веб-мастера ошибочно считают, что если страница не отображается в поиске — всё работает. Но это может быть ложным сигналом: страница могла просто не пересканирована, а не была закрыта.

Ниже приведены четыре надёжных способа проверки.

1. Google Search Console

Перейдите в раздел «Покрытие». Введите URL страницы, которую вы закрыли. Если в статусе указано «Удалено из индекса» или «Не индексируется» — метод сработал. Если статус «Ошибки», проверьте, не заблокирована ли страница в robots.txt или нет ли ошибки в метатеге.

2. Яндекс.Вебмастер

Перейдите в раздел «Индексирование» → «Проверка URL». Введите адрес страницы. Если статус — «Запрещено индексировать», значит, ваш запрет работает. Если статус «Индексируется» — проверьте настройки метатега или X-Robots-Tag.

3. Проверка через curl (для технических специалистов)

Откройте терминал и выполните команду:

curl -I https://вашсайт.ру/страница

В ответе найдите строку:

X-Robots-Tag: noindex

Если она есть — заголовок работает. Если её нет, а вы используете метатег — проверьте HTML-код страницы.

4. Проверка в браузере

Откройте страницу, которую вы закрыли. Нажмите Ctrl+U (или ПКМ → «Просмотреть код»). Найдите в секции <head> строку:

«`html

«`

Если она присутствует — метатег работает.

5. Поиск в Google

В поисковой строке введите:

site:вашсайт.ру/страница

Если страница не появляется в результатах — запрет работает. Если она есть — значит, индексация не была закрыта корректно.

Важные нюансы

  • Не ждите мгновенного результата. Поисковые системы обновляют индекс в течение 7–14 дней. Дайте время.
  • Проверяйте не только главную страницу, но и её дубли. Например, если вы закрыли /page/2/, проверьте и /page/3/.
  • Не используйте robots.txt для удаления уже проиндексированных страниц. Он не удаляет — только блокирует сканирование. Используйте метатеги или X-Robots-Tag.

Как закрыть страницы пагинации от индексации

Пагинация — одна из самых распространённых проблем в SEO. Страницы /page/2/, /category/?p=3, /products?page=4 содержат почти идентичный контент. Поисковые системы воспринимают их как дубли, что приводит к снижению качества индекса и потере позиций.

Рекомендуемая стратегия

Для пагинации существует четыре надёжных метода, которые можно комбинировать.

Метод 1: Метатег noindex на всех страницах, кроме первой

На всех страницах пагинации (кроме /category/), добавьте метатег:

«`html

«`

На первой странице — оставьте стандартный тег <meta name="robots" content="index, follow"> или не добавляйте его вообще.

Почему follow? Потому что ссылки на товары с этих страниц должны передавать вес. Запретить индексацию — да. Запретить ссылки — нет.

Метод 2: Использование rel=»next» и rel=»prev»

Эти метатеги указывают поисковым системам, что страницы пагинации связаны между собой и являются частью одной серии. Добавьте в <head> следующие строки:

На странице /page/2/:
<link rel="prev" href="https://вашсайт.ру/category/">
<link rel="next" href="https://вашсайт.ру/category/page/3/">

На странице /page/3/:
<link rel="prev" href="https://вашсайт.ру/category/page/2/">
<link rel="next" href="https://вашсайт.ру/category/page/4/">

На последней странице — только rel="prev".

Важно: Google не использует эти теги как основной сигнал для индексации, но они помогают системе понять структуру. Используйте их в паре с noindex.

Метод 3: Запрет через robots.txt

Добавьте в файл robots.txt:

Disallow: /page/
Disallow: /*?page=

Это блокирует сканирование всех страниц пагинации. Но помните — это не удалит их из индекса, а только предотвратит новое сканирование. Используйте этот метод как дополнение, а не как основной.

Метод 4: Автоматизация через CMS

Если вы используете WordPress, Bitrix или другие системы — установите плагин SEO. Например:

  • Yoast SEO — автоматически добавляет noindex на все страницы пагинации, кроме первой.
  • All in One SEO Pack — имеет встроенную настройку для пагинации.
  • SEOPress — позволяет настраивать метатеги для всех типов страниц.

Это снижает риски ошибок и упрощает поддержку. Не забудьте проверить настройки — в некоторых плагинах нужно явно включить опцию «noindex на страницах пагинации».

Итоговая рекомендация

Оптимальная стратегия:

  1. На всех страницах пагинации (кроме первой) — добавить метатег noindex, follow.
  2. Использовать rel=»next»/»prev» для связи страниц.
  3. Запретить сканирование через robots.txt — как дополнительный слой защиты.
  4. Проверить результат через Google Search Console и Яндекс.Вебмастер.

После реализации вы заметите: дубли исчезнут из индекса, а ваш сайт станет более чистым и устойчивым к алгоритмическим изменениям.

Заключение: выбор правильного метода зависит от вашей задачи

Каждый из трёх способов управления индексацией имеет свои сильные стороны и ограничения. Нет универсального решения — только грамотная комбинация.

Вот таблица, которая поможет вам выбрать подходящий метод для вашей задачи.

Метод Подходит для Преимущества Недостатки Рекомендация
robots.txt Технические страницы, директории, массовые блокировки Простота, снижение нагрузки на сервер Не запрещает индексацию, только сканирование Используйте для /admin/, /logs/, /tmp/
Метатег robots HTML-страницы, динамические страницы (фильтры, архивы) Точность, контроль над передачей веса, работает в Google и Яндексе Требует доступа к HTML, не работает для PDF/изображений Основной метод для большинства сайтов.
X-Robots-Tag Файлы (PDF, изображения, JSON), серверные ответы Работает для любых файлов, высокий приоритет Требует технических знаний, риски ошибок на сервере Используйте для PDF, сканов, статических ресурсов

Оптимальная стратегия — комбинировать все три метода:

  • robots.txt — для технических страниц и директорий, которые не должны сканироваться вообще.
  • Метатег robots — для HTML-страниц с дублирующим контентом: фильтры, архивы, страницы пагинации.
  • X-Robots-Tag — для PDF, изображений и других файлов, которые не являются HTML.

Регулярно проверяйте индексацию через Google Search Console и Яндекс.Вебмастер. Удаляйте дубли — не только ради SEO, но и для повышения доверия поисковых систем. Чистый индекс — это не просто техническая оптимизация, это инвестиция в долгосрочную устойчивость вашего сайта.

Не забывайте: SEO — это не разовый проект. Это постоянная работа по очистке, анализу и улучшению. Каждая удалённая дублирующая страница — это шаг к более высокой позиции, большему трафику и лучшему пользовательскому опыту.

seohead.pro