Как закрыть «лишние» страницы сайта от индексации: 3 профессиональных способа и пошаговая инструкция
Термин «индексация» означает процесс, при котором поисковые роботы Google и Яндекс сканируют веб-страницы, извлекают их содержимое — текст, изображения, метаданные — и сохраняют в своих базах данных для последующего отображения в результатах поиска. Однако не все страницы сайта должны попадать в индекс. Неправильная индексация может привести к снижению релевантности сайта, дублированию контента и потере позиций в выдаче. В этой статье мы подробно разберём три надёжных метода, как закрыть от индексации «лишние» страницы, рассмотрим их преимущества и недостатки, а также научимся проверять результаты.
Почему нельзя индексировать весь сайт целиком
Многие веб-мастера ошибочно полагают, что чем больше страниц проиндексировано, тем выше шансы на трафик. На практике это приводит к обратному эффекту.
- Поисковые системы оценивают качество сайта по соотношению полезного и мусорного контента. Чем больше «пустых» или дублирующих страниц в индексе, тем ниже доверие к сайту.
- Дублирование контента — одна из главных причин снижения позиций. Страницы с одинаковым или почти идентичным содержанием (например, страницы пагинации, фильтры, корзины) вводят поисковиков в заблуждение: какой вариант считать основным.
- Ресурсы роботов ограничены. Если поисковый бот тратит время на индексацию технических страниц (логи, админ-панели, временные урлы), он может пропустить важные материалы.
- В Google и Яндексе действует алгоритм «Понижение качества». Сайты с высоким процентом низкокачественных страниц автоматически получают более низкие позиции в выдаче.
Индексация должна быть целенаправленной: только полезный, уникальный и релевантный контент должен попадать в результаты поиска.
Что именно нужно закрывать от индексации
Не все «лишние» страницы одинаковы. Некоторые из них очевидны, другие — скрыты за сложной структурой. Вот список типов страниц, которые необходимо исключить из индексации:
- Страницы пагинации (например, /page/2/, /category/.p=3)
- Страницы с фильтрами и сортировками (например, /products.sort=price&color=red)
- Личные кабинеты, страницы входа и регистрации
- Страницы корзины и оформления заказа
- Временные страницы, тестовые версии, страницы «под разработкой»
- URL-адреса с параметрами UTM, session_id, campaign_id
- Страницы печати или PDF-версии (если они не являются целевыми)
- Страницы поиска на сайте (например, /search.q=книги)
- Архивные или удалённые страницы, сохранённые по старым ссылкам
- Технические страницы: /admin/, /wp-login.php, /robots.txt, /sitemap.xml
При этом важно понимать: закрывать от индексации — это не значит удалять страницы. Это значит запретить их отображение в поисковой выдаче, сохраняя при этом доступность для пользователей и внутреннюю навигацию.
Способ 1: Запрет индексации через robots.txt
Файл robots.txt — это инструкция для поисковых роботов, где вы указываете, какие директории или файлы не следует сканировать. Это самый простой и часто используемый способ.
Чтобы закрыть страницы через robots.txt:
- Откройте корневую директорию вашего сайта (обычно через FTP, cPanel или файловый менеджер хостинга).
- Найдите файл
robots.txt. Если его нет — создайте новый файл с этим именем. - Добавьте строку вида:
Disallow: /path/to/page/. Например, чтобы запретить индексацию всех страниц пагинации:Disallow: /page/. - Сохраните файл и загрузите его на сервер.
Важно: robots.txt НЕ запрещает индексацию — он лишь запрещает сканирование. Если страница уже проиндексирована и на неё есть внешние ссылки, робот может всё равно добавить её в индекс на основе ссылок. Также поисковики могут игнорировать robots.txt, если считают страницу важной.
Рекомендуется использовать robots.txt только для технических страниц (админка, временные урлы) или больших директорий. Для контроля индексации лучше применять другие методы.
.sort= и .filter=. Через 14 дней в Google Search Console количество проиндексированных дублей снизилось на 89%. При этом трафик с ключевых запросов не пострадал — даже вырос за счёт улучшения качества индекса.Способ 2: Метатег robots в HTML-коде
Этот метод — самый точный и надёжный для контроля индексации конкретных страниц. Метатег <meta name="robots" content="noindex"> прямо указывает поисковым роботам: «Не индексируй эту страницу».
Как добавить метатег:
- Откройте HTML-код страницы, которую хотите закрыть (например, через редактор шаблонов CMS или вручную).
- Найдите секцию
<head>. - Добавьте следующую строку внутри
<head>:
<meta name="robots" content="noindex, nofollow"> - Сохраните изменения и загрузите страницу на сервер.
Пояснение параметров:
noindex— запретить индексацию страницы.nofollow— запретить передачу «веса» по ссылкам с этой страницы (опционально).
Этот метод идеален для страниц с динамическим контентом, таких как страницы фильтров или корзины. Он работает в Google и Яндексе одинаково надёжно.
Важный нюанс: если вы используете CMS (например, WordPress), установите плагин вроде Yoast SEO или All in One SEO Pack, чтобы добавить метатег через интерфейс — без ручного редактирования кода.
Способ 3: Заголовок X-Robots-Tag в HTTP-ответе
Этот метод подходит для технически продвинутых веб-мастеров и применяется на уровне сервера. Он особенно полезен для файлов, которые не являются HTML-страницами: PDF, изображения, JSON, XML и другие.
Как настроить X-Robots-Tag:
- На Apache: добавьте в файл
.htaccessстроку:
Header set X-Robots-Tag "noindex" - На Nginx: добавьте в конфигурацию сервера:
add_header X-Robots-Tag "noindex"; - Для конкретных файлов: например, чтобы запретить индексацию всех PDF-файлов:
location ~* \.pdf$ {
add_header X-Robots-Tag "noindex, nofollow";
}
Преимущества этого метода:
- Работает для всех типов файлов, а не только HTML.
- Не требует изменения содержимого страницы — настройка выполняется на сервере.
- Более быстрый способ, чем изменение HTML-кода.
Недостаток: требует доступа к серверу и знаний в настройке веб-серверов. Ошибки в .htaccess или nginx.conf могут привести к сбою сайта.
Как проверить, корректно ли работает запрет индексации
Закрыть страницу — это только половина дела. Важно убедиться, что поисковики действительно её не индексируют.
Вот как проверить:
- Google Search Console: перейдите в раздел «Покрытие» → найдите URL → проверьте статус. Если стоит «Удалено из индекса» или «Не индексируется», всё работает.
- Яндекс.Вебмастер: в разделе «Индексирование» → «Проверка URL» введите адрес страницы. Убедитесь, что статус — «Запрещено индексировать».
- Проверка через curl: в терминале выполните команду:
curl -I https://вашсайт.ру/страница
Найдите в ответе строкуX-Robots-Tag: noindex. - Проверка в браузере: откройте исходный код страницы (Ctrl+U) и найдите
<meta name="robots" content="noindex">. - Поиск в Google: введите в поиске
site:вашсайт.ру/страница. Если страницы нет в результатах — запрет работает.
Важно: Индексация может обновляться в течение нескольких дней. Не ждите мгновенного результата — дайте поисковым системам 7–14 дней на пересканирование.
Как закрыть страницы пагинации от индексации
Пагинация — одна из самых частых причин дублирования контента. Страницы /page/2/, /category/.page=3 и т.д. содержат почти одинаковый текст, только с другим набором записей.
Рекомендуемый подход:
- Способ 1: Добавьте
<meta name="robots" content="noindex, follow">на все страницы пагинации (кроме первой). - Способ 2: Используйте
rel="next"иrel="prev"в метатегах для связки страниц. - Способ 3: В robots.txt запретите индексацию всех URL с параметром
page=. - Способ 4: Для CMS (WordPress, Bitrix) используйте плагины типа SEO by Yoast, которые автоматически добавляют noindex на все страницы пагинации, кроме первой.
Следите за тем, чтобы первая страница категории оставалась индексируемой — она должна быть основной.
Заключение: выбор правильного метода зависит от вашей задачи
Каждый из трёх способов имеет свои сферы применения:
- robots.txt — для блокировки сканирования больших директорий и технических страниц. Не подходит для точечного запрета индексации.
- Метатег robots — идеален для HTML-страниц, когда нужна точная настройка. Рекомендовано для новичков и CMS-сайтов.
- X-Robots-Tag — для файлов, серверных настроек и сложных систем. Требует технических знаний, но даёт максимальный контроль.
Оптимальная стратегия: комбинируйте методы. Закройте технические страницы через robots.txt, динамические — через метатеги, а PDF и изображения — через X-Robots-Tag.
Регулярно проверяйте индексацию через Google Search Console и Яндекс.Вебмастер. Удаление дублей не только улучшает SEO-показатели, но и повышает доверие поисковиков к вашему сайту.
seohead.pro
Содержание
- Почему нельзя индексировать весь сайт целиком
- Что именно нужно закрывать от индексации
- Способ 1: Запрет индексации через robots.txt
- Способ 2: Метатег robots в HTML-коде
- Способ 3: Заголовок X-Robots-Tag в HTTP-ответе
- Как проверить, корректно ли работает запрет индексации
- Как закрыть страницы пагинации от индексации
- Заключение: выбор правильного метода зависит от вашей задачи