Как настроить Clean-param в robots.txt для улучшения индексации сайта

автор

статья от

Алексей Лазутин

Специалист по поисковому маркетингу

В современном интернете большинство веб-сайтов генерируют динамические URL-адреса — ссылки, которые меняются в зависимости от действий пользователя: выбор фильтра, сортировки, параметров поиска или UTM-меток. На первый взгляд, это удобно: сайт отслеживает поведение посетителей, анализирует трафик и персонализирует контент. Однако для поисковых систем такие адреса становятся проблемой. Одна и та же страница может иметь десятки, а то и сотни вариантов URL с разными параметрами. Это ведет к дублированию контента, снижению позиций в выдаче и перегрузке сервера. Решение этой проблемы — директива Clean-param в файле robots.txt. Она позволяет сообщить поисковому роботу, какие параметры в URL можно игнорировать, не влияя на содержание страницы. В этой статье вы узнаете, как работает Clean-param, какие ситуации требуют его применения, как правильно настроить директиву и избежать распространенных ошибок.

Почему дублирующиеся URL — это проблема для SEO

Представьте, что вы владелец интернет-магазина. На вашем сайте есть страница с товарами: catalog?category=shoes&sort=price. Пользователь применяет фильтр по цене, сортирует товары по убыванию — и URL становится catalog?category=shoes&sort=priceℴ=desc. Затем он выбирает другую сортировку: catalog?category=shoes&sort=name. Потом — фильтр по бренду: catalog?category=shoes&brand=nike. Всё это — одна и та же страница с одними и теми же товарами, просто отсортированными или отфильтрованными по-разному. Но для поискового робота каждая из этих ссылок — отдельная страница. Он начинает индексировать их все, тратя ресурсы на анализ дублей. В результате:

  • Поисковик не понимает, какая версия страницы — основная.
  • Распыляется вес (релевантность) страницы: вместо того чтобы концентрировать его на одной версии, он распределяется между десятками дублей.
  • Сайт медленнее индексируется, потому что робот тратит время на бесполезные URL.
  • В поисковой выдаче могут появиться ненужные дубли, снижая доверие к сайту.
  • Сервер испытывает дополнительную нагрузку: каждый запрос на дублирующую страницу требует обработки.

Эти проблемы особенно критичны для крупных сайтов: новостных порталов, интернет-магазинов, платформ с фильтрами и поисковыми системами. Без правильной настройки вы рискуете потерять позиции даже по ключевым запросам, потому что поисковая система не может определить, какая страница — наиболее релевантная. В таких случаях директива Clean-param становится незаменимым инструментом.

Что такое Clean-param и как она работает

Clean-param — это специальная директива, используемая в файле robots.txt для управления тем, как поисковый робот обрабатывает параметры в URL. Она позволяет указать, какие ключи (параметры) в строке запроса можно игнорировать при индексации, если их изменение не влияет на содержание страницы. Директива поддерживается Яндексом и предназначена исключительно для его робота. Google использует другие методы, такие как канонические теги или настройки в Search Console.

Когда вы добавляете Clean-param, робот перестает воспринимать URL с указанными параметрами как отдельные страницы. Вместо этого он объединяет их в одну каноническую версию — без этих параметров. Например, если у вас есть страница product?id=123&session_id=abc, и вы добавляете директиву Clean-param: session_id /product, то робот будет индексировать только product?id=123, игнорируя параметр session_id. Все другие ссылки с этим параметром автоматически считаются дублями и не индексируются отдельно.

Важно понимать: Clean-param не удаляет страницы из индекса — он просто говорит роботу: «Эти параметры не меняют суть страницы, поэтому не создавай для них отдельные индексные записи». Это позволяет сохранить пользовательский опыт, не теряя SEO-эффективности.

Синтаксис директивы Clean-param

Clean-param имеет четкий и предсказуемый синтаксис. Он состоит из двух частей:

  1. Перечисление параметров, которые нужно игнорировать.
  2. Путь к разделу сайта, к которому применяется правило (опционально).

Общий формат:

User-agent: Yandex
Clean-param: param1&param2&param3 [path]
  • param1, param2, param3 — имена параметров (ключей), разделенные символом &. Имена должны состоять только из букв латинского алфавита, цифр и символов -, ., _. Регистр важен: utm_source и UTM_SOURCE — разные параметры.
  • [path] — путь к разделу сайта, например /search или /catalog. Если путь не указан, правило применяется ко всем страницам сайта. При использовании пути можно применять подстановочные символы: * для любого количества символов, / — как разделитель. Длина всей директивы не должна превышать 500 символов.

Примеры корректного синтаксиса:

  • Clean-param: utm_source&utm_medium — игнорировать оба параметра на всех страницах.
  • Clean-param: sort&filter /catalog — игнорировать параметры только в разделе /catalog.
  • Clean-param: s /forum* — игнорировать параметр s во всех URL, начинающихся с /forum.

Неверный синтаксис: использование пробелов, кириллицы в именах параметров, пропуск User-agent: Yandex или неверное разделение параметров запятыми вместо амперсанда.

Практические примеры настройки Clean-param

Теперь рассмотрим реальные сценарии, в которых Clean-param позволяет решить серьезные SEO-проблемы. Каждый пример основан на типичных ситуациях, с которыми сталкиваются владельцы сайтов.

1. Удаление UTM-меток

UTM-параметры (utm_source, utm_medium, utm_campaign) широко используются в рекламных кампаниях для отслеживания источников трафика. Но они абсолютно не влияют на содержание страницы — пользователь видит одинаковый контент, независимо от того, пришел он из Facebook или Google Ads. Без Clean-param каждый рекламный клик создает новый URL: site.com/product?utm_source=facebook&utm_medium=cpc, site.com/product?utm_source=email&utm_campaign=spring2025, и т.д.

Решение:

User-agent: Yandex
Clean-param: utm_source&utm_medium&utm_campaign&utm_term&utm_content /

Теперь все ссылки с UTM-метками будут сводиться к базовому URL: site.com/product. Это упрощает индексацию и позволяет сосредоточить вес страницы на одном адресе.

2. Фильтры и сортировка в интернет-магазине

В каталоге товаров часто есть параметры: sort=price, filter=color:red, order=desc. Пользователь может выбрать разные комбинации — и каждый раз генерируется новый URL. Но по сути, это одна страница с измененным порядком отображения товаров — не новым контентом.

Чтобы избежать индексации сотен дублей, настройте:

User-agent: Yandex
Clean-param: sort&filterℴ&limit /catalog

Теперь все варианты вроде /catalog?sort=price&filter=color:red и /catalog?order=desc&limit=24 будут объединены в /catalog. Важно: если у вас есть разные категории товаров, и вы хотите применить правило ко всему каталогу — используйте /catalog. Если вы хотите применить правило только к определенной категории, укажите полный путь: /catalog/shoes.

3. Параметры поиска и пагинации

Внутренний поиск на сайте часто создает URL вида: /search?q=ноутбук, /search?q=телефон. Аналогично, пагинация: /news?page=2, /news?page=3. Для поисковых систем это — новые страницы. Но на самом деле, все результаты поиска и все страницы новостей — это варианты одной и той же структуры.

Настройте:

User-agent: Yandex
Clean-param: q /search

User-agent: Yandex
Clean-param: page /news

В результате поисковый робот будет индексировать только базовые страницы: /search и /news. Это улучшает индексацию главных страниц, а не их дублей. Обратите внимание: если вы хотите убрать и параметр page, и sort на страницах новостей — объедините их: Clean-param: page&sort /news.

4. Идентификаторы сессий и пользователей

Некоторые сайты добавляют в URL session_id или user_id, чтобы отслеживать сессии пользователей. Пример: /profile?user_id=12345. Но если профиль пользователя — это одна и та же страница с личными данными, а не уникальный контент, то дублирование вредит SEO.

Чтобы убрать эти параметры:

User-agent: Yandex
Clean-param: session_id&user_id /profile

Это позволит роботу индексировать только основную версию профиля, не дублируя ее для каждого посетителя.

5. Региональные параметры

На сайтах бронирования отелей или локальных сервисов часто используются параметры вроде region=moscow, city=saint-petersburg. Если вы не хотите, чтобы поисковик индексировал отдельные страницы для каждого города — а показывал только главную, например /hotels — используйте:

User-agent: Yandex
Clean-param: region&city /hotels

Важно: если ваш сайт имеет региональные версии (например, /hotels/moscow и /hotels/saint-petersburg) — это другие страницы, и их не нужно игнорировать. Clean-param работает только с параметрами в строке запроса, а не с путями.

6. Языковые параметры

На многоязычных сайтах часто используется параметр lang=en или lang=ru. Если вы используете разные поддомены или пути для языков (например, site.com/en/, site.com/ru/) — это правильно. Но если язык меняется через параметр в URL, и вы не хотите дублировать контент для разных языков — то Clean-param может помочь. Однако будьте осторожны: если вы игнорируете lang, поисковик может перестать видеть разницу между русской и английской версиями. Поэтому этот параметр обычно лучше не удалять, а использовать hreflang-теги. Но если вы используете параметр lang только для временного переключения и контент не меняется — тогда:

User-agent: Yandex
Clean-param: lang /blog

7. Реферальные и аналитические метки

Параметры вроде ref=partner123, source=newsletter часто добавляются для аналитики. Они не влияют на содержание страницы, но создают дубли. Пример:

forum/showthread.php?ref=facebook

forum/showthread.php?ref=newsletter

Настройка:

User-agent: Yandex
Clean-param: ref /forum/showthread.php

Теперь все ссылки с ?ref=… будут объединены в одну базовую страницу.

Ограничения и важные предостережения

Clean-param — мощный инструмент, но его неправильное использование может привести к обратному эффекту. Вот что важно учитывать:

1. Clean-param работает только для Яндекса

Google не поддерживает эту директиву. Для Google используйте канонические теги (<link rel="canonical" href="#">) или настройки параметров в Google Search Console. Не полагайтесь только на Clean-param, если ваш сайт получает трафик и из Google.

2. Не игнорируйте важные параметры

Если параметр действительно влияет на контент — не добавляйте его в Clean-param. Например:

  • product_id — если он меняет товар, не игнорируйте его.
  • lang — если язык меняет контент, не удаляйте его.
  • search — если вы хотите, чтобы поисковик индексировал результаты поиска (а не только страницу с формой) — не игнорируйте.

Перед настройкой проверьте: изменяется ли контент страницы при смене параметра? Если да — не включайте его в Clean-param.

3. Не путайте с Disallow

Disallow: /search?q= — запрещает роботу вообще заходить на такие страницы. Clean-param: q /search — позволяет заходить, но не индексировать дубли. Первое — удаляет страницу из поиска, второе — сохраняет ее в индексе, но как одну версию. Используйте Disallow только для тех страниц, которые вообще не должны попадать в выдачу (например, корзина, личный кабинет).

4. Тестируйте настройки

Перед внедрением в продакшен протестируйте вашу директиву. Используйте инструменты Яндекса — например, «Проверка robots.txt» в Вебмастере. Убедитесь, что робот правильно интерпретирует вашу директиву и не игнорирует важные страницы.

5. Ограниченная длина директивы

Директива Clean-param не может превышать 500 символов. Если у вас много параметров — разбейте их на несколько строк:

User-agent: Yandex
Clean-param: utm_source&utm_medium /catalog
User-agent: Yandex
Clean-param: sort&filter /catalog

6. Регистр символов имеет значение

Clean-param: UTM_SOURCE — не сработает, если в URL используется utm_source. Указывайте параметры точно так же, как они отображаются в URL. Лучше использовать только строчные буквы для совместимости.

Как проверить, что Clean-param работает

После настройки файла robots.txt важно убедиться, что изменения применились. Вот как это сделать:

  1. Загрузите обновленный robots.txt на сервер.
  2. Проверьте доступность файла: откройте вашсайт.com/robots.txt в браузере. Убедитесь, что директива видна и не содержит ошибок.
  3. Используйте инструмент «Проверка robots.txt» в Яндекс.Вебмастере — он покажет, какие директивы распознаны.
  4. Посмотрите в отчетах «Индексирование» — количество дублирующих URL должно уменьшиться.
  5. Проверьте в поиске Яндекса: наберите URL с параметром — он должен открываться, но в результатах поиска должна отображаться только каноническая версия.

Рекомендации по внедрению

Вот пошаговый план для успешного применения Clean-param:

  1. Анализ: найдите все дублирующиеся URL с помощью инструментов (например, Screaming Frog или Яндекс.Вебмастер).
  2. Классификация: определите, какие параметры не влияют на контент (UTM, session_id, sort, filter и т.д.).
  3. Планирование: составьте список директив по разделам сайта.
  4. Тестирование: примените правила на тестовом сайте или в локальной среде.
  5. Внедрение: загрузите robots.txt на продакшен.
  6. Мониторинг: следите за индексацией в течение 2–4 недель. Убедитесь, что ключевые страницы сохранили позиции.

Регулярно пересматривайте список параметров — новые инструменты аналитики или CRM могут добавлять новые UTM-параметры, которые нужно включить в Clean-param.

Заключение: зачем это нужно вашему бизнесу

Clean-param — это не просто техническая настройка. Это стратегический шаг, который помогает вам управлять индексацией вашего сайта и сохранять позиции в поисковой выдаче. Он позволяет сосредоточить ресурсы поискового робота на тех страницах, которые действительно важны для пользователей и бизнеса. Вы снижаете нагрузку на сервер, улучшаете скорость индексации и избавляетесь от дублей — которые снижают доверие к вашему сайту.

Для владельцев интернет-магазинов, новостных порталов и платформ с фильтрами Clean-param — обязательный инструмент. Он работает без изменений в коде сайта, не требует перестройки структуры и может быть внедрен за несколько часов. Главное — делать это осознанно: не игнорируйте важные параметры, тестируйте результаты и следите за эффектом.

Если вы хотите, чтобы ваш сайт индексировался эффективно, а не тратил ресурсы на бесполезные дубли — начните с Clean-param. Это один из самых простых и мощных способов улучшить SEO без дорогостоящих изменений в коде или дизайне.

seohead.pro