Как закрыть сайт от индексации — все способы запретить поисковикам индексировать сайт

автор

статья от

Алексей Лазутин

Специалист по поисковому маркетингу

Если вы запускаете новый сайт, проводите техническое обслуживание или просто хотите скрыть внутренние разделы от поисковых систем — важно знать, как правильно закрыть сайт от индексации. Неправильные действия могут привести к тому, что страницы с чувствительной информацией окажутся в Google или Яндексе, а это не только угроза конфиденциальности, но и риск потери репутации. В этой статье мы подробно разберём все проверенные методы, которые позволяют полностью или частично запретить индексацию веб-ресурса. Вы узнаете, как использовать robots.txt, мета-теги, HTTP-заголовки и настройки сервера — а также как проверить, действительно ли ваш сайт стал невидимым для поисковых ботов.

Почему нужно закрывать сайт от индексации?

На первый взгляд, кажется, что чем больше страниц в индексе — тем лучше. Но это заблуждение. Есть множество ситуаций, когда индексация сайта или его частей — это не просто бесполезно, а опасно. Например:

  • Сайт находится в разработке и содержит незавершённый контент, битые ссылки или временные тексты — их индексация может навредить репутации бренда.
  • Вы тестируете новые версии страниц, A/B-тесты или альтернативные дизайны — не хотите, чтобы поисковики запомнили экспериментальные версии.
  • На сайте есть закрытые разделы: админка, личные кабинеты, внутренние документы — они не должны попадать в поисковую выдачу.
  • Вы переносите сайт на новый домен и хотите временно «заморозить» старую версию, чтобы избежать дублирования контента.
  • Сайт используется исключительно для внутренних нужд компании, и его публичная доступность не требуется.

Если вы не закроете сайт от индексации в таких случаях, поисковики могут проиндексировать временные или нерабочие страницы. Позже, когда вы их удалите или замените, поисковые системы могут долго «помнить» старые версии — что приведёт к снижению позиций, ошибкам в выдаче и даже штрафам за дублирование контента. Поэтому правильное закрытие — это не просто техническая деталь, а стратегический шаг.

Способ 1: Запрет индексации через файл robots.txt

Файл robots.txt — это первый и самый известный способ сообщить поисковым роботам, какие страницы они могут сканировать, а какие — нет. Он располагается в корневой директории сайта (например: https://вашсайт.рф/robots.txt) и представляет собой простой текстовый файл с определённым форматом.

Важно понимать: robots.txt не запрещает индексацию — он блокирует сканирование. Это значит, что если страница ссылается извне (например, через внешние ссылки), поисковик может добавить её в индекс даже без доступа к содержимому. В таком случае в выдаче будет только URL и название — без описания.

Как полностью запретить сканирование всего сайта

Чтобы закрыть от индексации весь сайт, создайте файл robots.txt с таким содержимым:

User-agent: *
Disallow: /

Разберём, что означает каждая строка:

  • User-agent: * — правило применяется ко всем поисковым роботам (Googlebot, YandexBot, Bingbot и др.).
  • Disallow: / — запрет доступа к корневому каталогу и всем его поддиректориям. То есть — весь сайт закрыт.

Это простейший и наиболее популярный способ. Однако, как уже упоминалось — это не гарантирует полного исключения из индекса. Если кто-то разместил ссылку на ваш сайт в другом месте, поисковик может сохранить его в базе как «заблокированный URL».

Запрет индексации отдельных разделов

Часто нужно закрыть только часть сайта — например, административную панель, корзину или личные данные. В этом случае используйте конкретные пути:

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /private.html
Disallow: /temp/

Эти строки запрещают сканирование папки /admin/, страницы private.html и всех файлов внутри папки /temp/. Обратите внимание: если вы используете слеш в конце — это означает, что запрет распространяется на всю папку и её содержимое. Без слеша — запрет применяется только к конкретному файлу.

Ограничение доступа для конкретных ботов

Иногда нужно заблокировать только одного поисковика — например, Google, но оставить доступ для Яндекса. Для этого укажите конкретный User-agent:

User-agent: Googlebot
Disallow: /

User-agent: Yandex
Allow: /

Это полезно при тестировании, если вы хотите оставить сайт доступным для одного поисковика — например, чтобы проверить, как он видит вашу структуру.

Запрет индексации изображений

Изображения часто становятся причиной нежелательной индексации. Чтобы запретить Google индексировать все фото, добавьте в robots.txt:

User-agent: Googlebot-Image
Disallow: /

Это предотвратит появление ваших картинок в Google Images — полезно, если вы используете промо-фото или неопубликованные материалы.

Ограничение скорости сканирования

Если ваш сервер перегружается от частых запросов ботов, вы можете установить задержку между запросами:

User-agent: *
Crawl-delay: 10

Эта директива говорит роботу: «Пожалуйста, делай запросы не чаще одного раза в 10 секунд». Это снижает нагрузку на сервер и помогает избежать временных сбоев. Важно: не все поисковики поддерживают Crawl-delay — Google, например, игнорирует её. Для него лучше использовать настройки в Search Console.

Способ 2: Запрет индексации через мета-тег robots

Если вы хотите гарантированно запретить индексацию конкретной страницы — используйте мета-тег robots. В отличие от robots.txt, он действует непосредственно на странице и влияет именно на индексацию, а не на сканирование.

Этот тег добавляется в раздел <head> HTML-кода страницы. Он работает независимо от того, разрешён ли доступ через robots.txt.

Основные значения мета-тега

Вот самые распространённые варианты:

  • <meta name=»robots» content=»noindex, nofollow»> — страница не индексируется, и ссылки на ней не передают вес.
  • <meta name=»robots» content=»noindex, follow»> — страница не индексируется, но ссылки на ней продолжают «протекать» вес (полезно для внутренних страниц с внешними ссылками).
  • <meta name=»robots» content=»index, nofollow»> — страница индексируется, но ссылки на ней не передают вес (редко используется).
  • <meta name=»robots» content=»index, follow»> — стандартное поведение (по умолчанию).

Пример для полного запрета:

<head>
  <meta name="robots" content="noindex, nofollow">
</head>

Запрет индексации только для Google или Яндекса

Если вы хотите повлиять на индексацию только одного поисковика — используйте специфические атрибуты:

<meta name="googlebot" content="noindex">
<meta name="yandex" content="noindex">
<meta name="bingbot" content="noindex">

Это особенно полезно, если вы хотите сохранить видимость в Яндексе, но скрыть страницу от Google — например, при тестировании контента для американской аудитории.

Важный нюанс: мета-тег работает только для HTML

Мета-теги robots работают только с HTML-страницами. Они не влияют на PDF, JPG, DOCX или другие файлы — для них нужно использовать HTTP-заголовки (о них дальше).

Способ 3: Запрет индексации через HTTP-заголовок X-Robots-Tag

Метод X-Robots-Tag — это наиболее гибкий и мощный способ управления индексацией. Он работает на уровне HTTP-ответа сервера и может применяться к любым типам файлов — не только HTML, но и изображениям, PDF-документам, видеофайлам, JSON-API и даже CSS/JS.

Этот заголовок можно настроить через конфигурационные файлы веб-сервера — Apache или Nginx. Он работает даже если страница не имеет HTML-кода.

Настройка в Apache (.htaccess)

Чтобы запретить индексацию всего сайта через Apache, добавьте в файл .htaccess:

Header set X-Robots-Tag "noindex, nofollow"

Это правило применяется ко всем страницам сайта. Если нужно ограничить действие только для определённых файлов — используйте условия:

Запрет индексации PDF-файлов

<FilesMatch "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

Теперь все файлы с расширением .pdf будут исключены из индекса — идеально для документов, которые не должны попадать в поисковые результаты.

Запрет индексации изображений

<FilesMatch "\.(jpg|jpeg|png|gif)$">
  Header set X-Robots-Tag "noindex"
</FilesMatch>

Это заблокирует индексацию всех изображений — полезно, если вы используете уникальные фото или промо-материалы, которые не должны быть в Google Images.

Настройка в Nginx

В Nginx настройки делаются через конфигурационный файл nginx.conf. Чтобы запретить индексацию всего сайта:

location / {
  add_header X-Robots-Tag "noindex, nofollow";
}

Для конкретных типов файлов используйте:

location ~* \.(pdf)$ {
  add_header X-Robots-Tag "noindex, nofollow";
}

location ~* \.(jpg|png|gif)$ {
  add_header X-Robots-Tag "noindex";
}

Этот способ особенно ценен, когда вы не можете редактировать HTML-код — например, в CMS, где доступ к шаблонам ограничен, или при работе с API-эндпоинтами.

Способ 4: Запрет индексации на уровне сервера — 403 Forbidden

Если вы хотите полностью скрыть сайт от всех пользователей и ботов — используйте HTTP-код 403 Forbidden. Этот метод не просто запрещает индексацию — он блокирует доступ к сайту полностью.

Это идеальный способ для сайтов в разработке, внутренних порталов или временных тестовых версий.

Как настроить в Apache

Добавьте в файл .htaccess:

Deny from all

Или более гибко — разрешить доступ только для вашего IP:

Order Deny,Allow
Deny from all
Allow from 192.168.1.100

Теперь только пользователи с IP 192.168.1.100 смогут открыть сайт — все остальные получат ошибку 403.

Как настроить в Nginx

В конфигурации сервера:

location / {
  deny all;
}

Или с исключением по IP:

location / {
  deny all;
  allow 192.168.1.100;
}

При таком подходе поисковые боты не смогут получить доступ к сайту — они получат ошибку 403 и автоматически исключат его из индекса. Этот способ самый надёжный, но он не подходит, если сайт должен быть доступен пользователям.

Способ 5: Защита паролем через .htpasswd

Если вы хотите, чтобы сайт был недоступен не только для поисковиков, но и для обычных пользователей — используйте базовую аутентификацию через файл .htpasswd.

Это самый безопасный способ защиты для сайтов в разработке. Даже если кто-то найдёт URL — без логина и пароля он не попадёт на сайт.

Как создать файл .htpasswd

Файл .htpasswd содержит пары логин:хэш-пароль. Его можно сгенерировать онлайн или через терминал:

htpasswd -c /var/www/.htpasswd username

После ввода команды система запросит пароль. Результат будет выглядеть так:

username:$apr1$HJH7dkeq$U7dkeq9GnR8/1JY2KwO1/

Сохраните этот файл в безопасной директории вне корня сайта — например, /var/www/.htpasswd.

Настройка доступа в Apache

Добавьте в .htaccess:

AuthType Basic
AuthName "Закрытый сайт"
AuthUserFile /var/www/.htpasswd
Require valid-user

Теперь любой пользователь (включая поисковые боты) получит всплывающее окно с запросом логина и пароля. Без корректных данных — доступ запрещён.

Этот метод не только блокирует индексацию — он полностью защищает сайт от публичного доступа. Идеально подходит для тестовых сред, внутренних инструментов или сайтов с конфиденциальной информацией.

Как проверить, закрыт ли сайт от индексации?

Применив один из способов — вы не должны полагаться на «надежду», что всё работает. Обязательно проверьте результат.

1. Проверка файла robots.txt

Откройте в браузере: https://вашсайт.рф/robots.txt. Убедитесь, что файл существует и содержит нужные правила. Проверьте, нет ли опечаток — например, Dislalow вместо Disallow.

2. Проверка мета-тегов в HTML

Откройте страницу, которую хотите проверить. Нажмите Ctrl+U (или ПКМ → «Просмотреть код»). Найдите в <head> строку:

<meta name="robots" content="noindex">

Если её нет — страница может индексироваться. Если есть — значит, запрет настроен.

3. Проверка HTTP-заголовков

Используйте инструменты вроде curl или онлайн-сервисов (например, headers.google). Введите команду:

curl -I https://вашсайт.рф

Ищите строку:

X-Robots-Tag: noindex, nofollow

Если она есть — заголовок настроен корректно.

4. Проверка в Google Search Console

Подключите сайт к Google Search Console. Перейдите в раздел «Проверка URL». Введите адрес страницы, которую хотите проверить. Система покажет:

  • «Заблокировано robots.txt» — если доступ запрещён.
  • «Исключено по мета-тегу noindex» — если используется мета-тег.
  • «Индексируется» — если ничего не настроено.

Это самый надёжный способ подтверждения в Google.

5. Проверка в Яндекс Вебмастере

Зарегистрируйте сайт в Яндекс Вебмастере. Перейдите в раздел «Индексирование» → «Проверка ответа сервера». Вставьте URL страницы и нажмите «Проверить».

Система покажет, какие заголовки возвращает сервер и есть ли мета-теги. Если страница закрыта — вы увидите соответствующее сообщение.

6. Поиск в поисковых системах

В Google или Яндекс введите:

site:вашсайт.рф

Если в выдаче нет ни одной страницы — значит, индексация заблокирована. Если есть — проверьте, какие именно страницы попали в индекс и почему.

FAQ

Что делать, если сайт уже проиндексирован и я хочу его закрыть?

Сначала примените один из способов (например, robots.txt или мета-тег). Затем в Google Search Console и Яндекс Вебмастере используйте функцию «Удаление URL». Это не удалит страницу из индекса мгновенно, но ускорит процесс. Через несколько недель поисковики автоматически исключат её из выдачи.

Можно ли закрыть сайт от индексации, но оставить доступ для пользователей?

Да. Используйте мета-теги или HTTP-заголовки — они блокируют только поисковых ботов. Пользователи получают полный доступ к сайту, а роботы — нет.

Почему сайт всё равно индексируется, несмотря на robots.txt?

Потому что robots.txt не запрещает индексацию — он блокирует сканирование. Если на ваш сайт есть внешние ссылки, поисковик может добавить URL в индекс без содержимого. Для полного запрета используйте noindex через мета-тег или X-Robots-Tag.

Сколько времени занимает удаление сайта из индекса?

От нескольких дней до нескольких недель. Google и Яндекс не удаляют страницы мгновенно — они ждут, пока боты перепроверят статус. Используйте инструменты в Search Console и Вебмастере, чтобы ускорить процесс.

Можно ли использовать несколько способов одновременно?

Да, и даже рекомендуется. Например: robots.txt для общего запрета, мета-тег — для отдельных страниц и X-Robots-Tag — для файлов. Это создаёт многоуровневую защиту и повышает надёжность.

Что будет, если я закрою сайт от индексации навсегда?

Сайт перестанет появляться в поисковой выдаче. Это нормально, если он предназначен для внутреннего использования или является архивом. Но если вы планируете запускать сайт в будущем — сохраните настройки и верните их при необходимости. Удаление из индекса может быть частично обратимым, но не гарантировано.

Выводы: как выбрать лучший способ?

Выбор метода зависит от вашей цели:

  • Полный запрет доступа (разработка, тесты) — используйте .htpasswd или код 403.
  • Закрыть сайт от индексации, но оставить доступ для пользователей — используйте X-Robots-Tag или мета-теги.
  • Запретить только сканирование — используйте robots.txt.
  • Закрыть PDF, картинки или файлы — используйте X-Robots-Tag.
  • Ограничить доступ для одного поисковика — используйте специфичные мета-теги или User-agent в robots.txt.

Никогда не полагайтесь только на один способ. Комбинируйте методы — это гарантирует, что даже если одна защита сработает неправильно, другие останутся на месте. Проверяйте результаты регулярно — особенно после изменений в структуре сайта. Индексация — это не «включил и забыл», а постоянный процесс контроля.

Правильно закрытый сайт — это не просто технический трюк. Это инструмент управления репутацией, конфиденциальностью и качеством поисковой выдачи. Используйте его с умом — и ваш сайт будет видеть только тех, кому нужно.

seohead.pro