Руководство по сканированию сайтов с помощью Screaming Frog

автор

статья от

Алексей Лазутин

Специалист по поисковому маркетингу

Сканирование веб-сайтов — это фундаментальный этап технического SEO-аудита, позволяющий выявить скрытые проблемы, которые мешают поисковым системам корректно индексировать ресурс. Одним из самых мощных и гибких инструментов для этой задачи является Screaming Frog SEO Spider. Он позволяет не просто «просканировать» страницы, а провести глубокий анализ структуры сайта, выявить дубликаты мета-тегов, битые ссылки, проблемы с рендерингом JavaScript и множество других технических барьеров, влияющих на видимость в поиске. В этой статье мы подробно разберем, как правильно настроить инструмент, какие параметры выбрать для разных типов сайтов и как интерпретировать результаты сканирования, чтобы превратить данные в actionable-стратегии.

Подготовка к сканированию: основы настройки

Прежде чем запускать сканирование, важно понимать: результаты будут соответствовать настройкам. Неправильно сконфигурированный инструмент может пропустить критические ошибки или, наоборот, перегрузить сервер сайта. Подготовка — это не просто технический этап, а стратегическое планирование анализа.

Выбор режима работы: Spider против List

Screaming Frog предлагает два основных режима сканирования: Spider и List. Каждый из них решает разные задачи.

  • Spider (паук) — автоматически начинает с указанного URL и последовательно переходит по всем внутренним ссылкам, обходя сайт как обычный пользователь. Этот режим идеален для комплексного аудита, когда нужно оценить всю структуру сайта: как страницы связаны между собой, где есть «мёртвые зоны», какие разделы недостаточно проиндексированы.
  • List (список) — позволяет загрузить заранее подготовленный список URL-адресов из файла (CSV, TXT) или XML-карты сайта. Используется для целевого анализа: проверки конкретных страниц после редизайна, мониторинга ключевых продуктов или аудита отдельных разделов. Это экономит время и ресурсы, особенно на больших сайтах.

Если вы не уверены, с чего начать — используйте режим Spider. Он даст общую картину. Если вы уже знаете, какие страницы требуют проверки — выбирайте List.

Настройка robots.txt и User-Agent

По умолчанию Screaming Frog следует правилам файла robots.txt. Это удобно, если вы хотите понять, как поисковые системы «видят» сайт. Однако для полного технического аудита — особенно при поиске скрытых ошибок — необходимо отключить это ограничение.

Чтобы проигнорировать директивы robots.txt, перейдите в Configuration > Robots.txt > Settings и снимите галочку с опции «Respect robots.txt». Это позволит сканеру добраться до страниц, которые были намеренно запрещены для индексации — например, страницы корзины, личного кабинета или служебные URL. Важно: не все такие страницы должны быть проиндексированы, но их наличие в аудите поможет выявить ошибки конфигурации.

Не менее важна настройка User-Agent. По умолчанию инструмент использует собственный агент, который может не соответствовать поведению реальных поисковых роботов. Для более точного анализа замените его на один из официальных:

  • Googlebot — для анализа видимости в Google.
  • YandexBot — если ваша аудитория преимущественно русскоязычная.

Настройка осуществляется в Configuration > User-Agent. Введите нужный агент вручную или выберите из предустановленных. Это особенно критично, если на сайте используются разные версии контента для мобильных и десктопных пользователей, или если вы применяете геолокационную персонализацию. Сканер, имитирующий Googlebot, покажет именно ту версию страницы, которую видит поисковая система — а не ту, что отображается вам в браузере.

Настройка скорости и таймаутов

Сканирование — это нагрузка на сервер. Если вы не учитываете возможности хостинга, есть риск получить блокировку IP-адреса или замедление работы сайта. Настройка скорости — не просто техническая деталь, а вопрос этичности и профессионализма.

Перейдите в Configuration > Spider. Здесь вы найдете ключевые параметры:

  • Threads (потоки) — количество одновременных запросов. Для слабых серверов (общий хостинг, VPS с ограниченными ресурсами) установите 2–5 потоков. Для мощных серверов (Cloud, dedicated) можно увеличить до 7–10.
  • Requests per second — сколько запросов отправляется в секунду. Для большинства сайтов достаточно 5–10 запросов/сек. Если сайт медленно отвечает — уменьшите до 2–3.
  • Timeout — время ожидания ответа от сервера. По умолчанию — 10 секунд. Для сайтов с тяжелыми страницами (с медленными API, большими изображениями) увеличьте до 20–30 секунд. Иначе инструмент будет считать страницы «недоступными», хотя они работают нормально.

Особое внимание уделите respects robots.txt и follow redirects. Убедитесь, что «Follow Redirects» включен — иначе вы не увидите цепочки редиректов (301, 302), которые могут быть причиной потери трафика.

Настройка авторизации

Если вам нужно проанализировать защищённые разделы сайта — административную панель, личный кабинет или тестовые среды — Screaming Frog поддерживает аутентификацию. В разделе Configuration > Authentication доступны два метода:

  • HTTP Basic Auth — для сайтов, где доступ защищён через стандартную HTTP-авторизацию (появляется всплывающее окно с логином и паролем).
  • Form-based login — для сайтов, где авторизация происходит через HTML-форму. Введите URL формы, имя поля логина и пароля — инструмент автоматически выполнит вход.

Это особенно полезно при аудите закрытых платформ, CRM-систем или внутренних порталов. Без этой настройки вы просто не увидите содержимое этих страниц — и, как следствие, пропустите критические ошибки в структуре или мета-тегах.

Сканирование динамических сайтов: JavaScript-рендеринг

Современные веб-сайты всё чаще строятся на фреймворках: React, Vue.js, Angular. Эти технологии позволяют создавать интерактивные и быстрые интерфейсы, но усложняют работу поисковых систем. Контент на таких сайтах генерируется динамически — через JavaScript — и не виден в исходном HTML. Если вы сканируете такой сайт без дополнительных настроек, Screaming Frog увидит лишь пустой шаблон — без текста, изображений и структурированных данных.

Почему JavaScript — проблема для SEO

Большинство поисковых роботов всё ещё не могут полностью интерпретировать сложный JavaScript. Хотя Google и другие системы развивают возможности рендеринга, они не всегда справляются с тяжёлыми SPA-приложениями. Если контент загружается после 5–10 секунд, он может быть проигнорирован. То же самое происходит с инструментами, которые не умеют выполнять JavaScript.

Без рендеринга вы можете увидеть:

  • Пустые мета-теги (title, description).
  • Отсутствие заголовков H1–H3 на страницах.
  • Нет структурированных данных (Schema.org).
  • Битые ссылки внутри динамического контента.

Это приводит к ложному выводу: «сайт технически здоров», хотя на деле он не индексируется. Поэтому рендеринг — это не опция, а обязательное условие для любых современных сайтов.

Как включить JavaScript-рендеринг

Чтобы Screaming Frog мог «видеть» сайт как пользователь, необходимо включить режим рендеринга:

  1. Перейдите в Configuration > Spider > Rendering.
  2. Выберите опцию JavaScript.
  3. Нажмите «OK».

После этого инструмент запустит встроенный браузер (Chromium) для каждой страницы, дождётся выполнения JavaScript и только потом начнёт анализировать DOM-дерево.

Настройка параметров рендеринга

Рендеринг требует больше времени и ресурсов. Чтобы избежать ошибок, настройте следующие параметры:

Параметр Рекомендация Пояснение
Wait Time 5–10 секунд для большинства сайтов
15+ секунд для сложных SPA
Время, которое инструмент ждёт, прежде чем считать страницу готовой. Если слишком мало — контент не успеет загрузиться.
Emulate Googlebot Smartphone Включить обязательно Google использует Mobile First Indexing. Без этой настройки вы не увидите мобильную версию контента, которая может отличаться от десктопной.
Wait for elements Опционально: ввести CSS-селекторы Если контент загружается через AJAX, укажите селектор (например, .content-loaded), чтобы инструмент ждал именно его появления.
Custom Headers Добавить User-Agent, если нужно Дополнительно можно задать заголовки, чтобы сайт не блокировал сканер как бота.

Важно: при включении JavaScript-рендеринга время сканирования увеличивается в 3–5 раз. Для сайта с 10 000 страниц это может занять несколько часов. Планируйте аудит заранее — лучше проводить его в нерабочие часы.

Особенности анализа структурированных данных

Многие сайты используют Google Tag Manager или аналогичные системы для внедрения микроразметки (Schema.org). Эти данные часто добавляются через JavaScript. Если рендеринг не включён — Screaming Frog их не увидит. Это значит, что вы пропустите важные сигналы: отзывы, оценки, сведения о компаниях, продуктах или событиях.

После включения рендеринга проверьте вкладку Structured Data. Там вы увидите все обнаруженные схемы: Organization, Product, Review, Breadcrumb и другие. Если их нет — значит, либо разметка не работает, либо её вообще нет.

Совет: используйте фильтр «Missing» в этой вкладке, чтобы быстро найти страницы без структурированных данных — это часто ключевая причина низкой CTR в поисковой выдаче.

Фильтрация и выборочное сканирование: Exclude и Include

На крупных сайтах (с десятками тысяч или миллионами страниц) полное сканирование — это роскошь, которой не всегда можно позволить себе. Кроме того, многие разделы сайта (админка, корзина, личный кабинет) не имеют SEO-значения. Их сканирование — пустая трата ресурсов.

Для точечного анализа Screaming Frog предоставляет мощные инструменты: Include и Exclude. Они работают на основе регулярных выражений (regex) — гибких шаблонов, позволяющих точно указывать, какие URL включать или исключать.

Как использовать Include: выборочное сканирование

Фильтр Include позволяет сканировать ТОЛЬКО страницы, соответствующие вашим правилам. Все остальные игнорируются.

Примеры использования:

  • Анализ блога: .*/blog/.* — включит все URL, содержащие «/blog/».
  • Анализ категорий товаров: .*/category/.* — охватит все страницы категорий в интернет-магазине.
  • Проверка нескольких доменов: https://(www\.)?example\.com/.* — включит все поддомены и версии сайта.
  • Фильтрация по параметрам: .*/product\?id=.* — проанализирует только страницы с параметром «id».

Вы можете добавить несколько правил — инструмент включит страницы, соответствующие любому из них. Это идеально для комплексных проектов, где нужно проверить несколько ключевых разделов одновременно.

Как использовать Exclude: исключение ненужных разделов

Фильтр Exclude наоборот — он убирает из сканирования всё, что соответствует вашим правилам. Это особенно полезно для:

  • Исключения административных разделов: .*/admin/.* — исключит все URL с «/admin».
  • Исключения страниц тегов: .*/tag/.* — часто дублируют контент и снижают качество индексации.
  • Исключение файлов: http.*\.jpg, http.*\.png, http.*\.pdf — исключает изображения и документы, которые не влияют на SEO.
  • Исключение URL с параметрами: .+\?.+ — исключает все URL с параметрами в строке запроса (например, ?utm_source=…), если они не нужны для анализа.

Важно: исключения имеют приоритет над включениями. Если URL соответствует правилу Exclude — он не будет проанализирован, даже если попадает под Include.

Совет: начните с исключения файлов. Это может уменьшить размер сканирования на 30–60% без потери SEO-значимости. Затем исключите дублирующиеся параметры и служебные пути.

Практический кейс: аудит интернет-магазина

Представим, что у вас есть магазин с 50 000 страниц. Вам нужно проанализировать:

  • Категории товаров (500 страниц)
  • Страницы продуктов (49 000 страниц)
  • Блог (250 статей)

Но не нужно:

  • Корзину и личный кабинет
  • Файлы PDF, изображения
  • Страницы с параметрами фильтрации (?color=red&size=xl)

Настройка:

  1. Include: .*/category/.*, .*/product/.*, .*/blog/.*
  2. Exclude:
    • .*/cart/.*
    • .*/account/.*
    • http.*\.jpg|http.*\.png|http.*\.pdf
    • .+\?.+

Такой подход сократит время сканирования в 10 раз и сосредоточит анализ на тех страницах, которые действительно влияют на трафик.

Анализ результатов: ключевые вкладки и их интерпретация

После завершения сканирования Screaming Frog открывает подробный отчёт, разделённый на вкладки. Не пытайтесь «просмотреть всё сразу» — анализируйте системно.

Internal: внутренняя структура сайта

Это основная вкладка для технического аудита. Здесь вы видите все проиндексированные страницы с их метаданными и HTTP-статусами.

Что проверять:

  • HTTP Status: ищите страницы со статусами 4xx (ошибки) и 5xx (серверные сбои). Даже одна страница с ошибкой 404 может сигнализировать о проблемах в навигации.
  • Page Title: ищите дублирующиеся или пустые title. Страницы без заголовка не будут индексироваться.
  • Description: проверьте, есть ли уникальные мета-описания. Дублирующиеся или слишком короткие описания снижают CTR.
  • Headings: убедитесь, что на каждой странице есть H1. Проверьте, нет ли дублирования заголовков между страницами.

Используйте фильтры: «Status Code = 404», «Title = Missing» — чтобы быстро найти проблемы.

Response Codes: диагностика ошибок

Вкладка «Response Codes» группирует все страницы по статусам HTTP. Это ваша карта «технических угроз».

Статус Значение Что делать
200 OK Страница доступна Нормально. Но проверьте, нет ли дублей.
301 Moved Permanently Постоянный редирект Ожидаемо. Но если цепочка редиректов длиннее 3–4 шагов — это плохо.
302 Found Временный редирект Часто ошибочно используется вместо 301. Замените на постоянные, если редиректы не временные.
404 Not Found Страница не найдена Устраните или перенаправьте. Проверьте ссылки в меню и внутренних связях.
403 Forbidden Доступ запрещён Не должно быть на публичных страницах. Проверьте права доступа к файлам.
500 Internal Server Error Ошибка сервера Срочно! Это критическая проблема. Проверьте логи сервера.
503 Service Unavailable Сервер временно недоступен Определяет нагрузку. Если частая — нужна оптимизация сервера.

Особое внимание уделите страницам с 404. Они — главный индикатор плохой технической поддержки. Даже 5–10 таких страниц на большом сайте — это сигнал, что структура неконсистентна.

External Links: аудит исходящих ссылок

Ссылки на другие сайты — это не просто «дружеские связи». Они влияют на репутацию сайта. Проверьте:

  • Сколько ссылок ведут на недоступные (404) или подозрительные сайты?
  • Есть ли ссылки на спам-ресурсы, фармацевтические сайты или подозрительные домены?
  • Используются ли атрибуты nofollow там, где это необходимо (например, реклама)?

Фильтруйте по «External Links» и смотрите на столбец «Link Text». Если ссылки ведут на сайты с названиями типа «buy viagra» или содержат ключевые слова вида «лучший дешёвый гаджет» — это может повредить доверию поисковой системы.

Images: оптимизация визуального контента

Изображения — это не просто украшение. Они влияют на скорость загрузки и SEO-видимость в Google Images.

Проверьте:

  • Alt-атрибуты: есть ли у всех изображений? Отсутствие alt — частая ошибка.
  • Размер файлов: тяжёлые изображения (более 2 МБ) замедляют сайт. Ищите «File Size» > 1MB.
  • Названия файлов: «image001.jpg» — плохо. Лучше: «red-running-shoes-2025.jpg».
  • Ссылки на изображения: нет ли битых ссылок?

Совет: экспортируйте список изображений в Excel, отсортируйте по размеру — и начните с самых тяжёлых. Используйте инструменты типа TinyPNG или Squoosh для сжатия.

Structured Data: микроразметка

Эта вкладка показывает, какие структурированные данные (Schema.org) обнаружены на страницах. Это критично для «богатых сниппетов» в поиске.

Что искать:

  • Missing: страницы без разметки.
  • Errors: неправильная структура (например, «price» без «currency»).
  • Warnings: необязательные, но полезные параметры.

Пример: если на странице товара нет разметки Product, Google не сможет показать цену, оценку или наличие — и вы потеряете дополнительный CTR. Убедитесь, что каждая страница продукта содержит минимально необходимые поля: name, image, offer, price.

Практические рекомендации и ошибки новичков

Даже опытные SEO-специалисты допускают ошибки при работе с Screaming Frog. Вот наиболее частые и опасные из них.

Ошибка 1: сканирование без рендеринга на динамических сайтах

Более 70% современных сайтов используют JavaScript-рендеринг. Если вы не включили рендер — вы проводите аудит «на глаза». Результаты будут неточными. Никогда не пропускайте JavaScript-рендеринг, если сайт построен на React, Vue или Angular.

Ошибка 2: игнорирование robots.txt

Некоторые начинают с отключения robots.txt, чтобы «увидеть всё». Это неправильно. Сначала проверьте сайт с включёнными директивами — это покажет, как его видят поисковые системы. Только потом отключайте для глубокого анализа.

Ошибка 3: использование бесплатной версии для больших сайтов

Бесплатная версия Screaming Frog ограничена 500 страницами. На сайтах с более чем 1000 страниц вы не увидите полную картину. Это как измерять температуру в одном углу дома и делать вывод о всей квартире. Для коммерческих проектов лицензия — не расход, а инвестиция.

Ошибка 4: отсутствие документации результатов

Многие сканируют, видят кучу ошибок — и не записывают их. Через неделю забывают, что было важно. Всегда экспортируйте результаты в CSV или Excel. Добавьте комментарии: «Ошибка 404 на /old-product — нужно перенаправить на /new-product».

Ошибка 5: неиспользование фильтров

Сканировать весь сайт — это как чистить всю квартиру, если нужно только убрать кухню. Используйте Include/Exclude. Это сэкономит вам часы и снизит нагрузку на сервер.

Ошибка 6: несравнение с конкурентами

После аудита своего сайта — сравните его с топовыми конкурентами. Проверьте их структуру, наличие микроразметки, скорость рендеринга. Это даст понимание: что вы делаете лучше, а где отстаёте.

Часто задаваемые вопросы

Вопрос: Можно ли сканировать сайт с HTTPS и без www?

Ответ: Да, но будьте внимательны. Screaming Frog по умолчанию не переходит с http на https или www на без-www. Убедитесь, что вы вводите URL точно так же, как он отображается на сайте. Иначе вы можете пропустить дублирующиеся версии.

Вопрос: Как часто нужно проводить сканирование?

Ответ: Для крупных сайтов — ежемесячно. Для средних — раз в квартал. После любых крупных изменений (редизайн, миграция, обновление CMS) — обязательно проводите аудит в течение 48 часов.

Вопрос: Почему Screaming Frog не видит контент, который я вижу в браузере?

Ответ: Скорее всего, контент подгружается через AJAX или требует действия пользователя (например, клик «Показать ещё»). Включите рендеринг и используйте опцию «Wait for elements», чтобы указать селектор кнопки или блока, который нужно дождаться.

Вопрос: Как проверить, что рендеринг работает?

Ответ: Откройте любую страницу в вкладке «Internal» и нажмите на неё. Внизу появится окно с «Page Preview» — это то, что видит рендерер. Если там пусто — рендеринг не сработал. Проверьте настройки и время ожидания.

Вопрос: Можно ли использовать Screaming Frog для мобильного SEO?

Ответ: Да. Включите «Emulate Googlebot Smartphone» — и инструмент будет анализировать мобильную версию. Сравните результаты с десктопной — часто там есть серьёзные различия: отсутствие H1, дублирующиеся title, разный контент.

Заключение: как превратить сканирование в стратегию роста

Сканирование сайта — это не техническая рутина. Это системный подход к пониманию того, как поисковые системы воспринимают ваш ресурс. Screaming Frog — это не просто «паук», а аналитическая платформа, способная выявить причины низкой видимости, которые другие инструменты просто не замечают.

Чтобы получить максимальную пользу:

  • Настройте сканирование под задачу: не используйте «по умолчанию».
  • Включайте JavaScript-рендеринг — иначе вы работаете с мифом.
  • Используйте Include/Exclude — экономьте время и ресурсы.
  • Фокусируйтесь на ошибках, влияющих на конверсию: дублирующие title, битые ссылки, отсутствие мета-описаний.
  • Документируйте результаты: не полагайтесь на память — сохраняйте отчёты.
  • Проводите аудит регулярно: SEO — это непрерывный процесс, а не разовая операция.

Технический SEO — это фундамент. Без него даже самый креативный контент не попадёт в топ. Screaming Frog даёт вам инструмент, чтобы видеть этот фундамент. Используйте его с умом — и вы получите не просто «чистый сайт», а платформу для устойчивого роста трафика, конверсий и доверия.

Помните: идеальный сайт — не тот, который выглядит красиво. Идеальный сайт — тот, который поисковые системы понимают и продвигают. Сканирование — это первый шаг к такому сайту.

seohead.pro