Руководство по сканированию сайтов с помощью Screaming Frog
Сканирование веб-сайтов — это фундаментальный этап технического SEO-аудита, позволяющий выявить скрытые проблемы, которые мешают поисковым системам корректно индексировать ресурс. Одним из самых мощных и гибких инструментов для этой задачи является Screaming Frog SEO Spider. Он позволяет не просто «просканировать» страницы, а провести глубокий анализ структуры сайта, выявить дубликаты мета-тегов, битые ссылки, проблемы с рендерингом JavaScript и множество других технических барьеров, влияющих на видимость в поиске. В этой статье мы подробно разберем, как правильно настроить инструмент, какие параметры выбрать для разных типов сайтов и как интерпретировать результаты сканирования, чтобы превратить данные в actionable-стратегии.
Подготовка к сканированию: основы настройки
Прежде чем запускать сканирование, важно понимать: результаты будут соответствовать настройкам. Неправильно сконфигурированный инструмент может пропустить критические ошибки или, наоборот, перегрузить сервер сайта. Подготовка — это не просто технический этап, а стратегическое планирование анализа.
Выбор режима работы: Spider против List
Screaming Frog предлагает два основных режима сканирования: Spider и List. Каждый из них решает разные задачи.
- Spider (паук) — автоматически начинает с указанного URL и последовательно переходит по всем внутренним ссылкам, обходя сайт как обычный пользователь. Этот режим идеален для комплексного аудита, когда нужно оценить всю структуру сайта: как страницы связаны между собой, где есть «мёртвые зоны», какие разделы недостаточно проиндексированы.
- List (список) — позволяет загрузить заранее подготовленный список URL-адресов из файла (CSV, TXT) или XML-карты сайта. Используется для целевого анализа: проверки конкретных страниц после редизайна, мониторинга ключевых продуктов или аудита отдельных разделов. Это экономит время и ресурсы, особенно на больших сайтах.
Если вы не уверены, с чего начать — используйте режим Spider. Он даст общую картину. Если вы уже знаете, какие страницы требуют проверки — выбирайте List.
Настройка robots.txt и User-Agent
По умолчанию Screaming Frog следует правилам файла robots.txt. Это удобно, если вы хотите понять, как поисковые системы «видят» сайт. Однако для полного технического аудита — особенно при поиске скрытых ошибок — необходимо отключить это ограничение.
Чтобы проигнорировать директивы robots.txt, перейдите в Configuration > Robots.txt > Settings и снимите галочку с опции «Respect robots.txt». Это позволит сканеру добраться до страниц, которые были намеренно запрещены для индексации — например, страницы корзины, личного кабинета или служебные URL. Важно: не все такие страницы должны быть проиндексированы, но их наличие в аудите поможет выявить ошибки конфигурации.
Не менее важна настройка User-Agent. По умолчанию инструмент использует собственный агент, который может не соответствовать поведению реальных поисковых роботов. Для более точного анализа замените его на один из официальных:
- Googlebot — для анализа видимости в Google.
- YandexBot — если ваша аудитория преимущественно русскоязычная.
Настройка осуществляется в Configuration > User-Agent. Введите нужный агент вручную или выберите из предустановленных. Это особенно критично, если на сайте используются разные версии контента для мобильных и десктопных пользователей, или если вы применяете геолокационную персонализацию. Сканер, имитирующий Googlebot, покажет именно ту версию страницы, которую видит поисковая система — а не ту, что отображается вам в браузере.
Настройка скорости и таймаутов
Сканирование — это нагрузка на сервер. Если вы не учитываете возможности хостинга, есть риск получить блокировку IP-адреса или замедление работы сайта. Настройка скорости — не просто техническая деталь, а вопрос этичности и профессионализма.
Перейдите в Configuration > Spider. Здесь вы найдете ключевые параметры:
- Threads (потоки) — количество одновременных запросов. Для слабых серверов (общий хостинг, VPS с ограниченными ресурсами) установите 2–5 потоков. Для мощных серверов (Cloud, dedicated) можно увеличить до 7–10.
- Requests per second — сколько запросов отправляется в секунду. Для большинства сайтов достаточно 5–10 запросов/сек. Если сайт медленно отвечает — уменьшите до 2–3.
- Timeout — время ожидания ответа от сервера. По умолчанию — 10 секунд. Для сайтов с тяжелыми страницами (с медленными API, большими изображениями) увеличьте до 20–30 секунд. Иначе инструмент будет считать страницы «недоступными», хотя они работают нормально.
Особое внимание уделите respects robots.txt и follow redirects. Убедитесь, что «Follow Redirects» включен — иначе вы не увидите цепочки редиректов (301, 302), которые могут быть причиной потери трафика.
Настройка авторизации
Если вам нужно проанализировать защищённые разделы сайта — административную панель, личный кабинет или тестовые среды — Screaming Frog поддерживает аутентификацию. В разделе Configuration > Authentication доступны два метода:
- HTTP Basic Auth — для сайтов, где доступ защищён через стандартную HTTP-авторизацию (появляется всплывающее окно с логином и паролем).
- Form-based login — для сайтов, где авторизация происходит через HTML-форму. Введите URL формы, имя поля логина и пароля — инструмент автоматически выполнит вход.
Это особенно полезно при аудите закрытых платформ, CRM-систем или внутренних порталов. Без этой настройки вы просто не увидите содержимое этих страниц — и, как следствие, пропустите критические ошибки в структуре или мета-тегах.
Сканирование динамических сайтов: JavaScript-рендеринг
Современные веб-сайты всё чаще строятся на фреймворках: React, Vue.js, Angular. Эти технологии позволяют создавать интерактивные и быстрые интерфейсы, но усложняют работу поисковых систем. Контент на таких сайтах генерируется динамически — через JavaScript — и не виден в исходном HTML. Если вы сканируете такой сайт без дополнительных настроек, Screaming Frog увидит лишь пустой шаблон — без текста, изображений и структурированных данных.
Почему JavaScript — проблема для SEO
Большинство поисковых роботов всё ещё не могут полностью интерпретировать сложный JavaScript. Хотя Google и другие системы развивают возможности рендеринга, они не всегда справляются с тяжёлыми SPA-приложениями. Если контент загружается после 5–10 секунд, он может быть проигнорирован. То же самое происходит с инструментами, которые не умеют выполнять JavaScript.
Без рендеринга вы можете увидеть:
- Пустые мета-теги (title, description).
- Отсутствие заголовков H1–H3 на страницах.
- Нет структурированных данных (Schema.org).
- Битые ссылки внутри динамического контента.
Это приводит к ложному выводу: «сайт технически здоров», хотя на деле он не индексируется. Поэтому рендеринг — это не опция, а обязательное условие для любых современных сайтов.
Как включить JavaScript-рендеринг
Чтобы Screaming Frog мог «видеть» сайт как пользователь, необходимо включить режим рендеринга:
- Перейдите в Configuration > Spider > Rendering.
- Выберите опцию JavaScript.
- Нажмите «OK».
После этого инструмент запустит встроенный браузер (Chromium) для каждой страницы, дождётся выполнения JavaScript и только потом начнёт анализировать DOM-дерево.
Настройка параметров рендеринга
Рендеринг требует больше времени и ресурсов. Чтобы избежать ошибок, настройте следующие параметры:
| Параметр | Рекомендация | Пояснение |
|---|---|---|
| Wait Time | 5–10 секунд для большинства сайтов 15+ секунд для сложных SPA |
Время, которое инструмент ждёт, прежде чем считать страницу готовой. Если слишком мало — контент не успеет загрузиться. |
| Emulate Googlebot Smartphone | Включить обязательно | Google использует Mobile First Indexing. Без этой настройки вы не увидите мобильную версию контента, которая может отличаться от десктопной. |
| Wait for elements | Опционально: ввести CSS-селекторы | Если контент загружается через AJAX, укажите селектор (например, .content-loaded), чтобы инструмент ждал именно его появления. |
| Custom Headers | Добавить User-Agent, если нужно | Дополнительно можно задать заголовки, чтобы сайт не блокировал сканер как бота. |
Важно: при включении JavaScript-рендеринга время сканирования увеличивается в 3–5 раз. Для сайта с 10 000 страниц это может занять несколько часов. Планируйте аудит заранее — лучше проводить его в нерабочие часы.
Особенности анализа структурированных данных
Многие сайты используют Google Tag Manager или аналогичные системы для внедрения микроразметки (Schema.org). Эти данные часто добавляются через JavaScript. Если рендеринг не включён — Screaming Frog их не увидит. Это значит, что вы пропустите важные сигналы: отзывы, оценки, сведения о компаниях, продуктах или событиях.
После включения рендеринга проверьте вкладку Structured Data. Там вы увидите все обнаруженные схемы: Organization, Product, Review, Breadcrumb и другие. Если их нет — значит, либо разметка не работает, либо её вообще нет.
Совет: используйте фильтр «Missing» в этой вкладке, чтобы быстро найти страницы без структурированных данных — это часто ключевая причина низкой CTR в поисковой выдаче.
Фильтрация и выборочное сканирование: Exclude и Include
На крупных сайтах (с десятками тысяч или миллионами страниц) полное сканирование — это роскошь, которой не всегда можно позволить себе. Кроме того, многие разделы сайта (админка, корзина, личный кабинет) не имеют SEO-значения. Их сканирование — пустая трата ресурсов.
Для точечного анализа Screaming Frog предоставляет мощные инструменты: Include и Exclude. Они работают на основе регулярных выражений (regex) — гибких шаблонов, позволяющих точно указывать, какие URL включать или исключать.
Как использовать Include: выборочное сканирование
Фильтр Include позволяет сканировать ТОЛЬКО страницы, соответствующие вашим правилам. Все остальные игнорируются.
Примеры использования:
- Анализ блога:
.*/blog/.*— включит все URL, содержащие «/blog/». - Анализ категорий товаров:
.*/category/.*— охватит все страницы категорий в интернет-магазине. - Проверка нескольких доменов:
https://(www\.)?example\.com/.*— включит все поддомены и версии сайта. - Фильтрация по параметрам:
.*/product\?id=.*— проанализирует только страницы с параметром «id».
Вы можете добавить несколько правил — инструмент включит страницы, соответствующие любому из них. Это идеально для комплексных проектов, где нужно проверить несколько ключевых разделов одновременно.
Как использовать Exclude: исключение ненужных разделов
Фильтр Exclude наоборот — он убирает из сканирования всё, что соответствует вашим правилам. Это особенно полезно для:
- Исключения административных разделов:
.*/admin/.*— исключит все URL с «/admin». - Исключения страниц тегов:
.*/tag/.*— часто дублируют контент и снижают качество индексации. - Исключение файлов:
http.*\.jpg,http.*\.png,http.*\.pdf— исключает изображения и документы, которые не влияют на SEO. - Исключение URL с параметрами:
.+\?.+— исключает все URL с параметрами в строке запроса (например, ?utm_source=…), если они не нужны для анализа.
Важно: исключения имеют приоритет над включениями. Если URL соответствует правилу Exclude — он не будет проанализирован, даже если попадает под Include.
Совет: начните с исключения файлов. Это может уменьшить размер сканирования на 30–60% без потери SEO-значимости. Затем исключите дублирующиеся параметры и служебные пути.
Практический кейс: аудит интернет-магазина
Представим, что у вас есть магазин с 50 000 страниц. Вам нужно проанализировать:
- Категории товаров (500 страниц)
- Страницы продуктов (49 000 страниц)
- Блог (250 статей)
Но не нужно:
- Корзину и личный кабинет
- Файлы PDF, изображения
- Страницы с параметрами фильтрации (?color=red&size=xl)
Настройка:
- Include:
.*/category/.*,.*/product/.*,.*/blog/.* - Exclude:
.*/cart/.*.*/account/.*http.*\.jpg|http.*\.png|http.*\.pdf.+\?.+
Такой подход сократит время сканирования в 10 раз и сосредоточит анализ на тех страницах, которые действительно влияют на трафик.
Анализ результатов: ключевые вкладки и их интерпретация
После завершения сканирования Screaming Frog открывает подробный отчёт, разделённый на вкладки. Не пытайтесь «просмотреть всё сразу» — анализируйте системно.
Internal: внутренняя структура сайта
Это основная вкладка для технического аудита. Здесь вы видите все проиндексированные страницы с их метаданными и HTTP-статусами.
Что проверять:
- HTTP Status: ищите страницы со статусами 4xx (ошибки) и 5xx (серверные сбои). Даже одна страница с ошибкой 404 может сигнализировать о проблемах в навигации.
- Page Title: ищите дублирующиеся или пустые title. Страницы без заголовка не будут индексироваться.
- Description: проверьте, есть ли уникальные мета-описания. Дублирующиеся или слишком короткие описания снижают CTR.
- Headings: убедитесь, что на каждой странице есть H1. Проверьте, нет ли дублирования заголовков между страницами.
Используйте фильтры: «Status Code = 404», «Title = Missing» — чтобы быстро найти проблемы.
Response Codes: диагностика ошибок
Вкладка «Response Codes» группирует все страницы по статусам HTTP. Это ваша карта «технических угроз».
| Статус | Значение | Что делать |
|---|---|---|
| 200 OK | Страница доступна | Нормально. Но проверьте, нет ли дублей. |
| 301 Moved Permanently | Постоянный редирект | Ожидаемо. Но если цепочка редиректов длиннее 3–4 шагов — это плохо. |
| 302 Found | Временный редирект | Часто ошибочно используется вместо 301. Замените на постоянные, если редиректы не временные. |
| 404 Not Found | Страница не найдена | Устраните или перенаправьте. Проверьте ссылки в меню и внутренних связях. |
| 403 Forbidden | Доступ запрещён | Не должно быть на публичных страницах. Проверьте права доступа к файлам. |
| 500 Internal Server Error | Ошибка сервера | Срочно! Это критическая проблема. Проверьте логи сервера. |
| 503 Service Unavailable | Сервер временно недоступен | Определяет нагрузку. Если частая — нужна оптимизация сервера. |
Особое внимание уделите страницам с 404. Они — главный индикатор плохой технической поддержки. Даже 5–10 таких страниц на большом сайте — это сигнал, что структура неконсистентна.
External Links: аудит исходящих ссылок
Ссылки на другие сайты — это не просто «дружеские связи». Они влияют на репутацию сайта. Проверьте:
- Сколько ссылок ведут на недоступные (404) или подозрительные сайты?
- Есть ли ссылки на спам-ресурсы, фармацевтические сайты или подозрительные домены?
- Используются ли атрибуты
nofollowтам, где это необходимо (например, реклама)?
Фильтруйте по «External Links» и смотрите на столбец «Link Text». Если ссылки ведут на сайты с названиями типа «buy viagra» или содержат ключевые слова вида «лучший дешёвый гаджет» — это может повредить доверию поисковой системы.
Images: оптимизация визуального контента
Изображения — это не просто украшение. Они влияют на скорость загрузки и SEO-видимость в Google Images.
Проверьте:
- Alt-атрибуты: есть ли у всех изображений? Отсутствие alt — частая ошибка.
- Размер файлов: тяжёлые изображения (более 2 МБ) замедляют сайт. Ищите «File Size» > 1MB.
- Названия файлов: «image001.jpg» — плохо. Лучше: «red-running-shoes-2025.jpg».
- Ссылки на изображения: нет ли битых ссылок?
Совет: экспортируйте список изображений в Excel, отсортируйте по размеру — и начните с самых тяжёлых. Используйте инструменты типа TinyPNG или Squoosh для сжатия.
Structured Data: микроразметка
Эта вкладка показывает, какие структурированные данные (Schema.org) обнаружены на страницах. Это критично для «богатых сниппетов» в поиске.
Что искать:
- Missing: страницы без разметки.
- Errors: неправильная структура (например, «price» без «currency»).
- Warnings: необязательные, но полезные параметры.
Пример: если на странице товара нет разметки Product, Google не сможет показать цену, оценку или наличие — и вы потеряете дополнительный CTR. Убедитесь, что каждая страница продукта содержит минимально необходимые поля: name, image, offer, price.
Практические рекомендации и ошибки новичков
Даже опытные SEO-специалисты допускают ошибки при работе с Screaming Frog. Вот наиболее частые и опасные из них.
Ошибка 1: сканирование без рендеринга на динамических сайтах
Более 70% современных сайтов используют JavaScript-рендеринг. Если вы не включили рендер — вы проводите аудит «на глаза». Результаты будут неточными. Никогда не пропускайте JavaScript-рендеринг, если сайт построен на React, Vue или Angular.
Ошибка 2: игнорирование robots.txt
Некоторые начинают с отключения robots.txt, чтобы «увидеть всё». Это неправильно. Сначала проверьте сайт с включёнными директивами — это покажет, как его видят поисковые системы. Только потом отключайте для глубокого анализа.
Ошибка 3: использование бесплатной версии для больших сайтов
Бесплатная версия Screaming Frog ограничена 500 страницами. На сайтах с более чем 1000 страниц вы не увидите полную картину. Это как измерять температуру в одном углу дома и делать вывод о всей квартире. Для коммерческих проектов лицензия — не расход, а инвестиция.
Ошибка 4: отсутствие документации результатов
Многие сканируют, видят кучу ошибок — и не записывают их. Через неделю забывают, что было важно. Всегда экспортируйте результаты в CSV или Excel. Добавьте комментарии: «Ошибка 404 на /old-product — нужно перенаправить на /new-product».
Ошибка 5: неиспользование фильтров
Сканировать весь сайт — это как чистить всю квартиру, если нужно только убрать кухню. Используйте Include/Exclude. Это сэкономит вам часы и снизит нагрузку на сервер.
Ошибка 6: несравнение с конкурентами
После аудита своего сайта — сравните его с топовыми конкурентами. Проверьте их структуру, наличие микроразметки, скорость рендеринга. Это даст понимание: что вы делаете лучше, а где отстаёте.
Часто задаваемые вопросы
Вопрос: Можно ли сканировать сайт с HTTPS и без www?
Ответ: Да, но будьте внимательны. Screaming Frog по умолчанию не переходит с http на https или www на без-www. Убедитесь, что вы вводите URL точно так же, как он отображается на сайте. Иначе вы можете пропустить дублирующиеся версии.
Вопрос: Как часто нужно проводить сканирование?
Ответ: Для крупных сайтов — ежемесячно. Для средних — раз в квартал. После любых крупных изменений (редизайн, миграция, обновление CMS) — обязательно проводите аудит в течение 48 часов.
Вопрос: Почему Screaming Frog не видит контент, который я вижу в браузере?
Ответ: Скорее всего, контент подгружается через AJAX или требует действия пользователя (например, клик «Показать ещё»). Включите рендеринг и используйте опцию «Wait for elements», чтобы указать селектор кнопки или блока, который нужно дождаться.
Вопрос: Как проверить, что рендеринг работает?
Ответ: Откройте любую страницу в вкладке «Internal» и нажмите на неё. Внизу появится окно с «Page Preview» — это то, что видит рендерер. Если там пусто — рендеринг не сработал. Проверьте настройки и время ожидания.
Вопрос: Можно ли использовать Screaming Frog для мобильного SEO?
Ответ: Да. Включите «Emulate Googlebot Smartphone» — и инструмент будет анализировать мобильную версию. Сравните результаты с десктопной — часто там есть серьёзные различия: отсутствие H1, дублирующиеся title, разный контент.
Заключение: как превратить сканирование в стратегию роста
Сканирование сайта — это не техническая рутина. Это системный подход к пониманию того, как поисковые системы воспринимают ваш ресурс. Screaming Frog — это не просто «паук», а аналитическая платформа, способная выявить причины низкой видимости, которые другие инструменты просто не замечают.
Чтобы получить максимальную пользу:
- Настройте сканирование под задачу: не используйте «по умолчанию».
- Включайте JavaScript-рендеринг — иначе вы работаете с мифом.
- Используйте Include/Exclude — экономьте время и ресурсы.
- Фокусируйтесь на ошибках, влияющих на конверсию: дублирующие title, битые ссылки, отсутствие мета-описаний.
- Документируйте результаты: не полагайтесь на память — сохраняйте отчёты.
- Проводите аудит регулярно: SEO — это непрерывный процесс, а не разовая операция.
Технический SEO — это фундамент. Без него даже самый креативный контент не попадёт в топ. Screaming Frog даёт вам инструмент, чтобы видеть этот фундамент. Используйте его с умом — и вы получите не просто «чистый сайт», а платформу для устойчивого роста трафика, конверсий и доверия.
Помните: идеальный сайт — не тот, который выглядит красиво. Идеальный сайт — тот, который поисковые системы понимают и продвигают. Сканирование — это первый шаг к такому сайту.
seohead.pro
Содержание
- Подготовка к сканированию: основы настройки
- Сканирование динамических сайтов: JavaScript-рендеринг
- Фильтрация и выборочное сканирование: Exclude и Include
- Анализ результатов: ключевые вкладки и их интерпретация
- Практические рекомендации и ошибки новичков
- Часто задаваемые вопросы
- Заключение: как превратить сканирование в стратегию роста