Как предсказать позиции сайта в поиске или Data Science в SEO на практике

автор

статья от

Алексей Лазутин

Специалист по поисковому маркетингу

Продолжаем разбирать формулу SEO-успеха. В первой части мы говорили о ключевых компонентах. Теперь я покажу, как с помощью данных и машинного обучения можно построить точные прогнозы динамики позиций сайта в поисковой выдаче.

Важно: это не теория, а реальная практика
Описанный ниже подход — это не абстрактное рассуждение, а методология, которую реально использовать в работе с клиентами для построения точных прогнозов и оценки эффективности SEO-стратегии.

5 этапов прогнозирования позиций с помощью Machine Learning

1. Сбор и объединение данных из всех источников

Основа точного прогноза — качественные данные. Сначала собираем информацию из всех доступных источников:

Что именно мы выгружаем и анализируем:

  • Из Search Console: переходы, показы, CTR, позиции, ключевые фразы для каждой страницы
  • Через Lighthouse: показатели скорости (LCP, FCLS, TTI, TBT) и технические параметры
  • С помощью любого парсера сайтов: заголовки, H1, статус-коды, размер страниц, количество ссылок

Это дает нам полную картину по каждому URL в динамике за продолжительный период.

2. Предобработка и очистка данных

«Мусорные» данные на входе — ошибочные прогнозы на выходе. Мы проводим тщательную подготовку:

Ключевые действия на этом этапе:

  • Нормализация метрик для корректного сравнения
  • Заполнение пропусков в данных
  • Объединение в единую таблицу по ID страницы и дате
  • Кодирование категориальных признаков (тип страницы, источник данных)

Без этого этапа любая, даже самая сложная модель, будет работать некорректно.

3. Создание признаков (Feature Engineering)

Нюанс Data Science — в создании правильных признаков. Создаем дополнительные признаки, которые значительно улучшают качество прогноза:

Какие именно фичи мы создаем:

  • Временные признаки: день недели, месяц, квартал
  • Скользящие средние (rolling average) по поведенческим метрикам
  • Взаимодействия признаков (оценка контента × время на странице)
  • Агрегированные SEO-показатели (плотность ключевых слов, уникальность анкоров)

Именно этот этап часто отличает хорошие прогнозы от отличных.

4. Обучение и валидация модели

Используем современные алгоритмы машинного обучения для построения прогнозов:

Технический стек:

  • Алгоритмы: XGBoost, CatBoost, LightGBM
  • Разделение данных: train/test с сохранением временной последовательности
  • Метрики качества: MAE (средняя абсолютная ошибка), RMSE (корень из средней квадратичной ошибки), R² (коэффициент детерминации)
  • Валидация: кросс-валидация с учетом временных рядов

Особенно в SEO никогда не верим на слово даже своим моделям — всегда проверяем качество на тестовых данных.

5. Прогнозирование и визуализация результатов

Самый интересный этап — когда модель начинает предсказывать будущее:

Что мы получаем на выходе:

  • Прогноз позиций на 30-60 дней вперед
  • Визуализации динамики по ключевым запросам
  • Оценку уверенности модели в прогнозах
  • Анализ важности факторов, влияющих на позиции

Это позволяет не только предсказывать будущее, но и понимать, какие именно факторы на него влияют.

Почему это работает там, где другие методы бессильны?

Традиционные методы SEO-аналитики, такие как корреляционный анализ, обычно ищут простые линейные связи между факторами (например, между позицией сайта и количеством ссылок или длинной текста). Однако в реальности влияние разных SEO-факторов на ранжирование может быть сложным и нелинейным — то есть одни факторы могут взаимодействовать друг с другом, влиять по-разному в разных условиях.

Машинное обучение способно автоматически находить такие сложные, многомерные и нелинейные зависимости в данных, которые трудно или невозможно заметить при обычном анализе. Поэтому методы машинного обучения работают там, где традиционные методы оказываются бессильны — они помогают глубже понять, какие именно факторы и как влияют на результаты, что улучшает качество SEO-аналитики и прогнозов.

Реальные data-driven кейсы из нашей практики, выявленные ML-моделями:

  • Влияние мобильной скорости на десктоп: улучшение LCP мобильной версии на 1.5 сек. приводило к росту позиций в десктопном поиске на 5-7% для одной и той же страницы.
  • Оптимальная глубина вложенности: для сложных тем страницы 4-5 уровня вложенности показывали на 20% лучшее время на сайте.
  • Эффект переоптимизации анкоров: доля точных вхождений запросов выше 35% начинала вредить ранжированию.
  • Взаимодействие скорости и контента: ускорение загрузки работало только при наличии достаточного объема текста (от 1200 символов).
  • Для коммерческих категорийных страниц (каталоги) Core Web Vitals (LCP) были значимы только при наличии определенного порога текстового контента (от 1200 символов). Ускорение LCP с 4.5с до 2.1с на страницах с текстом <500 символов не дало роста, в то время как на страницах с текстом >1200 символов тот же прирост скорости дал увеличение конверсии на 5%. Проверял: LCP × объем текста на странице × коэффициент конверсии.
  • На одном из проектов была определена оптимальная частота обновления контента. Модель предсказала, что частое обновление более 30% текста на стабильно ранжирующихся страницах (раз в 1-2 месяца) чаще приводило к падению, чем к росту. Наибольший положительный отклик давало точечное обновление (10-15% текста) раз в 3-4 месяца. Проверял: % обновленного текста × частота обновлений × изменение позиции после обновления.
  • Длина title и сегмент рынка: в B2B-сегменте (дорогие IT-решения, корпоративные услуги) title длиной 65-75 символов стабильно показывали CTR на 25% выше, чем короткие (35-45 символов) или длинные (80+). В B2C-сегменте (интернет-магазины) зависимость была обратной: короткие и емкие title выигрывали. Проверял: длину title × CTR × тип бизнеса (B2B/B2C).
  • Влияние изображений на глубину просмотра: количество изображений на странице (до 8-10 штук) положительно влияло на глубину прокрутки и время на сайте. Но дальнейшее увеличение числа изображений давало резко негативный эффект на поведенческие метрики и позиции. Модель выявила «золотую середину» — 1 изображение на 250-300 текста. Проверял: количество изображений × объем текста % прокрутки × время на сайте.

Как это помогает в реальной SEO-работе?

Мы используем эту систему не для галочки, а для решения конкретных бизнес-задач:

Конкретные применения:
  • Приоритизация задач: понимание, какие исправления дадут максимальный прирост позиций
  • Оценка ROI: прогноз трафика и конверсий от планируемых изменений
  • Риск-менеджмент: предсказание потенциальных падений до их возникновения
  • Аргументация для клиентов: данные, а не предположения для обоснования стратегии

Готовы перейти от догадок к точным прогнозам?

Data-driven подход к SEO — это не будущее, а настоящее. Если вы хотите не гадать о позициях, а управлять ими, предлагаю начать с аудита вашей текущей ситуации.

В рамках бесплатного экспресс-аудита я анализирую:

  • Выявление 3 самых серьезных ошибок на сайте
  • Рекомендации по их устранению


Получить экспресс-аудит

В умелых руках SEO становится точной наукой

Машинное обучение и анализ данных позволяют перейти от интуитивных решений к точным, обоснованным прогнозам. Это особенно критично в условиях растущей конкуренции и постоянных изменений алгоритмов.

Ключевой вывод: будущее в SEO за теми, кто умеет работать не только с текстами, накруткой ПФ и ссылками, но и с данными. Начинайте собирать и анализировать данные сегодня, чтобы быть на шаг впереди завтра.

seohead.pro