Главная /
Блог /
XPath запросы для парсинга сайтов: руководство для новичков и профессионалов

XPath запросы для парсинга сайтов: руководство для новичков и профессионалов

автор

статья от 01.04.2026

Специалист по поисковому маркетингу

В современном цифровом мире информация — это не просто данные, а стратегический актив. Компании, которые умеют системно извлекать, анализировать и использовать информацию с веб-ресурсов, получают значительное преимущество над конкурентами. XPath (XML Path Language) — мощный язык запросов, позволяющий точно находить и извлекать структурированные данные с HTML-страниц. Его применение охватывает SEO, маркетинговую аналитику, мониторинг цен, сбор контактных данных и автоматизацию рутинных задач. Несмотря на кажущуюся сложность, XPath доступен даже тем, кто не является программистом. Главное — понимать его логику и применять с учетом технических и этических норм.

Что такое парсинг и зачем он нужен

Парсинг — это процесс автоматического извлечения информации с веб-страниц и её преобразование в структурированный формат: таблицы, JSON, CSV или базу данных. В отличие от ручного копирования текста, парсинг позволяет обрабатывать тысячи страниц за минуты. Это особенно ценно для бизнеса, где скорость и точность данных напрямую влияют на принятие решений.

Парсинг применяется в самых разных сферах. Маркетологи используют его для мониторинга цен конкурентов, чтобы своевременно корректировать свою стратегию. SEO-специалисты собирают мета-теги, заголовки и структуру контента с сайтов конкурентов для анализа их успешных практик. Аналитики извлекают статистику по продажам, отзывам и рейтингам для создания отчетов. Предприниматели находят потенциальных клиентов, анализируя публикации в каталогах и на площадках. Разработчики создают агрегаторы, объединяющие данные из множества источников — от отзывов о товарах до расписаний транспорта.

По данным исследований в области цифровой аналитики, автоматизированный сбор данных с помощью парсинга ускоряет процесс анализа в 8–12 раз по сравнению с ручным методом. Это не просто удобство — это вопрос выживания на рынке, где информация устаревает быстрее, чем можно её вручную собрать. Кроме того, парсинг позволяет выявлять тенденции, которые невозможно заметить при поверхностном просмотре: изменения в структуре контента, частоту обновлений заголовков, динамику цен на определённые категории товаров.

Сегодня парсинг — это не эксперимент, а стандартная практика для компаний, стремящихся к данным на основе фактов. Те, кто игнорирует эту возможность, рискуют остаться в прошлом.

Основы XPath: как работает язык запросов

XPath — это язык, разработанный для навигации по структурированным документам в формате XML. Поскольку HTML-страницы имеют древовидную структуру, схожую с XML, XPath стал универсальным инструментом для работы с веб-контентом. Он позволяет указывать точный путь к любому элементу на странице — будь то заголовок, ссылка, изображение или скрытый блок.

Работа XPath основана на модели DOM (Document Object Model) — иерархическом представлении страницы, где каждый элемент является узлом. Каждый узел может иметь родителей, детей и соседей. XPath позволяет перемещаться по этой структуре в любом направлении: от корня к листьям, между соседними узлами или обратно к предкам.

Базовый синтаксис XPath состоит из трёх ключевых компонентов:

Узлы (Nodes) — это элементы HTML: теги, атрибуты, текстовые значения. Например, <h1>, class="title", или сам текст «Скидка 50%».
Оси (Axes) — определяют направление поиска. Например, «найти всех детей» или «найти родителя».
Предикаты (Predicates) — условия, которые фильтруют узлы. Например, «найти только те ссылки, которые содержат слово «купить»».

Простейшие выражения XPath выглядят так:

//h1 — выбирает все заголовки первого уровня на странице.
//a — извлекает все ссылки.
//div[@class="product"] — находит все блоки с классом «product».
//img/@src — получает значения атрибута src у всех изображений.
//h1/text() — возвращает только текстовое содержимое заголовков h1.

Важно понимать разницу между абсолютными и относительными путями. Абсолютный путь начинается с корня документа: /html/body/div[1]/div[3]/h2. Он точен, но хрупок — даже незначительное изменение структуры страницы делает его бесполезным. Относительные пути, начинающиеся с //, более гибкие. Например: //div[@id="content"]//h2 найдёт все заголовки h2 внутри блока с id «content», вне зависимости от того, на каком уровне вложенности они находятся. Именно такие выражения используются в реальных задачах парсинга.

Инструменты для создания и тестирования XPath-запросов

Начать работу с XPath не требуется знаний программирования. Современные браузеры предоставляют встроенные средства для исследования структуры страницы. Главный инструмент — инструменты разработчика.

Чтобы открыть их:

Google Chrome: нажмите F12, Ctrl+Shift+I или щёлкните правой кнопкой мыши по элементу и выберите «Просмотреть код».
Mozilla Firefox: F12, Ctrl+Shift+I или «Исследовать элемент» в контекстном меню.
Microsoft Edge: F12 или Ctrl+Shift+I.

После открытия инструментов перейдите на вкладку Elements (Chrome) или Inspector (Firefox). Там вы увидите древовидное представление HTML-кода. Активируйте инструмент выбора — иконку курсора в верхнем левом углу. Теперь, когда вы наведёте мышь на страницу, соответствующий HTML-элемент будет подсвечиваться. Щёлкните правой кнопкой мыши по выделенному элементу и выберите Copy → Copy XPath. Браузер автоматически сгенерирует путь к этому элементу.

Однако, как показывает практика, автоматически сгенерированные XPath часто слишком длинные и неустойчивы. Например: /html/body/div[1]/div[3]/div/div[2]/div[1]/div[1]/h2. Такой путь легко сломается, если на странице появится ещё один div. Вместо этого стоит научиться писать XPath вручную — это даст гораздо большую гибкость и надёжность.

Как создавать эффективные XPath-запросы

Вот ключевые подходы к написанию надёжных запросов:

Поиск по ID: самый стабильный способ. Если у элемента есть уникальный идентификатор — используйте его: //div[@id="product-description"].
Поиск по классу: если ID отсутствует, ищите по классам: //div[@class="product-card"]. Учтите, что классы могут содержать несколько значений — тогда лучше использовать contains(@class, "product").
Поиск по тексту: если элемент содержит уникальный текст, используйте: //a[contains(text(), "Подробнее")].
Комбинирование атрибутов: можно искать по нескольким условиям: //div[@class="product" and @data-id="123"].
Частичное совпадение: для поиска в части атрибута используйте функции contains(), starts-with(), ends-with():
Пример: //a[contains(@href, "product")] — найдёт все ссылки, содержащие «product» в URL.

Эти методы позволяют создавать запросы, устойчивые к изменениям внешнего вида страницы. Важно: всегда тестируйте запросы перед использованием в автоматизированных скриптах.

Отладка XPath в консоли браузера

Для проверки корректности XPath-выражения можно использовать консоль браузера. Откройте вкладку Console и выполните следующий JavaScript-код:

«`javascript
var xpath = ‘//h2[@class=»title»]’;
var result = document.evaluate(xpath, document, null, XPathResult.ANY_TYPE, null);
var nodes = [];
var node;
while (node = result.iterateNext()) {
nodes.push(node);
}
console.log(nodes);
«`

Если выражение верное, в консоли появится список всех найденных элементов. Если результат пуст — значит, запрос не соответствует структуре страницы. Такой подход позволяет быстро выявлять ошибки и корректировать запрос без запуска полноценного парсера. Это особенно полезно при работе с динамическими сайтами, где контент загружается через JavaScript.

Продвинутый синтаксис XPath: оси, предикаты и функции

После освоения базовых выражений можно перейти к более сложным возможностям XPath. Основные расширения — это оси, предикаты и функции обработки данных.

Оси XPath: навигация по дереву

Оси определяют направление движения относительно текущего узла. Ниже — основные оси и их применение:

Ось	Описание	Пример
`child::`	Дочерние элементы (по умолчанию)	`//div/child::h3` — все h3 внутри div
`parent::`	Родительский элемент	`//span[@class="price"]/parent::div` — родитель div для цены
`descendant::`	Все потомки (включая внуки, правнуков и т.д.)	`//section/descendant::a` — все ссылки внутри секции
`ancestor::`	Все предки (родитель, дед и т.д.)	`//li/ancestor::ul` — все ul, в которых находится li
`following-sibling::`	Элементы после текущего на том же уровне	`//h2/following-sibling::p` — все параграфы после h2
`preceding-sibling::`	Элементы до текущего на том же уровне	`//h3/preceding-sibling::h2` — предыдущий h2 перед текущим h3
`self::`	Текущий узел	`//div/self::div` — выбирает div, если он сам является div

Эти оси позволяют создавать сложные запросы, которые учитывают контекст элемента. Например, чтобы найти все ссылки внутри блока с классом «sidebar», который находится в разделе «footer»: //footer//div[@class="sidebar"]//a. Или чтобы получить текст соседнего элемента: //button[contains(text(), "Купить")]/following-sibling::span.

Предикаты: фильтрация по условиям

Предикаты — это выражения в квадратных скобках, которые фильтруют результаты. Они позволяют выбирать элементы не только по атрибутам, но и по содержимому или позиции.

По позиции: //ul/li[1] — первый элемент списка. //ul/li[last()] — последний. //ul/li[position() < 3] — первые два.
По содержимому: //p[contains(text(), "скидка")] — параграфы, содержащие слово «скидка». //a[not(contains(text(), "войти"))] — ссылки, не содержащие «войти».
По наличию дочерних элементов: //div[h3] — все div, у которых есть h3 внутри. //div[count(a) > 5] — div, содержащие более пяти ссылок.

Эти возможности позволяют извлекать данные с высокой точностью. Например, если нужно найти все товары, у которых есть цена и отзыв — можно использовать: //div[@class="product"][count(.//span[@class="review"]) > 0 and .//span[@class="price"]].

Функции XPath: обработка данных

XPath предоставляет встроенные функции для работы с текстом, числами и логикой. Это особенно важно при парсинге реальных данных — они редко бывают идеально структурированными.

Строковые функции

contains(string, substring) — проверяет наличие подстроки: //span[contains(text(), "бесплатно")]
starts-with(string, prefix) — начинается ли текст с указанного значения: //a[starts-with(@href, "https://")]
ends-with(string, suffix) — заканчивается ли текст: //img[ends-with(@src, ".jpg")]
string-length(string) — длина строки: //span[string-length(text()) < 10] — короткие описания

Числовые функции

number(string) — преобразует строку в число: //price[number(.) > 1000] — цены выше 1000
count(node-set) — количество элементов: //ul[count(li) > 3] — списки с более чем тремя элементами
mod — остаток от деления: //ul[count(li) mod 2 = 0] — списки с чётным количеством элементов

Логические функции

not() — отрицание: //div[not(@hidden)] — видимые блоки
boolean() — преобразование в логическое значение: //a[boolean(@href)] — ссылки с атрибутом href

Функции преобразования типов

Иногда данные хранятся как строки, а нужны как числа. Например:

//price[number(.) > 100] — преобразует текст «125₽» в число 125 и сравнивает
//div[string(@data-id)] — преобразует численный ID в строку для сравнения

Эти функции позволяют обрабатывать реальные данные — с пробелами, валютными символами и нестандартным форматированием. Без них парсинг часто приводит к ошибкам или неполным данным.

Практическое применение XPath: парсинг реальных данных

Теория полезна, но только практика показывает, насколько XPath мощен. Ниже — реальные кейсы применения.

Парсинг текстовых данных: заголовки, параграфы, метаданные

Сбор контента — одна из самых распространённых задач. Заголовки (h1–h6) часто содержат ключевые фразы, по которым можно анализировать SEO-стратегию. Для извлечения всех заголовков используйте: //h1 | //h2 | //h3. Чтобы получить только текст: //h1/text().

Для парсинга основного текста статьи или описания товара применяют:

//div[@class="article-content"]/p — все параграфы в блоке контента.
//div[@id="description"]//text() — весь текст внутри блока, включая вложенные элементы.
//article//p[not(contains(@class, "ad"))] — параграфы без класса «ad» (исключая рекламу).

Метаданные страницы — это невидимые, но критически важные элементы. Их можно извлечь без загрузки всей страницы:

//meta[@name="description"]/@content — мета-описание.
//meta[@name="keywords"]/@content — ключевые слова.
//link[@rel="canonical"]/@href — канонический URL.
//title/text() — заголовок страницы в браузере.

Эти данные используются для анализа SEO-оптимизации, проверки дублей и оценки качества контента. Например, если у 70% конкурентов в мета-описании есть ключевая фраза «купить онлайн», а у вас — нет, это сигнал к действию.

Парсинг числовых данных и цен

Цены — одна из самых востребованных категорий данных. Они часто находятся в элементах с классами price, cost, value. Простейший запрос: //span[@class="price"].

Однако реальные данные требуют обработки:

//span[@class="price"][contains(text(), "₽")] — цены в рублях.
//span[@class="price"][contains(text(), "$")] — цены в долларах.
//span[@class="old-price"] — перечёркнутые цены (до скидки).
//span[@class="discount"] — размер скидки в процентах.
//span[@class="new-price"] — новая цена.

После извлечения текста его нужно очистить от символов: «1 290 ₽» → «1290». Это делается уже на этапе обработки данных, но XPath помогает точно их извлечь. Для анализа динамики цен используются регулярные выражения или скрипты после парсинга — но XPath обеспечивает точную выборку.

Статистика также часто представлена в виде числовых значений:

//div[@class="stats"]//span[@class="value"] — показатели (например, «12 500 продаж»).
//div[@class="rating"]//span[@class="stars"] — рейтинг в звёздах.
//div[@class="product"]//span[@class="sold"] — количество проданных единиц.

Сравнение этих показателей между конкурентами позволяет выявить лидеров рынка, а также понять, какие факторы влияют на продажи: цена, рейтинг, количество отзывов.

Парсинг контактных данных и адресов

Контактные данные — это основа для генерации лидов. Они часто находятся в блоках с классами contacts, footer, info.

Для извлечения телефонов:

//div[@class="contacts"]//a[contains(@href, "tel:")] — ссылки с протоколом tel:.
//div[@class="contacts"]//*[contains(text(), "+7") or contains(text(), "8(")] — тексты с номерами в российском формате.

Для email-адресов:

//a[contains(@href, "mailto:")] — ссылки на email.
//div[contains(text(), "@") and contains(text(), ".")] — текст, содержащий символы @ и точку (предварительно фильтруйте ложные срабатывания).

Важно: сбор контактных данных — это юридически рискованная практика. Необходимо соблюдать законодательство о персональных данных и не использовать информацию для массовой рассылки без согласия.

Парсинг таблиц и списков

Таблицы и списки — структурированные источники данных. XPath позволяет их извлекать точно и системно.

Парсинг таблиц

//table//tr — все строки таблицы.
//table[@id="prices"]//tr[position() > 1] — все строки, кроме заголовка (первая строка).
//table//tr/td[1] — первая ячейка каждой строки (например, название товара).
//table//tr/td[last()] — последняя ячейка (например, цена).
//table//th — заголовки таблицы.

Парсинг списков

//ul/li — все элементы ненумерованных списков.
//ol[@class="top-list"]/li[position() <= 3] — первые три пункта нумерованного списка.
//ul[@class="menu"]//li[@class="active"] — активный пункт меню.
//ul/li[contains(text(), "Скидка")] — элементы списка, содержащие слово «скидка».

Таблицы особенно полезны для парсинга прайс-листов, сравнительных таблиц и рейтингов. После извлечения их можно преобразовать в CSV или Excel для дальнейшего анализа.

Этические и правовые аспекты парсинга

Техническая возможность не означает этическую или юридическую допустимость. Парсинг может нарушать права собственности, условия использования сайтов и законы о защите персональных данных.

Вот ключевые правила, которых следует придерживаться:

Проверяйте robots.txt. Этот файл указывает, какие части сайта запрещены для сканирования. Если в нём есть строка Disallow: /prices/ — не парсите раздел цен.
Уважайте авторские права. Контент, даже если он публично доступен, может быть защищён. Его использование для создания дубликатов — нарушение.
Соблюдайте условия использования сайта. Многие платформы прямо запрещают автоматический сбор данных в своих пользовательских соглашениях. Игнорирование этих правил может привести к блокировке IP или юридическим последствиям.
Ограничивайте частоту запросов. Отправка сотен запросов в секунду — это DDoS-атака. Используйте паузы между запросами (минимум 1–3 секунды).
Не собирайте персональные данные. Телефоны, email, адреса — это персональные данные. Их сбор без согласия нарушает законы (например, ФЗ-152 в РФ).
Используйте данные только для анализа. Не публикуйте их, не перепродавайте, не используйте в маркетинговых рассылках без явного согласия.

Игнорирование этих правил может привести к блокировке сервера, штрафам или судебным искам. Парсинг — это инструмент, а не лазейка. Его применение должно быть ответственным.

Автоматизация парсинга: Python и XPath

Инструменты браузера удобны для одного-двух запросов. Но если нужно парсить десятки или сотни страниц — нужна автоматизация.

Python с библиотеками requests и lxml — один из самых популярных инструментов для парсинга. Вот простой пример:

«`python
import requests
from lxml import html
url = «https://example.com/products»
response = requests.get(url)
tree = html.fromstring(response.content)
# Извлечение всех цен
prices = tree.xpath(‘//span[@class=»price»]/text()’)
# Очистка от пробелов и символов
clean_prices = [p.strip().replace(‘₽’, »).replace(‘ ‘, ») for p in prices]
print(clean_prices)
«`

Этот скрипт:

Загружает страницу.
Преобразует HTML в дерево DOM.
Использует XPath для извлечения всех цен.
Очищает их от мусора и выводит список.

Такой подход позволяет парсить десятки тысяч страниц за час. Его можно расширить: добавить обработку пагинации, сохранение в Excel, отправку уведомлений при изменении цен. Ключевое преимущество — полнота контроля. Вы не ограничены возможностями браузера — вы пишете логику сами.

Для более сложных задач — где контент загружается через JavaScript — используют библиотеку Selenium. Она запускает реальный браузер, дожидается загрузки контента и затем передаёт HTML в lxml для парсинга по XPath. Это медленнее, но надёжнее.

Частые ошибки при парсинге и как их избежать

Даже опытные пользователи допускают ошибки, которые приводят к неполным или некорректным данным. Вот основные из них:

Ошибка 1: Использование абсолютных путей

Проблема: /html/body/div[1]/div[2]/span — работает сегодня, но сломается завтра.

Решение: Используйте относительные пути с атрибутами: //span[@class="price"].

Ошибка 2: Игнорирование динамического контента

Проблема: Контент загружается через JavaScript. XPath возвращает пустой результат.

Решение: Используйте Selenium или Puppeteer. Проверяйте, загружается ли контент в DevTools вкладке Network — если он появляется после запросов к API, парсинг через HTML не сработает.

Ошибка 3: Неочищенные данные

Проблема: Извлечённая цена: « 1 290 ₽ ». При попытке превратить её в число — ошибка.

Решение: Всегда применяйте очистку: удаление пробелов, замена символов, приведение к числу.

Ошибка 4: Пропуск редиректов и кодов ответа

Проблема: Страница вернула 404 или перенаправила на другую. XPath работает, но данные — не те.

Решение: Проверяйте HTTP-статус перед парсингом. Не обрабатывайте страницы с кодами 4xx и 5xx.

Ошибка 5: Нарушение ограничений сайта

Проблема: Быстро отправляете запросы — сайт блокирует IP.

Решение: Добавляйте паузы (time.sleep(2) в Python). Используйте rotate-прокси, если нужно парсить много страниц.

Заключение: почему XPath остаётся незаменимым

XPath — это не устаревший инструмент, а фундаментальная технология для работы с веб-данными. Он прост, точен и универсален. Независимо от того, занимаетесь ли вы SEO, маркетингом или разработкой — умение извлекать структурированные данные с сайтов становится не просто полезным навыком, а обязательной компетенцией.

Способность находить нужную информацию среди тысяч строк кода — это сила. XPath даёт эту силу без необходимости писать сложные программы. Он позволяет превратить хаос в структуру, данные — в инсайты. Но с этой силой приходит ответственность: соблюдайте этику, законы и принципы уважения к владельцам сайтов.

Начните с одного запроса. Попробуйте извлечь заголовок страницы. Затем — цену товара. Потом — список контактов. Каждый шаг будет расширять ваши возможности. И вскоре вы увидите, как мир веба перестанет быть «сайтами» — и станет источником точных, актуальных и структурированных данных. И это — только начало.

Содержание

Что такое парсинг и зачем он нужен
Основы XPath: как работает язык запросов
Инструменты для создания и тестирования XPath-запросов
Продвинутый синтаксис XPath: оси, предикаты и функции
Практическое применение XPath: парсинг реальных данных
Этические и правовые аспекты парсинга
Автоматизация парсинга: Python и XPath
Частые ошибки при парсинге и как их избежать
Рекомендации по эффективному использованию XPath
Заключение: почему XPath остаётся незаменимым