Мониторинг цен конкурента за 15 минут

Опубликовано Павел Путков 12.07.2018 0 Комментарии

Ниже показан пример создания настройки парсинга сайта с помощью Парсинг сайтов - мониторинг цен конкурентов 2.0

Возьмём сайт конкурент - http://sportmax66.ru/

Необходимо настроить обработку на периодический парсинг цен товаров этого сайта.

Наш парсер по умолчанию обходит все странички сайта. Наша задача чтобы парсер считывал только нужные нам странички с максимальной возможной скоростью и чтобы эти странички содержали для нас максимум информации.

Вначале проанализируем сайт.

Каталог товаров находиться по адресу http://sportmax66.ru/sportivnoe-pitanie/catalog.html

Каталог товаров сайта-конкурента

Очевидно нам надо парсить адреса, содержащие слова *sportmax66.ru/sportivnoe-pitanie/catalog.html*  на этих страничках есть вся удовлетворяющая информация (наименование, производитель, количество, картинка, цена)

Парсить странички, содержащие карточку товара нет смысла, там нет критически важной для нас информации (дополнительное описание товара, страна производитель  - этой информацией можно пожертвовать ради скорости парсинга), таким образом мы спарсим примерно 50 страничек, вместо 1000 - ощутимая выгода во времени! 

Настраиваем работу парсера:

Настройка обхода парсером сайта

Поле "Откуда начинать" - http://sportmax66.ru/sportivnoe-pitanie/catalog.html

Т.к. те же самые товары доступны по адресам , содержащее слово brands, добавим шаблон *brands*  в запрещённые адреса - нам не нужно проходиться по несколько раз по одним и тем же товарам

В результате парсет будет считывать странички вида .....http://sportmax66.ru/sportivnoe-pitanie/catalog.html?p=3, http://sportmax66.ru/sportivnoe-pitanie/catalog.html?p=4 .... , т.е. весь каталог

Теперь настроим получение информации с этих страничек. Каждому элементу парсинга пропишем Xpath пути.

Всё делаем по этой статье -  Хорошая статья на тему создания Xpath путей, это занимает примерно 10 минут

Вот что получилось

Пути X path до нужной нам информации

 

Запускаем парсинг сайта - примерно 2 минуты парсинга, получаем результат:

 Результат парсинга

 

Затем в зависимости от задачи на основании этой номенклатуры можно создать собственную, синхронизировать с уже имеющиейся собственной номенклатурой и сравнивать цены  - Парсинг сайтов - мониторинг цен конкурентов 2.0