Парсинг 2Gis (Дубль Гис)

Опубликовано Павел Путков 12.07.2018 0 Комментарии

В этой статье разберем пример, как собрать почтовые адреса(емайл) фирм с сайта 2Gis (Дубль Гис), с помощью Парсинг сайтов - мониторинг цен конкурентов

Для этого будем использовать стартегию 3 проходов. Допустим мы решили собрать адреса интернет магазинов города Челябинска.  

 

Нам предоставлен список магазинов со ссылками на карточку магазина, и где уже в самой карточке есть ссылка на сайт магазина.

Наша последовательность действий

-проходим списки магазинов- собираем все ссылки на карточки магазинов

-заходим в каждую карточку магазина - собираем уже конкретные ссылки на интернет магазины

-заходим в каждый интернет магазин по собранным ссылками пытаемся там найти электронную почту

Теперь посмотрим настройки, которые необходимо сделать

Настройки обхода списков:

 Настройки собственно стратегии парсинга:

 Ниже скриншит разбора уже собственно сайтов интернет магазинов и поиск емейл адресов

Помимо пути Xpath, котрый ищет "mailto" и "@" указано правило  Regex - (([a-z0-9_\.\-])+\@(([a-z0-9\-])+\.)+([a-z0-9]{2,4})+) для проверки найденных значений на емейл адреса

Вот собственно и всё, после трех проходов будет создан список найденных емей адресов 

Парсинг сайтов - мониторинг цен конкурентов