-
Ваша корзина пуста!
В этой статье разберем пример, как собрать почтовые адреса(емайл) фирм с сайта 2Gis (Дубль Гис), с помощью Парсинг сайтов - мониторинг цен конкурентов
Для этого будем использовать стартегию 3 проходов. Допустим мы решили собрать адреса интернет магазинов города Челябинска.
Нам предоставлен список магазинов со ссылками на карточку магазина, и где уже в самой карточке есть ссылка на сайт магазина.
Наша последовательность действий
-проходим списки магазинов- собираем все ссылки на карточки магазинов
-заходим в каждую карточку магазина - собираем уже конкретные ссылки на интернет магазины
-заходим в каждый интернет магазин по собранным ссылками пытаемся там найти электронную почту
Теперь посмотрим настройки, которые необходимо сделать
Настройки обхода списков:
Настройки собственно стратегии парсинга:
Ниже скриншит разбора уже собственно сайтов интернет магазинов и поиск емейл адресов
Помимо пути Xpath, котрый ищет "mailto" и "@" указано правило Regex - (([a-z0-9_\.\-])+\@(([a-z0-9\-])+\.)+([a-z0-9]{2,4})+) для проверки найденных значений на емейл адреса
Вот собственно и всё, после трех проходов будет создан список найденных емей адресов