Web-студия WRP предоставляет услуги парсинга сайтов на Битрикс. Мы используем готовые модули и разрабатываем индивидуальные скрипты для сбора информации со сторонних ресурсов. Автоматизированный сбор данных и экономит время за счет минимизации ручного труда.
Для чего нужен парсинг
Информация со сторонних сайтов необходима пользователю для анализа ассортимента товаров конкурента, изучения и сравнения цен, сбора технических характеристик и описаний продукции из каталогов.
Ручной сбор информации — рутинная операция, которая занимает много времени. Если этим занимается специально выделенный сотрудник, необходимы постоянные затраты на оплату его труда. Работу контент-менеджера необходимо проверять для выявления и правки ошибок в данных.
Парсинг дает возможность автоматизировать этот процесс. Скрипт сканирует сайты и собирает любые данные, которые находятся в открытом доступе и не защищены законодательством об авторском праве и коммерческой тайне.
Как работает парсер
Программа для сканирования сторонних ресурсов и публикации собранной информации на сайте под управлением Битрикс представлена в виде плагина, который можно загрузить во внутреннем маркетплейсе. Для некоторых случаев необходима индивидуальная разработка.
Парсер в виде модуля состоит из серверной и клиентской части. При запуске он имитирует действия пользователя и сохраняет информацию, которую отображает сайт-донор на странице. При необходимости, программа сама обходит защиту от ботов и DDoS-атак.
Алгоритм работы следующий:
- Настройка модуля.
Пользователь должен указать сайт-источник и описать структуру HTML-страницы.
- Сканирование главной страницы.
На ней программа сканирует каталог, ссылки на товары или объявления, другие материалы.
- Сканирование других страниц.
Парсер «обходит» все страницы сайта, собирает и сохраняет в структурированном виде необходимую информацию.
Собранная информация сохраняется в базу данных Битрикс в модуль iBlock.
Парсер может сканировать данные с сайтов, работающих на популярных CMS, в том числе Битрикс, WordPress. Также он работает с сайтами, функционирующими на самописных платформах.
Сколько стоит парсинг сайта
Цена на услугу в нашей компании варьируется в зависимости от сложности задачи и объема работы.
При расчете сметы учитываются такие параметры:
- Типы данных, которые нужно спарсить и структурировать;
- Способы использования данных (формирование таблицы или импорт на сайт под управлением Битрикс);
- Наличие защиты от автоматического сканирования на сайтах-донорах;
- Способ, с помощью которого решается поставленная задача;
- Других факторов, которые определяются во время изучения задачи.
Примеры парсинга
В зависимости от того, какая информация нужна клиенту, программисты нашей компании могут спарсить такие данные и решить сложные задачи:
- Поиск страниц, на которых присутствует или отсутствует нужный элемент в коде.
Таким способом можно найти и сохранить информацию с тех страниц, где имеется столбец с ценой товара.
- Парсинг содержимого определенного элемента на странице.
Можно собрать информацию с сайта о названии гостиниц или наименовании товаров, оставив другие характеристики «за скобками».
- Извлечение значений определенных полей в HTML-коде страницы.
С помощью этого метода можно получить информацию об URL-страницы, title, H1, Description и другую. Далее скрипт формирует таблицу, которую можно затем использовать для заполнения своих страниц.