Автоматизированный парсинг сайтов при помощи Google Таблиц и Netpeak Spider

Каждый сталкивается с необходимостью сбора и систематизации пугающего объема информации. Такая проблема решаема, ведь для любых задач всегда есть готовое решение в виде специальных сервисов с конкретным функционалом под цели. Автоматизируйте рутинные процессы через парсинг и получайте результаты в два раза быстрее. Рассмотрим, как и при помощи каких инструментов это работает.

Парсинг сайтов: суть и практическое применение

Парсинг – сбор данных из сети и их структурирование. Инструменты парсинга позволяют быстро выбирать и импортировать данные без изменения их структуры, что значительно экономит время и предотвращает возможность ошибок при ручном копировании. В отношении сайтов парсинг не требует повторного ввода или копипастинга, что значительно облегчает работу.

Например, через парсинг собирают информацию о продуктах и их стоимости. Наиболее распространенные сценарии использования инструментов парсинга:

  1. Сбор контактной информации

Сервисы извлечения данных позволяет собирать данные, составлять списки контактов и объединять всю связанную с ними информацию: данные о Клиентах, поставщиках или производителях.

  1. Поиск работы или сотрудников

Для работодателя в активном поиске кандидатов или соискателя определенной должности инструменты позволят настроить фильтрацию данных по выбранным параметрам и оперативно получать информацию без ручного поиска.

  1. Наполнение карточек интернет-магазина.
  2. Мониторинг цен и ассортимента конкурентов.

Парсеры для социальных сетей: 

Парсеры для сайтов:

Для эффективного использования инструментов парсинга сайтов, как правило, требуются базовые знания  XPath и JavaScript. Забавно, что наш сайт по курсам постоянно парсят. Например, через 12 часов после того как мы «выкатили» обучение по таргетированной рекламе в инсте, страница стала иметь всего 30% уникальности.

Используем формулы импорта в таблицах Google

  1. Функция importhtml при парсинге

Данная функция импортирует массив данных для дальнейшей работы в таблицах при помощи формул. Для использования importhtml достаточно указать URL, вид и номер элемента:

Параметры “table” и “list” используются в поле запроса для получения данных из таблицы или списка.

Внедряем формулу в таблицу и получаем результат:

  1. Функция importxml 

Применяется для импорта страниц и документов любого из форматов: XML, HTML, CSV, TSV, RSS.

Для работы используется язык запросов XPath.
Вместо ссылки можно указывать названия ячеек, содержащие необходимые данные.
Например, чтобы получить заголовок, прописываем title в формуле следующим образом:

Для указания description необходимо прописать следующий XPath:

meta[@name=’description’]/@content

При работе с другими данными достаточно скопировать XPath из кода страницы и вставить его в функцию =importxml.

Возможность использования формул зависит от верстки страницы. В случае отказа importhtml, переходим на xml. Если попытка оказывается неудачной, обращаемся за помощью к специальным сервисам. 

Парсинг данных через скреперы

Скреперы – программы, скрипты, плагины, осуществляющие парсинг.

  1. Работа с расширением Scraper Chrome 

Выделяем данные для сбора на странице, щелкаем правой кнопкой мыши и выбираем параметр  «Scrape similar». Для дальнейшей работы результаты операции откроются в новом окне, где извлеченная информация представлена в таблице. Настройте столбцы и укажите их имена, нажмите «Scrape», чтобы обновить результаты. Для выбора извлекаемых элементов перейдите в раздел «Selector». Запрос указывается как селектор jQuery или в XPath. Экспорт таблицы доступен через «Export to Google Docs». 

  1. Парсинг при помощи Netpeak Spider 

Рассмотрим решение задачи по извлечению цен с сайта:

  1. Открываем нужную страницу и выделяем данные для сбора.
  2. Копируем  XPath или CSS-селектор элемента в окне просмотра кода.
  3. В программе в настройках ставим галочку на «Парсинг».
  4. Выбираем режим поиска и область «Внутренний текст».
  5. Вставляем ранее скопированный XPath или селектор.

  1. Сохраняем изменения в настройках.
  2. В адресной строке указываем домен или загружаем список страниц через «Список URL»или сочетание Ctrl+V, предварительно сохранив данные в буфере обмена. Нажимаем «Старт».
  3. Для ознакомления с результатами на боковой панели через вкладку «Отчёты» открываем «Парсинг». 
  4. При необходимости экспортируем данные в формате Excel или CSV.

Павел Буевич, Head of SEO GUSAROV:

Парсинг — очень крутая фишка, особенно для маркетологов. Не нужно постоянно собирать информацию с сайтов, если вы это делаете, достаточно прописать один раз шаблон и всё. Например, можно собрать список конкурентов, их услуг/товаров и сделать шаблон выгрузки цен, который будет постоянно обновляться. Но для разовых задач лучше использовать парсинг в Netpeak Spider:

Можно выгружать очень много данных, быстро спарсить содержимое страниц уже по готовому шаблону, не нужно тратить время на написание и проверку парсинга, ведь Netpeak Spider очень быстрый, и также сократит издержки во времени.

Поделится: