Автоматизированный парсинг сайтов при помощи Google Таблиц и Netpeak Spider
Содержание
Каждый сталкивается с необходимостью сбора и систематизации пугающего объема информации. Такая проблема решаема, ведь для любых задач всегда есть готовое решение в виде специальных сервисов с конкретным функционалом под цели. Автоматизируйте рутинные процессы через парсинг и получайте результаты в два раза быстрее. Рассмотрим, как и при помощи каких инструментов это работает.
Парсинг сайтов: суть и практическое применение
Парсинг – сбор данных из сети и их структурирование. Инструменты парсинга позволяют быстро выбирать и импортировать данные без изменения их структуры, что значительно экономит время и предотвращает возможность ошибок при ручном копировании. В отношении сайтов парсинг не требует повторного ввода или копипастинга, что значительно облегчает работу.
Например, через парсинг собирают информацию о продуктах и их стоимости. Наиболее распространенные сценарии использования инструментов парсинга:
- Сбор контактной информации
Сервисы извлечения данных позволяет собирать данные, составлять списки контактов и объединять всю связанную с ними информацию: данные о Клиентах, поставщиках или производителях.
- Поиск работы или сотрудников
Для работодателя в активном поиске кандидатов или соискателя определенной должности инструменты позволят настроить фильтрацию данных по выбранным параметрам и оперативно получать информацию без ручного поиска.
- Наполнение карточек интернет-магазина.
- Мониторинг цен и ассортимента конкурентов.
Парсеры для социальных сетей:
- Церебро Таргет (VK);
- Segmento Target (VK, Instagram);
- Pepper.Ninja (Facebook).
Парсеры для сайтов:
- Import.io;
- Scrapinghub.
Для эффективного использования инструментов парсинга сайтов, как правило, требуются базовые знания XPath и JavaScript. Забавно, что наш сайт по курсам постоянно парсят. Например, через 12 часов после того как мы «выкатили» обучение по таргетированной рекламе в инсте, страница стала иметь всего 30% уникальности.
Используем формулы импорта в таблицах Google
- Функция importhtml при парсинге
Данная функция импортирует массив данных для дальнейшей работы в таблицах при помощи формул. Для использования importhtml достаточно указать URL, вид и номер элемента:
Параметры “table” и “list” используются в поле запроса для получения данных из таблицы или списка.
Внедряем формулу в таблицу и получаем результат:
- Функция importxml
Применяется для импорта страниц и документов любого из форматов: XML, HTML, CSV, TSV, RSS.
Для работы используется язык запросов XPath.
Вместо ссылки можно указывать названия ячеек, содержащие необходимые данные.
Например, чтобы получить заголовок, прописываем title в формуле следующим образом:
Для указания description необходимо прописать следующий XPath:
meta[@name=’description’]/@content
При работе с другими данными достаточно скопировать XPath из кода страницы и вставить его в функцию =importxml.
Возможность использования формул зависит от верстки страницы. В случае отказа importhtml, переходим на xml. Если попытка оказывается неудачной, обращаемся за помощью к специальным сервисам.
Парсинг данных через скреперы
Скреперы – программы, скрипты, плагины, осуществляющие парсинг.
- Работа с расширением Scraper Chrome
Выделяем данные для сбора на странице, щелкаем правой кнопкой мыши и выбираем параметр «Scrape similar». Для дальнейшей работы результаты операции откроются в новом окне, где извлеченная информация представлена в таблице. Настройте столбцы и укажите их имена, нажмите «Scrape», чтобы обновить результаты. Для выбора извлекаемых элементов перейдите в раздел «Selector». Запрос указывается как селектор jQuery или в XPath. Экспорт таблицы доступен через «Export to Google Docs».
- Парсинг при помощи Netpeak Spider
Рассмотрим решение задачи по извлечению цен с сайта:
- Открываем нужную страницу и выделяем данные для сбора.
- Копируем XPath или CSS-селектор элемента в окне просмотра кода.
- В программе в настройках ставим галочку на «Парсинг».
- Выбираем режим поиска и область «Внутренний текст».
- Вставляем ранее скопированный XPath или селектор.
- Сохраняем изменения в настройках.
- В адресной строке указываем домен или загружаем список страниц через «Список URL»или сочетание Ctrl+V, предварительно сохранив данные в буфере обмена. Нажимаем «Старт».
- Для ознакомления с результатами на боковой панели через вкладку «Отчёты» открываем «Парсинг».
- При необходимости экспортируем данные в формате Excel или CSV.
Павел Буевич, Head of SEO GUSAROV:
Парсинг — очень крутая фишка, особенно для маркетологов. Не нужно постоянно собирать информацию с сайтов, если вы это делаете, достаточно прописать один раз шаблон и всё. Например, можно собрать список конкурентов, их услуг/товаров и сделать шаблон выгрузки цен, который будет постоянно обновляться. Но для разовых задач лучше использовать парсинг в Netpeak Spider:
Можно выгружать очень много данных, быстро спарсить содержимое страниц уже по готовому шаблону, не нужно тратить время на написание и проверку парсинга, ведь Netpeak Spider очень быстрый, и также сократит издержки во времени.