Скрейпинг (scraping)

scraping
Веб-Скрейпинг – это технология получения данных из веб-страниц.
К сожалению, пока что в русскоязычной Википедии нет страниц, посвященных скрейпингу. А вот в англоязычной Википедии такие статьи уже есть (Web-scraping, Data-scraping).
Краткий обзор инструментария для скрейпинга в блоге, посвященному скрейпингу: http://ift.tt/1AOFWE1

Инструментарий для веб-скрейпинга
ScraperWiki

 

Онлайн-сервис, позволяющий не только писать свой скрейперы при помощи HTML, JavaScript и Python (и не только), но и переводить документы из формата PDF в формат CSV.

logo-openrefine-40

 

Мощный инструмент по работе с “сырыми данными”, и в числе прочих функций, позволяет скрейпить данные. Под OpenRefine написано множество программных расширений.
Есть отличная книга по OpenRefine (Ruben Verborgh, Max De Wilde “Using OpenRefine”): http://ift.tt/1AOFV31

import.io

 

Быстро растущий сервис, в котором разработчики постоянно реализовывают новые функции, см. http://ift.tt/1t0Zwv6

Можно визуализировать данные через другой сервис — plot.ly (http://ift.tt/1FNoRdf)
chrome-extension-256

 

Инструкция от Филиппа Каца, Как сделать скрейпер за 15 минут: http://ift.tt/1AOFWE5

OutWit Hub

 

Расширение под Firefox, позволяющее вытягивать различные данные из веб-страниц.
Creating a Scraper for Multiple URLs, Simple Method: http://ift.tt/1FNoP58

Google Web Scraper

 

Расширение под Google Chrome.

Scrapy

 

Фреймворк для написания краулеров. Поддерживает написание программного кода на языке Python 2.7.

Список информационных источников