Técnicas de scrapping de datos
Site: | Universidad de la República |
Course: | Datos Abiertos como Recursos Educativos Abiertos - 2021 |
Book: | Técnicas de scrapping de datos |
Printed by: | Guest user |
Date: | Wednesday, 4 December 2024, 12:29 PM |
Description
1. Usando Google Spreadsheets
Autor: Escuela de Datos - Materiales del curso Introducción a la extracción de datos de sitios web
Scraping es un término que, traducido al español, literalmente quiere decir “rascado”. Sin embargo, en este contexto, se refiere a la limpieza y filtro de los datos.
Conocer la estructura de una página web es el primer paso para extraer y usar los datos. Pasa tus datos a una hoja de cálculo para que los uses después. Una manera muy fácil de hacer esto es con una fórmula en Google Spreadsheets.
Ahorra miles de horas copiando y pegando con el comando ImportHTML en Google Spreadsheets. ¡Es maravilloso!
Para que puedas completar la próxima tarea, entra a las siguientes direcciones:
- Extracting data from HTML tables (en inglés)
- Scraping usando la Scraper Extension for Chrome.
Los dos métodos sirven para:
-
Extraer listas o tablas de una sola página web.
-
El segundo link te puede traer más problemas, ya que debes usar información cruzada. Revisa los tips para que te dés una mejor idea.
2. Más herramientas de Web Scraping
Materiales de Codeando México
Herramientas para web scraping
- Scrapy, scraping and web crawling framework para Python: https://github.com/scrapy/scrapy/
- Scraper wiki, es un servicio de workers automáticos que se quedan “scrapeando”: https://scraperwiki.com/
Código del demo en:
https://github.com/CodeandoMexico/web-scraping
Guardar información en un archivo json:
$ scrapy crawl dof -o notes.json -t json
3. Extrayendo Datos desde PDFs: Tábula
Tábula es una herramienta que permite extraer datos desde PDFs, lo que es muy útil para sacar tablas desde papers científicos y documentación oficial de los Gobiernos. La URL para descargarlo e instalarlo es http://tabula.technology/