Técnicas de scrapping de datos

Site: Universidad de la República
Course: Datos Abiertos como Recursos Educativos Abiertos - 2021
Book: Técnicas de scrapping de datos
Printed by: Guest user
Date: Wednesday, 4 December 2024, 12:29 PM

Description



1. Usando Google Spreadsheets

Autor: Escuela de Datos - Materiales del curso Introducción a la extracción de datos de sitios web

Scraping es un término que, traducido al español, literalmente quiere decir “rascado”. Sin embargo, en este contexto, se refiere a la limpieza y filtro de los datos.

Conocer la estructura de una página web es el primer paso para extraer y usar los datos. Pasa tus datos a una hoja de cálculo para que los uses después. Una manera muy fácil de hacer esto es con una fórmula en Google Spreadsheets.

Ahorra miles de horas copiando y pegando con el comando ImportHTML en Google Spreadsheets. ¡Es maravilloso!

Para que puedas completar la próxima tarea, entra a las siguientes direcciones:

  1. Extracting data from HTML tables (en inglés)
  2. Scraping usando la Scraper Extension for Chrome.


Los dos métodos sirven para:

  • Extraer listas o tablas de una sola página web.

  • El segundo link te puede traer más problemas, ya que debes usar información cruzada. Revisa los tips para que te dés una mejor idea.

2. Más herramientas de Web Scraping

Materiales de Codeando México 

Herramientas para web scraping

    Código del demo en:

    https://github.com/CodeandoMexico/web-scraping

    Guardar información en un archivo json:

    $ scrapy crawl dof -o notes.json -t json

     

    3. Extrayendo Datos desde PDFs: Tábula

    Tábula es una herramienta que permite extraer datos desde PDFs, lo que es muy útil para sacar tablas desde papers científicos y documentación oficial de los Gobiernos. La URL para descargarlo e instalarlo es http://tabula.technology/