Técnicas de scrapping de datos
1. Usando Google Spreadsheets
Autor: Escuela de Datos - Materiales del curso Introducción a la extracción de datos de sitios web
Scraping es un término que, traducido al español, literalmente quiere decir “rascado”. Sin embargo, en este contexto, se refiere a la limpieza y filtro de los datos.
Conocer la estructura de una página web es el primer paso para extraer y usar los datos. Pasa tus datos a una hoja de cálculo para que los uses después. Una manera muy fácil de hacer esto es con una fórmula en Google Spreadsheets.
Ahorra miles de horas copiando y pegando con el comando ImportHTML en Google Spreadsheets. ¡Es maravilloso!
Para que puedas completar la próxima tarea, entra a las siguientes direcciones:
- Extracting data from HTML tables (en inglés)
- Scraping usando la Scraper Extension for Chrome.
Los dos métodos sirven para:
-
Extraer listas o tablas de una sola página web.
-
El segundo link te puede traer más problemas, ya que debes usar información cruzada. Revisa los tips para que te dés una mejor idea.