3. Procesos de Scrapping

DIVISIÓN DE TRABAJO Y PROCESAMIENTO EN PARALELO

Seguramente conocerás la frase “Divide y vencerás”, pues esta es una de las frases más aplicadas en la programación, así mismo al scraping. Si ya hemos experimentado con esto sabemos que scrapear un sitio puede tomar bastante tiempo de ejecución, la clave para mejorar esos tiempos está en dividir etapas del trabajo en diferentes programas y que trabajen de manera paralela, entendiéndose esto como varias instancias de los mismos programas ejecutándose al mismo tiempo en una o varias computadoras.

La manera más sencilla de scrapear es repitiendo la secuencia:

  • Consulto el registro X
  • Extraigo los datos
  • Los guardo en un archivo.

Esto funciona, pero no tanto cuando lo que queremos es scrapear más de 20.000 registros, a menos que estemos dispuestos a esperar todo ese tiempo. El siguiente esquema muestra un patrón de diseño que funciona muy bien para conjuntos de datos grandes y cuando los datos lo permitan: