5. Extraer Datos

SEGMENTACIÓN

Para poder sacar provecho máximo del paralelismo es importante que repartamos la carga de trabajo entre varios “trabajadores”, sean estos instancias del programa en la misma computadora o programas corriendo en varias computadoras. Para esto podemos aplicar estrategias conocidas como la segmentación por rango y la segmentación por fórmulas.

 

DESCARGAR UN SITIO ENTERO

Una herramienta útil y fácil de utilizar es HTTrack, el cual se define como un copiador de sitios web, también sirve para este propósito el comando wget de UNIX/Linux. Está disponible en varios sistemas operativos y acompañado de algunas opciones y parámetros nos permite descargar todos los elementos estáticos del sitio y los modifica para que funcione localmente. Es importante aclarar que no trae aquellos objetos dinámicos del sitio a menos que sean accesibles desde links dentro del mismo sitio.

Este es un ejemplo usando HTTrack con la página de adquisiciones de la Asamblea Legislativa del Distrito Federal (México). Podemos descargar todas las páginas y documentos de ese sitio.

Crear un proyecto y definir la carpeta donde se va a descargar todo:


Definir las direcciones web para descargar



Si hacemos clic en el botón de opciones se nos abrirá una pantalla donde podemos configurar nuestra descarga, por ejemplo definir los tipos de archivos que queremos incluir o excluir, de esta manera si sólo estamos interesados en descargar los documentos PDF de un sitio, podemos agregar una regla de la forma +*.pdf



Por ejemplo yo he agregado para este ejemplo que descargue los archivos de Excel también +*.xls + *.xlsx

La aplicación “navegará” por todas las páginas del sitio y se meterá en todos los links de cada página de manera recursiva, y mantendrá una lista de links descargándose, el tamaño por defecto de esa lista es de 4 conexiones, pero si cuenta con buen ancho de banda y capacidad de procesamiento puede aumentar ese valor en la pestaña de “Control de Flujo en la opción: Número de conexiones”.

Si desea entender cada una de las opciones puede dirigirse al manual del sitio, el cual cuenta con un paso a paso muy útil.

Habiendo configurado todo podemos dar clic a finalizar e inmediatamente veremos la aplicación descargar las páginas y archivos web.

 

Cuando todo este proceso haya finalizado tendrás una copia del momento del sitio web funcional corriendo desde tu computadora.