Introducción a la limpieza de datos

1. Explorar los datos

Autora: Camila Salazar para Escuela de Datos

La limpieza de los datos comienza por conocer con qué datos estamos trabajando y qué características tienen los mismos. Para ellos revisamos la metadata que describe las variables de la base de datos.

En este paso es importante identificar:

      Qué formato debería tener cada variable. Por ejemplo, una variable de 
salario debería ser numérica y una de nombre debería estar guardada 
como texto. 


      Cuáles son las categorías de cada variable. 


      Identificar las unidades de medida. Por ejemplo identificar si una 
variable salarial está medida en colones o dólares. 


      Tener claro características de variables específicas. Por ejemplo, si 
estamos trabajando con una base de datos de Costa Rica y hay una variable de cédula de identidad deberíamos saber que el número de cédula de personas nacidas en Costa Rica tiene 9 dígitos, por lo que si alguna observación tiene más o menos números hay que revisarla. 


Una vez que tenemos claro cómo deberían estar construidas las variables, comenzamos a explorar la base de datos para identificar posibles errores. 


Si estamos utilizando hojas de cálculo, los filtros y la función buscar y reemplazar son herramientas que permiten limpiar los datos. 


Para los ejemplos siguientes se utilizará una base de datos de salarios de la Universidad de Costa Rica (a menos que se indique lo contrario) que pueden descargar de este link: http://bit.ly/1J6B6kY