2. Empezar a limpiar la información

Modificar el formato de los datos 

En la base de datos del ejemplo tenemos solamente 4 variables que deberían tener los siguientes formatos:

  • Puesto: texto
  • Salario: numérica
  • Jornada: numérica
  • Años de servicio: numérica.

Para verificar el formato de los datos nos posicionamos en la primera observación de cada columna y con ayuda de CTRL+SHIFT+flecha hacia abajo, seleccionamos toda la columna.

En la barra superior buscamos la opción que diga Format (Formato) y damos click en la primera opción que dice Number. Al hacer esto se despliega una lista con los diferentes posibles formatos de la variable, y seleccionamos el formato correcto para cada una de las variables.


TIP: las variables de texto se alinean a la izquierda y las numéricas a la derecha, por lo que si vemos un número alineado a la izquierda es una mala señal. Otra forma de identificar si el formato numérico está correcto es realizando una operación sencilla, por ejemplo una suma.

Si da error, posiblemente el formato no sea el adecuado. En la base de datos de salarios, si bien cambiamos el formato de la columna salario a numérico, nos damos cuenta que los números siguen alineados a la derecha. Esto se debe a que además de números tenemos caracteres de texto (que se repiten en todas las celdas), por lo que tenemos que eliminarlos.

Para hacer esto usamos la función Buscar y reemplazar. Primero seleccionamos con CTRL+C los caracteres que queremos eliminar.


Luego damos clic en Edit y buscamos la opción que diga Find and Replace. En el recuadro que se despliega pegamos los caracteres que queremos reemplazar en Find y en Replace with dejamos el recuadro en blanco, ya que queremos eliminar dichos caracteres.

 

No obstante a pesar de que quitamos los caracteres los números siguen alineados a la izquierda. Esto se debe a que dependiendo de cómo tenga configurado su Excel, el programa separa miles y decimales con comas y puntos, es decir, la cifra puede aparecer como 5,200.25 o 5.200,25. Si el Excel está en español normalmente se utiliza la coma para separar decimales y el punto para separar miles; caso contrario si el Excel está en inglés. Es decir ¡cuidado con los puntos y comas cuando trabaja con números!

Para solucionar el problema usamos nuevamente la función Find and Replace. Es muy importante usar la lógica para identificar qué es el valor que queremos sustituir primero. En este caso ponemos en Find . (un punto) y Replace lo dejamos en blanco, ya que lo que queremos eliminar son los puntos. Damos clic en Replace all. Luego hacemos lo mismo pero sustituyendo las comas por puntos. Al hacer esto solucionamos el problema y la variable queda guardada como numérica.