Introducción al análisis de datos con hojas de cálculo

Site: Universidad de la República
Course: Datos Abiertos como Recursos Educativos Abiertos - 2021
Book: Introducción al análisis de datos con hojas de cálculo
Printed by: Guest user
Date: Saturday, 14 December 2024, 7:02 AM

1. Cómo importar un archivo .csv a Excel

Autora: Camila Salazar para Escuela de Datos

Para este tutorial se utilizará la base de datos: “rendimientoacademico_chile.csv”, que contiene datos de alumnos aprobados, reprobados y retirados de centros educativos en todo Chile para el año 2012. El archivo se puede descargar de http://tinyurl.com/pxlqdm6 .

Para el ejemplo se utilizaron solamente los datos de aquellos centros educativos que tuvieran a más de 200 alumnos por nivel y de tres regiones del país, para simplificar los cálculos. La base original se puede descargar de: http://datos.gob.cl/datasets/ver/990  

1. Abra su Excel y busque en la parte superior la pestaña de dice “Data” o “Datos”, seleccione la opción que dice “External Data Sources” y de clic en en “Text” o “Texto”.

2. Seleccione el archivo .csv que desee importar. 


3. Seleccione la opción “Delimited” o “Delimitado”, dado que los archivos .csv se caracterizan por estar delimitados por algún signo de puntuación como comas, espacios, guiones, entre otros. 


4. Seleccione la opción del delimitador de sus datos. Por ejemplo, en el caso del archivo “rendimiento_academico.csv” se trata de una coma, mientras que en otros archivos puede ser un “|”, “;” u otro signo. De click en siguiente, dos veces. 



5. El archivo queda listo para comenzar a trabajar. 


2. Algunas fórmulas básicas

Una vez que hemos importado la base de datos a la hoja de cálculo, explorado el tipo de variables que contiene y planteado las preguntas que queremos responder, podemos comenzar el análisis.

Uno de los primeros pasos es explorar el tipo de datos que tenemos y empezar a realizar cálculos generales que nos permitan entender mejor la información. Para ello podemos utilizar fórmulas básicas.

Para insertar una fórmula en Excel se digita = en la celda seguido de la fórmula que se quiera utilizar: =NOMBREDELAFUNCION(Argumento). A continuación hay una lista de algunas de las funciones comunes o de uso frecuente cuando se trabaja con datos.


3. Cómo filtrar datos y ordenar variables

Otra forma de explorar la información es utilizando filtros y ordenando variables.

Los filtros permiten establecer criterios específicos sobre la información de interés que estamos buscando, por ejemplo ordenar los datos de mayor a menor o seleccionar solamente unas variables.

Para aplicar un filtro, posiciónese sobre la primera fila en el encabezado de la variable que desee filtrar, y en la parte superior seleccione la figura que parece un embudo. Luego de clic en el triángulo negro que aparece debajo de la celda.

En este ejemplo, supongamos que queremos ver cuál es el centro educativo con mayor cantidad de alumnos. Seleccionamos el triángulo que aparece en la celda de total_alumnos. Al dar clic, nos aparece un recuadro y seleccionamos la opción “Descending” (Descendente) para ordenar los datos de mayor a menor.


También podríamos seleccionar solo aquellos centros educativos de enseñanza media. Para ello, aplicamos el filtro en la columna de “nivel_ensenanza_agregado” y en el cuadro, seleccione la opción de select all (para deseleccionar las opciones) y luego de clic en enseñanza media (que es la opción que queremos). 

Si quisiéramos seleccionar nuevamente todas las opciones, damos clic a la casilla “Select All” (Seleccionar todos).

Otra forma de ordenar los datos:

1. Posiciónese sobre una celda en la columna que quiere ordenar. 


2. En la parte superior de la hoja de cálculo busque este símbolo (o uno 
similar) . 



En el caso de “Google Sheets” busque en la parte superior donde dice “Data” y seleccione “Short sheet by column” . 



3. Seleccione ordenar de la A –Z (de menor a mayor) o Z-A (de mayor a menor). 


4. Una vez que ordenó verifique la información y asegúrese de que se haya ordenado correctamente. Algo importante a tener en cuenta es que cuando se ordena una columna las demás deben moverse también de forma que las observaciones sean las correctas para cada variable. Por ejemplo: 


En la tabla se observa que la persona 1 dedica 38 horas a labores domésticas y 1 al mercado laboral. Al ordenar la columna “promedio de horas semanales que dedican al mercado laboral” de menor a mayor, vemos 
que las tres columnas cambian de orden de forma que las observaciones sigan siendo la mismas para la persona 1.

4. Tablas dinámicas (pivot) para el análisis

Las tablas dinámicas o pivot son una herramienta útil y fácil de usar para analizar datos, ya que permiten cruzar variables y realizar cálculos con ellas. 

¿Cómo crear una tabla pivot?

1. Lo primero es seleccionar todo el rango de datos con el que queremos trabajar. Para el ejemplo vamos a trabajar con el archivo rendimientoacademico_chile.csv. Para seleccionar podemos usar Ctrl+Shift y las flechas del teclado para seleccionar de forma rápida. 
 

2. Buscar donde dice Data y dar clic en el ícono que diga Pivot Table. Dependiendo del Excel con el que se esté trabajando la ubicación puede variar, por ejemplo en algunas versiones hay que buscar Insertar y luego dar clic en Tabla dinámica. 


3. Una vez que dimos clic a tabla Pivot se nos abre una nueva hoja de trabajo con el organizador de tabla dinámica que se ve así:


Independientemente del Excel que estemos utilizando las tablas pivot tienen en común que se componen de cuatro elementos:

  • Filas: en las filas se introducen las variables con las que queremos realizar cálculos. 

  • Columnas: al igual que con las filas, en las columnas se introducen las variables con las que queremos realizar cálculos. 

  • Valores: asigna valores y funciones a las filas y columnas. 

  • Filtros: permite desplegar solamente valores o categorías específicas de la variable que queramos, para realizar un análisis 
más detallado. 


5. Cómo funciona la tabla

4. Para ver cómo funciona la tabla lo ideal es plantearse las preguntas que queremos responder. Por ejemplo:

¿Cuántos centros de enseñanza hay en cada provincia?
 Esta es una pregunta de primer nivel. Para responder a la pregunta arrastramos desde la parte superior del editor de tabla dinámica la variable “nombre_provincia” hasta el campo de filas. Luego tomamos la variable “nombre_establecimiento” y la arrastramos al campo de valores. En el campo de valores debería decir “Count” (Cuenta). 

Al hacer esto observamos que la tabla nos permite responder a la pregunta planteada. Si ahora quisiéramos ordenar los resultados de mayor a menor para saber con mayor claridad cual es la región con más centros educativos, nos posicionamos en la primera fila y luego en la parte superior seleccionamos el símbolo para ordenar los datos.


 

También en el campo de valores podemos realizar otros cálculos como mostrar el porcentaje por filas o columnas, el mínimo, el máximo, promedio, entre otros. 

Por ejemplo si quisiéramos ver la proporción respecto al total, arrastramos la variable a la que queremos calcular el nuevo valor al campo de valores y damos clic en la esquina derecha de la variable ubicada en el campo de valor. En la ventana que se despliega seleccionamos “opciones” y luego escogemos el cálculo que queremos realizar, por ejemplo calcular el porcentaje con respecto al total. 



6. Tipos de dependencias

Si tuviéramos una pregunta como: 

¿Qué tipo de dependencias hay en cada región? 

Esta sería una pregunta en la que se combinan dos variables, por lo que necesitamos construir una tabla cruzada en la que se coloca una variable en las filas y otra en las columnas.

Como ya habíamos colocado la variable de nombre de región en las filas, lo que tenemos que hacer es colocar la variable “dependencia” en el campo de columnas. 


Si quisiéramos agregar una nueva variable, por ejemplo saber cuántos centros están en zona rural y cuáles en urbana, según el tipo de dependencia y la región, podemos agregar la variable “área_geografica” al campo de filas con lo que obtendríamos una tabla así: 



7. Clasificación según tipo de dependencias

Podemos observar que según cada región se despliegan aquellos centros en zona urbana y rural y los clasifica según el tipo de dependencia.

Otra forma de responder a la pregunta es agregando la variable “área_geografica” al campo de filtros. Los filtros funcionan para desplegar en la tabla las categorías de la variable que queramos. La variable filtro aparece en la parte superior de la tabla de resultados y para poder filtrar seleccionamos el triángulo que se ubica en la parte superior derecha.


Al hacer esto se despliega un recuadro donde aparecen las diferentes categorías de la variable, por lo que podemos seleccionar todas o solo algunas. Por ejemplo si seleccionamos los centros en zona rural, solamente los hay en tres regiones, mientras que 12 regiones tienen centros educativos en áreas urbanas.


Así dependiendo de la pregunta que nos formulemos podemos utilizar las diferentes opciones de las tablas dinámicas. Aquí algunos consejos para tomar en cuenta:

1. Identifique cuántas variables tiene su pregunta, de esta manera podrá ver cuáles coloca en filas o columnas. 


2. Piense qué tipo de cálculos puede realizar con la variable que está ubicada en el campo de valores. Recuerde verificar qué tipo de variables son (numéricas, cualitativas). Por ejemplo se puede calcular una frecuencia del tipo de centro educativo pero no un promedio, mientras que para a variable de total de alumnos se podría calcular la diferencia entre los centros con menos y más alumnos por región. 

3. Una vez que tenga su tabla lista, es recomendable pegarla en una hoja nueva. 


**

Otros tips


Para seleccionar muchos datos a la vez de forma fácil, posiciónese

sobre la primera celda y use Ctrl+Shift y las flechas del teclado para seleccionar de forma rápida.