Análisis exploratorio de datos con R

De Gestor de Publicaciones FAUSAC

Contenido

Presentación

El análisis exploratorio incluye el cálculo de números simples de resumen, gráficos y tablas, para ayudar a comprender las relaciones entre los campos y la presencia de patrones en la distribución de los datos. Se mostrará en principio el entorno de R, y luego el de R Commander. Se empleará el archivo AulaExcel para realizar las demostraciones de análisis.

Análisis con R

En el entorno de R, es necesario leer el archivo de datos que se necesita analizar. Este ya se ha mostrado antes en el ingreso de datos en R.


Imprimir datos en pantalla.png


Enseguida se debe emplear la instrucción attach(aulaexcel.csv) para conseguir que R pueda también leer cada uno de los campos de la tabla de datos. Luego se empieza a solicitar todo tipo de medidas descriptivas. Veamos algunos ejemplos para analizar el campo "salario".


  • Resumen de los cinco números: la instrucción corresponde a fivenum(salarioa), y despliega en pantalla en su orden: mínimo, cuartil 1, mediana, cuartil 3, y máximo. Para completar este punto, se puede solicitar una caja de dispersión, precisamente formada a partir de los cinco números. Esto se logra con la instrucción boxplot(salarioa).


Resultado de los cinco números.png


Box plot de salario.png



  • Otras medidas descriptivas: entre las medidas habituales tenemos: media, mediana, varianza, desviación estándar, percentil 75, rango, recorrido intercuartílico, etc.


Medidas descriptivas iniciales.png

Análisis con R Commander

En R Commander se puede hacer uso del menú > Estadísticos > Resúmenes > Resúmenes numéricos, y luego seleccionar los cálculos deseados. En la figura siguiente se solicita cálculos para el campo "edad", y una comparación por "función".


Resultado de resúmenes numéricos.png


Gráficos

Tablas de resumen

Libro de Texto de Cómputo I/

Herramientas personales