Conceptos básicos sobre R

De Gestor de Publicaciones FAUSAC

Contenido

Presentación

Rlogo.jpg

R es un lenguaje que permite el análisis de datos. En la actualidad ha resultado ser uno de los programas más populares y robustos para procesar y analizar conjuntos de datos.


Sus orígenes se remontan a los lenguajes S y Scheme. De hecho su semántica deriva principalmente de éste último. Adicionalmente debemos mencionar que en el mundo académico, cada vez más usuarios realizan sus análisis empleando R, y esto hace que se produzcan e incorporen constantemente al lenguaje nuevas técnicas de análisis.


Otra de las razones por las que se ha incorporado al Curso de Cómputo I es porque se pueden generar gráficos específicos de alta calidad, y que pueden mejorar la presentación de resultados en los trabajos de investigación. Adicionalmente R es un software de libre distribución, con la posibilidad de consulta de numerosas librerías producidas por gran cantidad de usuarios en el mundo, sobre las más variadas necesidades de análisis de datos.


El software puede ser descargado de su sitio oficial para ser abierto en forma independiente. O bien se puede descargar una versión que se integra con Excel, denominada RExcel.

Objetos y operaciones básicas en R

En los siguientes tres vídeos se trabaja con objetos y operaciones matemáticas sencillas en la consola de R:









Fundamentos del lenguaje R

Ingreso de datos en R

Una de las tareas iniciales y de principal importancia en cualquier entorno de software es la lectura de las tablas de datos. En el caso de R se recomienda que las tablas que habitualmente se guardan en formato Excel sean trasladadas a formato CSV separadas por comas.


En el presente ejemplo se usará el archivo "AulaExcel1.csv" alojado en la ruta "C:/Users/Byrong/Downloads/AulaExcel1.csv". Y dentro del entorno de R, la sintaxis para leer el archivo se muestra en la siguiente figura. (Note que se ha creado el objeto aulae)


Crear el objeto aulae.png


Seguramente el usuario deseará ver sus datos. Bastará con escribir la instrucción print como se muestra. Con ello veremos el listado de datos y campos en pantalla. Sintaxis adicional para leer archivos externos a R puede verse aquí


Imprimir datos en pantalla.png


También es posible generar datos aleatorios. En la siguiente figura se muestra la creación de dos vectores identificados como "x" e "y", cada uno con 100 números generados aleatoriamente a partir de la distribución normal. La instrucción print permite ver en pantalla los datos de cada uno de los vectores.


Creación de vectores con números aleatorios normales.JPG


Luego la instrucción plot genera una gráfica XY.


Gráfico XY de vectores.JPG

Lectura de datos en R con File.Choose

Una alternativa sencilla para leer archivos en R es emplear la instrucción file.choose para usar una ventana que permite ubicar fácilmente el archivo de interés. En la siguiente pantalla se puede leer la sintáxis necesaria para importar el archivo "bosque.csv".


File choose r.png



Datos faltantes en las tablas importadas a R

Frecuentemente las tablas de datos importadas al entorno de R presentan datos faltantes que puede hacer necesario variar la sintáxis de algunos comandos. Por ejemplo en los siguientes casos ha sido necesario agregar a la sintáxis "na.rm=T" para calcular los valores de la media y el percentil. Este agregado hace que sean removidos los datos faltantes (que en el entorno de R se identifican con "NA").


Na rm r.png


Calculadora simple en R

La pantalla de R es una calculadora completamente funcional. Puede sumar, restar, y dividir usando los mismos símbolos +, -, /; también permite ejecutar funciones aritméticas, y realizar varias operaciones sólo separadas por un punto y coma. Se mencionan también por ejemplo, potencias y todo lo relacionado con las matemáticas.


R opt (1)wiki.JPG


Variables indexadas

R indexada opt (1).jpg


Gráficos

Nuestro primer ejemplo será la solicitud de cajas de dispersión ó "box plot". El archivo que se empleará de ejemplo se denomina "Habaz.csv" y puede obtenerse aquí. Se trata de datos de la evaluación del rendimiento de tres variedades de haba en Zaragoza Chimaltenango 2013. El informe de investigación completo puede verse aquí.


Se hará la lectura de los datos desde el archivo en formato csv ya indicado. En la figura puede verse la ruta desde donde se lee el archivo y la presencia de etiquetas para las columnas de datos. Note que se ha agregado la instrucción print para ver los datos en pantalla


Lectura del archivo habz.JPG


Como se trata de un experimento en que se ha comparado el rendimiento en fresco de tres variedades de haba, es necesario convertir el campo Var en un factor. Esto se logra con la sintaxis siguiente. Note que se agrega la instrucción attach para conseguir la lectura adecuada de la tabla de datos. Finalmente se solicita el gráfico de box plot con la instrucción plot.


Caja de dispersión para el rendimiento de las variedades de haba.JPG

Vídeo con resolución de un ejercicio en R


Libro de Texto de Cómputo I/

Herramientas personales