Práctica 0: Repaso de R y edición de informes con RStudio

1. EL ENTORNO DE SOFTWARE ESTADÍSTICO R

R es un entorno de programación orientado a analizar datos estadísticamente:
- R Console: terminal de comandos donde se ejecutan los programas escritos en el lenguaje de programación R.
  - En rojo: comandos de entrada (>)
  - En azul: resultados de salida (texto)
- Plot: ventanas gráficas (aparecen al pedirlas con comandos)
- Help: ventanas de ayuda (salen por el navegador de internet)

2. EL ENTORNO RSTUDIO

RStudio es un entorno construido alrededor de una instalación de R que integra muchas utilidades.
Facilita la redacción de trabajos de investigación en formato HTML (y otros), usando una sencilla sintaxis que mezcla:
- Sintaxis de lenguage Markdown (para editar documentos HTML con muy poco código, ver mumenú Ayuda > Guía rápida Markdown)
- Sintaxis de lenguaje R (para incluir análisis estadísticos hechos con R, ver menú Ayuda > Chuletas > Guía rápida R Markdown)
- Sintaxis de lenguaje $\LaTeX$ (para editar fórmulas matemáticas de aspecto profesional como $\overline{x} = \frac{\sum_{i=1}^n x_i}{n}$, o $P(a < X \leq b) = \int_a^b f(x) dx$, o $f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \mathrm{e}^{- \frac{(x - \mu)^2}{2\sigma^2}}$, etc.). Los comandos de LaTeX se escriben entre signos dólar sencillos ($, para fórmula “en línea”) o dobles ($$, para fórmulas en párrafo aparte y centradas). Ver este enlace para los comandos básicos.
Para ver un ejemplo de lo anterior:
- Abre RStudio,
- Menú Archivo > Nuevo documento > R Markdown...
- Compila con CTRL+SHIFT+K y observa la salida.
Permite gestionar proyectos con Git o SVN (sistemas de control de versiones)

3. EL LENGUAJE DE PROGRAMACIÓN DE R

Es un lenguaje más, orientado a objetos, e interpretado (no compilado), pero diseñado por expertos en informática y estadística.

4. CONSTANTES Y CLASES DE OBJETOS EN R

Constantes numéricas, de cadena de texto, lógicas y otras

3, 0.1, -2.18 son constantes numéricas
Inf es un símbolo para el infinito (como 1/0)
NA es un símbolo para un dato no disponible (Not Available)
NaN es un símbolo para el resultado de una operación imposible (como 0/0 o Not a Number)
NULL es un símbolo para un objeto vacío, que no ocupa memoria
"a", 'dos palabras', etc., son constantes de cadena de texto (entrecomilladas con comillas sencillas o dobles)
TRUE y FALSE son constantes lógicas (no confundir con otros lenguajes)

Operadores lógicos

&, |, ! (no confundir con otros lenguajes)

Operador de asignación

= o bien <-.

Comparaciones

==, !=, <, <=, etc.

Vectores

Se definen:
- Concatenando constantes: por ejemplo v = c(1, 5, 6) o v = c('edad', 'altura', 'grado')
- Leyendo de fichero: por ejemplo v = scan(file=..., ...)
- De números consecutivos: por ejemplo v = 1:10
Subvectores: indexar con corchetes, comenzando en 1 (es decir, la primera componente del vector v es v[1], no v[0])
- Usando condiciones: v[ v < 4 ] selecciona datos del vector v que son menores a 4.

Matrices

Se definen con m = matrix(data=..., ncol=..., byrow=...) donde:
- data: vector con los datos,
- ncol: número de columnas,
- byrow: ¿se completa por filas? TRUE o FALSE.
Submatrices: corchetes con dos argumentos, fila y columna. Por ejemplo m[3,5] o m[3,] o m[,5]

Hojas de datos

Como las hoja de cálculo (con columnas que pueden ser algunas de números y otras de texto)
Se definen:
- Concatenando vectores de igual longitud: por ejemplo h = data.frame(numeros=1:3, letras=c('a', 'b', 'c')).
- Leyendo de fichero: por ejemplo h = read.table(file=..., ...)
Sub-hojas de datos:
- Acceso a UNA columna de hojas de datos: hoja$etiquetaColumna o bien hoja[, numeroColumna] o bien hoja[, 'etiquetaColumna'] (como si fuera matriz)
- Acceso a VARIAS columnas de hojas de datos: hoja[, vectorNumerosColumnas] o hoja[, vectorEtiquetasColumnas].
- Acceso a UNA o VARIAS filas de hojas de datos: hoja[vectorNumerosFilas, ] o hoja[condicionCumplidaPorFilas, ]

Listas

Clase muy útil para “juntar” objetos de distintos tipos en un solo objeto.
Se definen concatenando objetos de cualquier tipo: por ejemplo l = list(comp1=1:5, comp2=matrix(1:9, 3)).
Muchas funciones que devuelven varios objetos, los devuelven unidos en una lista (regresión lineal, contrastes de hipótesis, etc.).
Sub-listas: con el operador corchete sencillo. Por ejemplo l[1] no es el primer objeto de la lista, sino que es una nueva lista con un solo objeto (del tipo que sea éste).
Acceso a los objetos que contiene la lista l: operador $ o doble corchete [[ ]].
- l$etiquetaComponente
- l[[numeroComponente]] (ojo que el corchete sencillo devuelve una sublista, no el objeto contenido)
- l[['etiquetaComponente']] (ojo que el corchete sencillo devuelve una sublista, no el objeto contenido)

5. FUNCIONES ÚTILES

help('nombreFuncion'): ayuda sobre la función referida
ls(): lista los nombres de variables definidas en la sesión de R
str(x): estructura del objeto contenido en la variable x. Muy util para ver bien las listas y hojas de datos
summary(x): resumen del contenido de la variable x.
length(x): longitud del objeto (componentes del vector o la lista, columnas de la hoja de datos, etc.).
dim(x): dimensiones (filas, columnas).
sum(x): suma valores.
sort(x): ordena valores.
table(x): tabla de frecuencias.
plot(x): gráfica (según la naturaleza de la variable x).

6. ESTADÍSTICAS DE 1 VARIABLE

Datos en un vector numérico x definido en R:
- mean(x) y median(x): media y mediana
- min(x) y max(x): mínimo y máximo
- quantile(x, prob): cuantil de orden prob
- sd(x) y var(x): CUASIdesviación típica y CUASIvarianza. Las “no cuasis” no están programadas
- hist(x) y boxplot(x): histograma y diagrama de caja
Datos en un vector numérico o de texto x definido en R:
- table(x): tabla de frecuencias
- boxplot(...) y pie(...): diagramas de barras y sectores (el argumento no son los datos sino una tabla de frecuencias)

7. ESTADÍSTICAS DE 2 VARIABLES

Datos en dos vectores numéricos x e y de R, o bien una hoja de datos z, columnas v1 y v2:
cov(x,y), cov(z[,c('v1', 'v2')]): (CUASI)covarianza.
cor(x,y), cor(z[,c('v1', 'v2')]): correlación lineal.
Datos numéricos o de texto:
- table(x,y) y table(z[,c('v1','v2')]): tabla de frecuencias conjuntas.
- plot(x,y) y plot(z[,c('v1','v2')]): gráfica de relación entre ambas (depende del tipo de las variables).
- lm(y ~ x) y lm(formula=v2~v1, data=z): estudio de la regresión lineal de y sobre x (o de v2 sobre v1).

8. VARIABLES ALEATORIAS: PROBABILIDADES Y SIMULACIONES

set.seed(numeroEntero): establece semilla para simulaciones repetibles
sample(x, size, replace, prob): muestreo de tamaño size, con o sin remplazo (replace), de componentes de un vector x bajo ciertas probabilidades prob.
Funciones de probabilidad en modelos conocidos: prefijo + nombre modelo + argumento tipo + parámetros
- Prefijo:
  - d para $f(x)$,
  - p para $F(x)$,
  - q para cuantiles y
  - r para simulaciones.
- Nombre de algunos modelos: binom, pois, exp, norm, unif, etc.
- Argumento específico para cada función:
  - x para $f(x)$,
  - q para $F(x)$,
  - p para el orden del cuantil y
  - n para la cantidad de simulaciones.
- Parámetros de cada modelo: ejemplos con todo junto,
  - dbinom(x=0:10, size=10, prob=0.5): $f$ del modelo binomial
  - ppois(q=0:10, lambda=2): $F$ del modelo de Poisson
  - qexp(p=0.95, rate=2): cuantiles del modelo exponencial
  - rnorm(n=100, mean=5, sd=1): simulaciones del modelo normal

9. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS PARAMÉTRICOS

t.test(x,y,alternative,mu,paired,var.equal,conf.level): intervalo y contraste sobre la media de una o dos normales (o no normales pero gran muestra).
var.test(x,y,ratio,alternative,conf.level): intervalo y contraste sobre la varianza de dos normales.
prop.test(x,n,p,alternative,conf.level,correct): intervalo y contraste sobre la proporción de una o dos pruebas de Bernoulli.

10. ALGUNOS CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS:

shapiro.test(x): contraste sobre la normalidad de una muestra
chisq.test(x,p): contraste sobre la bondad de ajuste de una muestra a una tabla de probabilidades
chisq.test(x,y): contraste sobre la independencia entre dos variables cualitativas.

11. EJERCICIOS

Escribe data(iris) y tendrás la variable iris definida.

Escribe un resumen estadístico de todas las columnas de iris usando una única función, y un resumen técnico del contenido de la variable iris usando otra función.

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R

Calcula la media y cuasidesviación típica de cada columna numérica.

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R

Dibuja un histograma de la variable Petal.Length

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R

Dibuja un diagrama de caja comparativo sobre la variable Petal.Length para cada especie de flor.

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R

Se supone que las longitudes de pétalo de las flores se pueden ajustar al modelo normal, ya que son el resultado de la suma del creciemiento diario de muchos días. ¿Desmienten los datos de estas flores el modelo normal, usando una significación del 5%? Si la respuesta es afirmativa, intenta explicar la razón de que el modelo normal no ajuste bien estos datos (no es una explicación técnica, sino de sentido común, échale imaginación o picardía).

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R

Suponiendo que los datos de la variable Petal.Length siguen el modelo normal en cada especie de flor, realiza un contraste de hipótesis para ver si se puede descartar o no que la longitud media de pétalos en las poblaciones de flores setosa y versicolor sea la misma.

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R

¿Cuánto vale exactamente el $p$-valor del contraste anterior? (Ayuda: asigna el contraste a una variable, luego usa str() sobre esa variable, que es una lista, y después usa el operador $ para acceder a ese valor de la lista).

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R

Reproduce en una matriz de R la tabla de la función de distribución de la normal tipificada. Es decir, que tenga las $F(z)$ para $z$ desde 0.00 hasta 3.99, en incrementos de 0.01, y organizada en filas y columnas como aparece publicada, con los valores redondeados a 4 decimales.

# Escribe aquí tu codigo y compila con RStudio CTRL+SHIFT+K
# verás la salida de R

Repite la frase completando con comandos de $\LaTeX$ la fórmula que falta:

“Sea $\overline{x}$ la media de una gran muestra de una variable aleatoria $X$. Entonces la media de $X$ (el parámetro $\mu$) pertenece al intervalo con una confianza del $100(1-\alpha)$%”
“Sea $\overline{x}$ la media de una gran muestra de una variable aleatoria $X$. Entonces la media de $X$ (el parámetro $\mu$) pertenece al intervalo $...$ con una confianza del $100(1-\alpha)$%”

Práctica 0: Repaso de R y edición de informes con RStudio

Pablo Gregori - Universitat Jaume I de Castellón

MT1021 Ampliación de Estadística e Investigación Operativa

1. EL ENTORNO DE SOFTWARE ESTADÍSTICO R

2. EL ENTORNO RSTUDIO

3. EL LENGUAJE DE PROGRAMACIÓN DE R

4. CONSTANTES Y CLASES DE OBJETOS EN R

Constantes numéricas, de cadena de texto, lógicas y otras

Operadores lógicos

Operador de asignación

Comparaciones

Vectores

Matrices

Hojas de datos

Listas

5. FUNCIONES ÚTILES

6. ESTADÍSTICAS DE 1 VARIABLE

7. ESTADÍSTICAS DE 2 VARIABLES

8. VARIABLES ALEATORIAS: PROBABILIDADES Y SIMULACIONES

9. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS PARAMÉTRICOS

10. ALGUNOS CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS:

11. EJERCICIOS