4 Estructura de datos

Data frames
Conjunto de variables (columnas), de cualquier tipo de datos (categóricas, lógicas, fechas)
Un dataframe es completo con dimensiones n_fila x p_columna, donde:
1- Cada fila debe contener toda la info de la unidad experimental que se está evaluando
2- Cada columna representa una variable (descriptiva o respuesta)
3- Cada celda debe tener su observación (en caso de faltar el dato será un NA)
Como hemos visto, hay data frames contenidos en paquetes de inico automático. Un ejemplo muy usado, que está en el paquete base
es el dataset “iris”.
# ya activo desde inicio de sesión por default
iris # F1
?iris View(iris) # F2
str(iris)

Explore el dataset iris con las siguientes funciones y comente sus resultados:
dim(); head(); tail(); names(); str(); summary()
str(iris)
summary(iris)
dim(iris)
head(iris)
tail(iris)
names(iris)
Paquetes de exploracion rapida de datasets
{skimr}
library(skimr)
skim(iris)
Creacion de dataframes a partir de vectores
<- c("A", "B", "C")
x <- c(1, 3, NA)
y
<- data.frame(x,y)
dat
datstr(dat)
$ dat
library(tibble)
<- tribble(
dat ~x, ~y,
"A", 1,
"B", 3,
"C", NA
)
Otras estructuras de datos
- Listas
Son vectores de objetos de cualquier clase
<- list(a = 1:5, b = c("a", "b"), c = TRUE, d=dat)
x x
(Más info de subsetting elementos de una lista aquí)
$a #
x1] #
x[#sum(x[1])
1]] #
x[[sum(x[[1]])
"c"] # x[
- Matrices
Admiten un unico tipo de dato y carecen de nombre de columna. Al igual que los dataframes tienen dimensiones fila x columna. Indicamos el número de filas con el argumento nrow
y con ncol
el número de columnas; luego indicamos qué valores forman la matriz (del 1 al 9), y le hemos pedido a R que use esos valores para rellenar la matriz A por filas con byrow=TRUE
. La matriz A así construida es:
<- matrix(nrow=3, ncol=3, c(1,2,3,4,5,6,7,8,9), byrow=TRUE)
A A