5.2 dplyr::
Los principales cinco verbos (funciones) de dplyr
son:
select
filter
mutate
summarise
arrange
select
Vamos a seleccionar las variables: study, year y fungic del archivo soja:
soja_long %>%
select(trt, yield)
# Una selección “negativa” de las variables no deseadas daría un mismo resultado:
# soja_long %>%
# select(-bk)
5.2.1 filter
Semejante a subset
. Condiciones separadas por comas equivalen a &
de subset
.
Filtremos la variable fungicida (fungic) por el testigo (ZZ_CHECK):
Ahora, agreguemos el trt A al dataset filtrado:
mutate
Permite operar sobre las columnas, modificando su naturaleza o haciendo operaciones sobre ellas (incluso generando nuevas columnas a partir de pre-existentes).
- Creación de nuevas variables (a partir de las existentes)
Supongamos que queremos analizar a yield en escala de quintal (100kg = 1qq)
- Conversión de tipos de variables:
Ahora que hemos re-organizado los datos, queremos chequear los tipos de variables que tiene el dataset:
5.2.2 summarise
Generalmente acompañada de la función group_by
la cual permite aplicar un cálculo a las observaciones agrupando por niveles de algún factor (equivale a una tabla dinámica de Excel)
Veamos cuánto fue el rendimiento promedio y el desvío standard para cada fungicida a través de todos los ensayos:
Calculen el rendimiento mínimo y máximo de cada tratamiento
arrange
Ordenar columnas
- Función
subset
Filtremos a la variable Species reteniendo sólo a “setosa”
Filtremos a la variable Species reteniendo sólo a “setosa” + “virginica”
Anteponiendo el !
a la condición estaremos aplicando la negativa de la condición.
regenere
iris_set.virginica
usando!
para mejorar el código
Agreguemos una condición: a lo anterior quedémonos con aquellas filas en que Sepal.Length > 5
¿Qué pasa si cambiamos el operador
&
por|
?
iris4
no es un codigo suscinto… reformulelo en iris5 para queidentical(iris4, iris5) == TRUE