4.1 El paquete dplyr
dplyr
permite sustituir funciones base de R (como split()
, subset()
,
apply()
, sapply()
, lapply()
, tapply()
y aggregate()
)
mediante una “gramática” más sencilla para la manipulación de datos:
select()
seleccionar variables/columnas (tambiénrename()
).mutate()
crear variables/columnas (tambiéntransmute()
).filter()
seleccionar casos/filas (tambiénslice()
).arrange()
ordenar o organizar casos/filas.summarise()
resumir valores.group_by()
permite operaciones por grupo empleando el concepto “dividir-aplicar-combinar” (ungroup()
elimina el agrupamiento).
Puede trabajar con conjuntos de datos en distintos formatos:
data.frame
,data.table
,tibble
, …bases de datos relacionales (lenguaje SQL); paquete dbplyr, …
bases de datos Hadoop:
En lugar de operar sobre vectores como las funciones base,
opera sobre objetos de este tipo (solo nos centraremos en data.frame
).