4.1 El paquete dplyr
dplyr
permite sustituir funciones base de R (como split(), subset(),
apply(), sapply(), lapply(), tapply() y aggregate())
mediante una “gramática” más sencilla para la manipulación de datos:
select()seleccionar variables/columnas (tambiénrename()).mutate()crear variables/columnas (tambiéntransmute()).filter()seleccionar casos/filas (tambiénslice()).arrange()ordenar o organizar casos/filas.summarise()resumir valores.group_by()permite operaciones por grupo empleando el concepto “dividir-aplicar-combinar” (ungroup()elimina el agrupamiento).
Puede trabajar con conjuntos de datos en distintos formatos:
data.frame,data.table,tibble, …bases de datos relacionales (lenguaje SQL); paquete dbplyr, …
bases de datos Hadoop:
En lugar de operar sobre vectores como las funciones base,
opera sobre objetos de este tipo (solo nos centraremos en data.frame).