4.1 El paquete dplyr

library(dplyr)

dplyr permite sustituir funciones base de R (como split(), subset(), apply(), sapply(), lapply(), tapply() y aggregate()) mediante una “gramática” más sencilla para la manipulación de datos:

  • select() seleccionar variables/columnas (también rename()).

  • mutate() crear variables/columnas (también transmute()).

  • filter() seleccionar casos/filas (también slice()).

  • arrange() ordenar o organizar casos/filas.

  • summarise() resumir valores.

  • group_by() permite operaciones por grupo empleando el concepto “dividir-aplicar-combinar” (ungroup() elimina el agrupamiento).

Puede trabajar con conjuntos de datos en distintos formatos:

  • data.frame, data.table, tibble, …

  • bases de datos relacionales (lenguaje SQL); paquete dbplyr, …

  • bases de datos Hadoop:

En lugar de operar sobre vectores como las funciones base, opera sobre objetos de este tipo (solo nos centraremos en data.frame).

4.1.1 Datos de ejemplo

El fichero empleados.RData contiene datos de empleados de un banco. Supongamos por ejemplo que estamos interesados en estudiar si hay discriminación por cuestión de sexo o raza.