2.2 Manipulación de datos

Una vez cargada una (o varias) bases de datos hay una series de operaciones que serán de interés para el tratamiento de datos:

Operaciones con variables:
- crear
- recodificar (e.g. categorizar)
- …
Operaciones con casos:
- ordenar
- filtrar
- …
Operaciones con tablas de datos:
- unir
- combinar
- consultar
- …

A continuación se tratan algunas operaciones básicas.

2.2.1 Operaciones con variables

2.2.1.1 Creación (y eliminación) de variables

Consideremos de nuevo la base de datos cars incluida en el paquete datasets:

data(cars)
# str(cars)
head(cars)

##   speed dist
## 1     4    2
## 2     4   10
## 3     7    4
## 4     7   22
## 5     8   16
## 6     9   10

Utilizando el comando help(cars) se obtiene que cars es un data.frame con 50 observaciones y dos variables:

speed: Velocidad (en millas por hora)
dist: tiempo hasta detenerse (en pies)

Recordemos que, para acceder a la variable speed se puede hacer directamente con su nombre o bien utilizando notación “matricial” (se seleccionan las 6 primeras observaciones por comodidad).

cars$speed

##  [1]  4  4  7  7  8  9 10 10 10 11 11 12 12 12 12 13 13 13
## [19] 13 14 14 14 14 15 15 15 16 16 17 17 17 18 18 18 18 19
## [37] 19 19 20 20 20 20 20 22 23 24 24 24 24 25

# cars[, 1]       # Equivalente
# cars[,"speed"]  # Equivalente

Supongamos ahora que queremos transformar la variable original speed (millas por hora) en una nueva variable velocidad (kilómetros por hora) y añadir esta nueva variable al data.frame cars. La transformación que permite pasar millas a kilómetros es kilómetros=millas/0.62137 que en R se hace directamente con:

(cars$speed/0.62137)[1:10]

Finalmente, incluimos la nueva variable que llamaremos velocidad en cars:

cars$velocidad <- cars$speed / 0.62137
head(cars)

##   speed dist velocidad
## 1     4    2  6.437388
## 2     4   10  6.437388
## 3     7    4 11.265430
## 4     7   22 11.265430
## 5     8   16 12.874777
## 6     9   10 14.484124

También transformaremos la variable dist (en pies) en una nueva variable distancia (en metros), por lo que la transformación deseada es metros=pies/3.2808:

cars$distancia <- cars$dis / 3.2808
head(cars)

##   speed dist velocidad distancia
## 1     4    2  6.437388 0.6096074
## 2     4   10  6.437388 3.0480371
## 3     7    4 11.265430 1.2192148
## 4     7   22 11.265430 6.7056815
## 5     8   16 12.874777 4.8768593
## 6     9   10 14.484124 3.0480371

Ahora, eliminaremos las variables originales speed y dist, y guardaremos el data.frame resultante con el nombre coches. En primer lugar, veamos varias formas de acceder a las variables de interés:

cars[, c(3, 4)]
cars[, c("velocidad", "distancia")]
cars[, -c(1, 2)]

Utilizando alguna de las opciones anteriores se obtiene el data.frame deseado:

coches <- cars[, c("velocidad", "distancia")]
# head(coches)
str(coches)

## 'data.frame':    50 obs. of  2 variables:
##  $ velocidad: num  6.44 6.44 11.27 11.27 12.87 ...
##  $ distancia: num  0.61 3.05 1.22 6.71 4.88 ...

Finalmente, los datos anteriores podrían ser guardados en un fichero exportable a Excel con el siguiente comando:

write.csv2(coches, file = "coches.csv")

2.2.1.2 Recodificación de variables

Con el comando cut() podemos crear variables categóricas a partir de variables numéricas. El parámetro breaks permite especificar los intervalos para la discretización, puede ser un vector con los extremos de los intervalos o un entero con el número de intervalos. Por ejemplo, para categorizar la variable cars$speed en tres intervalos equidistantes podemos emplear¹:

fspeed <- cut(cars$speed, 3, labels = c("Baja", "Media", "Alta"))
table(fspeed)

## fspeed
##  Baja Media  Alta 
##    11    24    15

Para categorizar esta variable en tres niveles con aproximadamente el mismo número de observaciones podríamos combinar esta función con quantile():

breaks <- quantile(cars$speed, probs = 0:3/3)
etiquetas3 <- c("Baja", "Media", "Alta")
fspeed <- cut(cars$speed, breaks, labels = etiquetas3)
table(fspeed)

## fspeed
##  Baja Media  Alta 
##    17    16    15

Para otro tipo de recodificaciones podríamos emplear la función ifelse() vectorial:

fspeed <- ifelse(cars$speed < 15, "Baja", "Alta")
etiquetas2 <- c("Baja", "Alta")
fspeed <- factor(fspeed, levels = etiquetas2)
table(fspeed)

## fspeed
## Baja Alta 
##   23   27

Alternativamente, en el caso de dos niveles podríamos emplear directamente la función factor():

fspeed <- factor(cars$speed >= 15, 
                 labels = etiquetas2) # levels = c("FALSE", "TRUE")
table(fspeed)

## fspeed
## Baja Alta 
##   23   27

En el caso de múltiples niveles, se podría emplear ifelse() anidados:

fspeed <- ifelse(cars$speed < 10, "Baja",
                 ifelse(cars$speed < 20, "Media", "Alta"))
fspeed <- factor(fspeed, levels = etiquetas3)
table(fspeed)

## fspeed
##  Baja Media  Alta 
##     6    32    12

Otra alternativa, sería emplear la función recode() del paquete car.

library(car)
fspeed <- recode(cars$speed, "0:10 = 'Baja'; 
                 10:20 = 'Media';
                 else='Alta'
                 ")
fspeed <- factor(fspeed, levels = c("Baja", "Media", "Alta"))

NOTA: Para acceder directamente a las variables de un data.frame podríamos emplear la función attach() para añadirlo a la ruta de búsqueda y detach() al finalizar. Sin embargo esta forma de proceder puede causar numerosos inconvenientes, especialmente al modificar la base de datos, por lo que la recomendación sería emplear with(). Por ejemplo, podríamos calcular el factor anterior empleando:

fspeed <- with(cars, ifelse(speed < 10, "Baja",
                 ifelse(speed < 20, "Media", "Alta")))
fspeed <- factor(fspeed, levels = c("Baja", "Media", "Alta"))
table(fspeed)

## fspeed
##  Baja Media  Alta 
##     6    32    12

2.2.2 Operaciones con casos

2.2.2.1 Ordenación

Continuemos con el data.frame cars. Se puede comprobar que los datos disponibles están ordenados por los valores de speed. A continuación haremos la ordenación utilizando los valores de dist. Para ello, utilizaremos el conocido como vector de índices de ordenación. Este vector establece el orden en que tienen que ser elegidos los elementos para obtener la ordenación deseada. Veamos primero un ejemplo sencillo:

x <- c(2.5, 4.3, 1.2, 3.1, 5.0) # valores originales
ii <- order(x)
ii    # vector de ordenación

## [1] 3 1 4 2 5

x[ii] # valores ordenados (por defecto, ascendentemente)

## [1] 1.2 2.5 3.1 4.3 5.0

En el caso de vectores, el procedimiento anterior se podría hacer directamente con:

sort(x)

Sin embargo, para ordenar tablas de datos será necesario la utilización del vector de índices de ordenación. A continuación, se muestan los datos de cars ordenados por dist:

ii <- order(cars$dist) # Vector de índices de ordenación
cars2 <- cars[ii, ]    # Datos ordenados por dist
head(cars2)

##    speed dist velocidad distancia
## 1      4    2  6.437388 0.6096074
## 3      7    4 11.265430 1.2192148
## 2      4   10  6.437388 3.0480371
## 6      9   10 14.484124 3.0480371
## 12    12   14 19.312165 4.2672519
## 5      8   16 12.874777 4.8768593

2.2.2.2 Filtrado

El filtrado de datos consiste en elegir una submuestra que cumpla determinadas condiciones. Para ello, se puede utilizar la función subset(x, subset, select, drop = FALSE, ...) , que además permite seleccionar variables con el argumento select.

A continuación se muestran un par de ejemplos:

# datos con dis>85
subset(cars, dist > 85)

##    speed dist velocidad distancia
## 47    24   92  38.62433  28.04194
## 48    24   93  38.62433  28.34674
## 49    24  120  38.62433  36.57644

# datos con speed en (10,15) y dist > 45
subset(cars, speed > 10 & speed < 15 & dist > 45)

##    speed dist velocidad distancia
## 19    13   46  20.92151  14.02097
## 22    14   60  22.53086  18.28822
## 23    14   80  22.53086  24.38430

También se pueden hacer el filtrado empleando directamente los correspondientes vectores de índices:

ii <- cars$dist > 85
cars[ii, ]   # dis>85

##    speed dist velocidad distancia
## 47    24   92  38.62433  28.04194
## 48    24   93  38.62433  28.34674
## 49    24  120  38.62433  36.57644

ii <- cars$speed > 10 & cars$speed < 15 & cars$dist > 45
cars[ii, ]  # speed en (10,15) y dist>45

##    speed dist velocidad distancia
## 19    13   46  20.92151  14.02097
## 22    14   60  22.53086  18.28822
## 23    14   80  22.53086  24.38430

En este caso, puede ser de utilidad la función which():

it <- which(ii)
str(it)

##  int [1:3] 19 22 23

cars[it, ]

##    speed dist velocidad distancia
## 19    13   46  20.92151  14.02097
## 22    14   60  22.53086  18.28822
## 23    14   80  22.53086  24.38430

# rownames(cars[it, ])
id <- which(!ii)
str(cars[id, ])

## 'data.frame':    47 obs. of  4 variables:
##  $ speed    : num  4 4 7 7 8 9 10 10 10 11 ...
##  $ dist     : num  2 10 4 22 16 10 18 26 34 17 ...
##  $ velocidad: num  6.44 6.44 11.27 11.27 12.87 ...
##  $ distancia: num  0.61 3.05 1.22 6.71 4.88 ...

# Equivalentemente:
str(cars[-it, ])

## 'data.frame':    47 obs. of  4 variables:
##  $ speed    : num  4 4 7 7 8 9 10 10 10 11 ...
##  $ dist     : num  2 10 4 22 16 10 18 26 34 17 ...
##  $ velocidad: num  6.44 6.44 11.27 11.27 12.87 ...
##  $ distancia: num  0.61 3.05 1.22 6.71 4.88 ...

# ?which.min

Si se realiza una selección de variables como en:

cars[ii, "speed"]

## [1] 13 14 14

es posible que se quiera mantener la estructura original de los datos, para ello, bastaría con:

cars[ii, "speed", drop=FALSE]

##    speed
## 19    13
## 22    14
## 23    14

# subset(cars, ii, "speed") # equivalente

A veces puede ser necesario dividir (particionar) el conjunto de datos, uno para cada nivel de un grupo (factor), para ello se puede usar la función split():

speed2 <- factor(cars$speed > 20, labels = c("slow","fast"))
table(speed2)

## speed2
## slow fast 
##   43    7

cars2 <- split(cars,speed2)
class(cars2) # lista con 2 data.frames

## [1] "list"

sapply(cars2,class)

##         slow         fast 
## "data.frame" "data.frame"

sapply(cars2,dim)

##      slow fast
## [1,]   43    7
## [2,]    4    4

cars2$fast

##    speed dist velocidad distancia
## 44    22   66  35.40564  20.11704
## 45    23   54  37.01498  16.45940
## 46    24   70  38.62433  21.33626
## 47    24   92  38.62433  28.04194
## 48    24   93  38.62433  28.34674
## 49    24  120  38.62433  36.57644
## 50    25   85  40.23368  25.90832

De forma inversa, podríamos recuperar el data.frame original con:

unsplit(cars2,speed2)

Aunque si el objetivo es obtener las frecuencias de cada intervalo puede ser más eficiente emplear hist() con plot = FALSE.↩︎