D.4 Bagging y Boosting
Bagging y Boosting son procedimientos generales para la reducción de la varianza de un método estadístico de aprendizaje.
Se trata de combinar métodos de clasificación sencillos para obtener un método de clasificación muy potente (y robusto).
Muy empleados con árboles de decisión.
- Se crecen muchos árboles que luego se combinan para producir predicciones por consenso.
D.4.1 Bagging o agregación Bootstrap
Se remuestrea repetidamente el conjunto de datos de entrenamiento.
- Con cada conjunto de datos (bag) se entrena un modelo.
Las predicciones se obtienen promediando las predicciones de los modelos (la decisión mayoritaria en el caso de clasificación).
Se puede estimar la precisión de las predicciones con el error OOB (out-of-bag).
D.4.2 Bosques Aleatorios
Los Bosques Aleatorios son una ligera modificación del bagging para el caso de árboles de decisión.
Además de en las observaciones se induce aleatoriedad en las variables.
Para evitar dependencias, los posibles predictores se seleccionan al azar en cada partición (e.g. \(m=\sqrt{p}\)).
No es necesario podar los árboles.
Estos métodos dificultan la interpretación.
Se puede medir la importancia de las variables (índices de importancia).
- Por ejemplo, para cada árbol se suman las reducciones en el índice de Gini correspondientes a las divisiones de un predictor y posteriormente se promedian los valores de todos los árboles.
D.4.3 Boosting
La idea es hacer un “aprendizaje lento”.
Los arboles se crecen de forma secuencial, se trata de mejorar la clasificación anterior.
- Se utilizan arboles pequeños (en general clasificadores débiles).
Se puede pensar que se ponderan las observaciones iterativamente, se asigna más peso a las que resultaron más difíciles de clasificar.
El modelo final es un modelo aditivo (media ponderada de los árboles).