D.4 Bagging y Boosting

Bagging y Boosting son procedimientos generales para la reducción de la varianza de un método estadístico de aprendizaje.

  • Se trata de combinar métodos de clasificación sencillos para obtener un método de clasificación muy potente (y robusto).

  • Muy empleados con árboles de decisión.

    • Se crecen muchos árboles que luego se combinan para producir predicciones por consenso.

D.4.1 Bagging o agregación Bootstrap

  • Se remuestrea repetidamente el conjunto de datos de entrenamiento.

    • Con cada conjunto de datos (bag) se entrena un modelo.
  • Las predicciones se obtienen promediando las predicciones de los modelos (la decisión mayoritaria en el caso de clasificación).

  • Se puede estimar la precisión de las predicciones con el error OOB (out-of-bag).

D.4.2 Bosques Aleatorios

Los Bosques Aleatorios son una ligera modificación del bagging para el caso de árboles de decisión.

  • Además de en las observaciones se induce aleatoriedad en las variables.

  • Para evitar dependencias, los posibles predictores se seleccionan al azar en cada partición (e.g. \(m=\sqrt{p}\)).

  • No es necesario podar los árboles.

Estos métodos dificultan la interpretación.

  • Se puede medir la importancia de las variables (índices de importancia).

    • Por ejemplo, para cada árbol se suman las reducciones en el índice de Gini correspondientes a las divisiones de un predictor y posteriormente se promedian los valores de todos los árboles.

D.4.3 Boosting

  • La idea es hacer un “aprendizaje lento”.

  • Los arboles se crecen de forma secuencial, se trata de mejorar la clasificación anterior.

    • Se utilizan arboles pequeños (en general clasificadores débiles).
  • Se puede pensar que se ponderan las observaciones iterativamente, se asigna más peso a las que resultaron más difíciles de clasificar.

  • El modelo final es un modelo aditivo (media ponderada de los árboles).