D.3 Arboles de decisión

Métodos simples y fácilmente interpretables.

  • Técnica clásica de apendizaje automático (computación).

  • Válidos también para regresión.

Se segmentan los valores de las variables explicativas de forma recursiva.

  • Se consideran particiones binarias.

  • El conjunto de reglas de partición se puede resumir en un árbol.

La predicción será el valor más frecuente (la media en regresión) en el nodo terminal.

Construcción del arbol:

  • De forma recursiva se realizan particiones binarias.

    • En cada partición se trata de mejorar la información sobre la respuesta.

      • El indice de Gini es una medida de la varianza total en los grupos (mide si hay mucha o poca igualdad dentro de los grupos).
    • Se crece el arbol hasta que cada nodo terminal tiene menos de un número mínimo de observaciones.

  • Se poda el árbol considerando una funcion de costo basada en la complejidad.

    • Evita problemas de sobreajuste, selección de variables explicativas…

    • Se suele emplear validación cruzada.