D.3 Arboles de decisión
Métodos simples y fácilmente interpretables.
Técnica clásica de apendizaje automático (computación).
Válidos también para regresión.
Se segmentan los valores de las variables explicativas de forma recursiva.
Se consideran particiones binarias.
El conjunto de reglas de partición se puede resumir en un árbol.
La predicción será el valor más frecuente (la media en regresión) en el nodo terminal.
Construcción del arbol:
De forma recursiva se realizan particiones binarias.
En cada partición se trata de mejorar la información sobre la respuesta.
- El indice de Gini es una medida de la varianza total en los grupos (mide si hay mucha o poca igualdad dentro de los grupos).
Se crece el arbol hasta que cada nodo terminal tiene menos de un número mínimo de observaciones.
Se poda el árbol considerando una funcion de costo basada en la complejidad.
Evita problemas de sobreajuste, selección de variables explicativas…
Se suele emplear validación cruzada.