D.2 Métodos de aprendizaje estadístico

  • Aprendizaje no supervisado: Métodos exploratorios (sin variable respuesta). El objetivo principal es entender las relaciones y estructura de los datos.

    • Análisis descriptivo

    • Métodos de reducción de la dimensión (análisis de componentes principales, análisis factorial,…)

    • Clúster

    • Detección de datos atípicos

  • Aprendizaje supervisado: Métodos predictivos (con variable respuesta). El objetivo principal es la construcción de modelos, principalmente para predecir. Dependiendo del tipo de variable respuesta:

    • Clasificación: cualitativa

    • Regresión: numérica

D.2.1 Métodos (de aprendizaje supervisado):

Métodos de Clasificación:

  • Análisis discriminante (lineal, cuadrático), Regresión logística, multinomial, …

  • Árboles de decisión, bagging, random forest, boosting

  • Support vector machines (SVM)

Métodos de regresión:

  • Modelos lineales:

    • Regresión lineal: lm(), lme(), biglm, …

    • Regresión lineal robusta: MASS::rlm(), …

    • Métodos de regularización (Ridge regression, Lasso): glmnet, …

  • Modelos lineales generalizados: glm(), bigglm, ..

  • Modelos paramétricos no lineales: nls(), nlme, …

  • Regresión local (métodos de suavizado): loess(), KernSmooth, sm, np, …

  • Modelos aditivos generalizados (GAM): mgcv, gam, …

  • Arboles de decisión, Random Forest, Boosting: rpart, randomForest, xgboost, …

  • Redes neuronales: nnet, …

Paquetes con entornos gráficos (datos en memoria):

  • R-Commander + FactoMineR: Rcmdr, RcmdrPlugin.FactoMineR

  • Rattle: rattle

D.2.2 Construcción y evaluación de los modelos

El procedimiento habitual es particionar la base de datos en 2 (o incluso en 3) conjuntos:

  • Conjunto de datos de aprendizaje para construir los modelos

  • Conjunto de datos de (test) validación para (afinar) evaluar el rendimiento de los modelos

Alternativas: validación cruzada, bagging (bootstrap de las observaciones)

En el caso de grandes conjuntos de datos las aproximaciones más empleadas son:

  • Submuestreo: la idea es que a partir de un cierto número de observaciones el incremento en la precisión es relativamente pequeño3.

  • Computación paralela/distribuida:

    • Resumir (paralela/distribuida) -> Combinar -> Modelar

    • Modelar (paralela/distribuida) -> Combinar

    • Se puede implementar mediante un sistema MapReduce (Hadoop): los datos se procesan de forma distribuida mediante Mappers y los resultados se combinan mediante Reducers.

D.2.3 Matriz de confusión

Para estudiar la eficiencia de un método de clasificación supervisada se evalúa el modelo en el conjunto de datos de validación y se genera una tabla de contingencia con las predicciones (columnas) frente a los valores reales (filas).

Observado\Predicción Positivo Negativo
Verdadero Verdadero positivo Falso negativo
Falso Falso positivo Verdadero negativo

A partir de esta tabla se pueden estimar las tasas de falsos y verdaderos negativos y positivos (caso de dos categorías).

D.2.4 Predicciones frente a observado

Para estudiar la eficiencia de un método de regresión se evalúa el modelo en el conjunto de datos de validación y se comparan las predicciones frente a los valores reales

  • Las predicciones deberían estar próximas a los valores reales \(y=x\), en azul.

  • El pseudo R-cuadrado (el cuadrado de la correlación entre las predicciones y los valores observados, que se corresponde con la línea discontinua) debería ser próximo a 1.


  1. El error de estimación suele ser de orden \(n^{-1/2}\) o superior, incrementar cuatro veces el número de datos disminuye el error de
    estimación a la mitad o menos↩︎