D.1 Data Science

Data Science: Data Mining, Machine Learning, Statistical Learning, Knowlegde Discovery, Business Intelligence, …

  • El conjunto de herramientas para entender y modelizar conjuntos (complejos) de datos.

  • El proceso de construir modelos a partir de los datos para aprender y predecir.

  • El proceso de descubrir patrones y obtener conocimiento a partir de grandes conjuntos de datos (big data).

  • El arte y la ciencia del análisis inteligente de los datos.

  • Multidisciplicar, con importantes aportaciones estadísticas e informáticas.

Etapas del proceso

Figura D.1: Etapas del proceso

D.1.1 Ventajas e inconvenientes

Ventajas:

  • Flexibilidad (hay menos suposiciones sobre los datos).

  • Adecuado para big data.

Inconvenientes:

  • Algunos métodos son poco interpretables.

  • Pueden aparecer problemas de sobreajuste.

  • Mayores problemas al extrapolar e interpolar.

La idea es “dejar hablar a los datos” y no “encorsetarlos” a priori, dándoles mayor peso que a los modelos.

CUIDADO: los datos no sustituyen a la población (pueden presentar grandes sesgos, la información disponible puede no ser representativa de la población).

“The sheer volume of data would obviate the need of theory and even scientific method” — Chris Anderson, físico y periodista, 2008