D.1 Data Science
Data Science: Data Mining, Machine Learning, Statistical Learning, Knowlegde Discovery, Business Intelligence, …
El conjunto de herramientas para entender y modelizar conjuntos (complejos) de datos.
El proceso de construir modelos a partir de los datos para aprender y predecir.
El proceso de descubrir patrones y obtener conocimiento a partir de grandes conjuntos de datos (big data).
El arte y la ciencia del análisis inteligente de los datos.
Multidisciplicar, con importantes aportaciones estadísticas e informáticas.
D.1.1 Ventajas e inconvenientes
Ventajas:
Flexibilidad (hay menos suposiciones sobre los datos).
Adecuado para big data.
Inconvenientes:
Algunos métodos son poco interpretables.
Pueden aparecer problemas de sobreajuste.
Mayores problemas al extrapolar e interpolar.
La idea es “dejar hablar a los datos” y no “encorsetarlos” a priori, dándoles mayor peso que a los modelos.
CUIDADO: los datos no sustituyen a la población (pueden presentar grandes sesgos, la información disponible puede no ser representativa de la población).
“The sheer volume of data would obviate the need of theory and even scientific method” — Chris Anderson, físico y periodista, 2008