• Prácticas de TGD
  • Prólogo
  • 1 Introducción
    • 1.1 Contenidos
    • 1.2 Planificación (tentativa)
      • 1.2.1 Evaluación
    • 1.3 Fuentes de información:
      • 1.3.1 Básica
      • 1.3.2 Complementaria:
  • 2 Manipulación de datos con R
    • 2.1 Lectura, importación y exportación de datos
      • 2.1.1 Formato de datos de R
      • 2.1.2 Acceso a datos en paquetes
      • 2.1.3 Lectura de archivos de texto
      • 2.1.4 Importación desde SPSS
      • 2.1.5 Importación desde Excel
      • 2.1.6 Exportación de datos
      • 2.1.7 Python, Julia y otros lenguajes de programación
    • 2.2 Manipulación de datos
      • 2.2.1 Operaciones con variables
      • 2.2.2 Operaciones con casos
      • 2.2.3 Datos faltantes
      • 2.2.4 Funciones apply
      • 2.2.5 Generación de tablas
      • 2.2.6 Operaciones con tablas de datos
    • 2.3 Ejemplo WoS data
  • 3 Introducción al lenguaje SQL
    • 3.1 Bases de Datos Relacionales
      • 3.1.1 Definiciones
    • 3.2 Restricciones
    • 3.3 Sistemas Gestores de Bases de Datos (SGDB)
    • 3.4 Sintaxis SQL
    • 3.5 Cláusulas básicas de SQL
      • 3.5.1 Selección de campos
      • 3.5.2 Número de filas (paginación)
      • 3.5.3 Filtrado de Resultados
      • 3.5.4 Ordenación de Resultados
      • 3.5.5 Unión de tablas
      • 3.5.6 Agrupamiento
      • 3.5.7 Subconsultas (subqueries)
      • 3.5.8 Operaciones con conjuntos de resultados
    • 3.6 Gestión de tablas
    • 3.7 Gestión de datos
    • 3.8 Gestión de Bases de Datos
    • 3.9 Ejemplos de consultas SQL
    • 3.10 Conexión con bases de datos desde R
      • 3.10.1 Introducción a SQL en R
      • 3.10.2 El paquete sqldf
      • 3.10.3 SQL Queries
    • 3.11 Ejemplo Scopus data
    • 3.12 Ejercicios SQL con RSQLite
      • 3.12.1 Setup de RSQLite
    • 3.13 Práctica 1: SQL
  • 4 Manipulación de datos con tidyverse
    • 4.1 Introducción al ecosistema tidyverse
      • 4.1.1 Operador pipe (redirección)
      • 4.1.2 Lectura y escritura de archivos de texto
      • 4.1.3 Escritura
    • 4.2 Manipulación de datos con dplyr y tidyr
      • 4.2.1 El paquete dplyr
      • 4.2.2 Operaciones con variables (columnas)
      • 4.2.3 Operaciones con casos (filas)
      • 4.2.4 Datos faltantes
    • 4.3 Herramientas tidyr
    • 4.4 Operaciones con tablas de datos
    • 4.5 Bases de datos con dplyr
      • 4.5.1 Ejemplos
  • 5 Introducción a Tecnologías NoSQL
    • 5.1 Conceptos y tipos de bases de datos NoSQL (documental, columnar, clave/valor y de grafos)
      • 5.1.1 Características de las bases de datos NoSQL
      • 5.1.2 Tipos de Bases de Datos NoSQL
      • 5.1.3 MongoDB: NoSQL documental
      • 5.1.4 Redis: NoSQL key-value
      • 5.1.5 Cassandra: NoSQL columnar
      • 5.1.6 Neo4j: NoSQL grafos
      • 5.1.7 Otros: search engines
    • 5.2 Conexión de R a MongoDB
    • 5.3 Ejercicios prácticos con MongoDB
  • 6 Tecnologías para el Tratamiendo de Datos Masivos
    • 6.1 Introducción al Aprendizaje Estadístico
    • 6.2 Tecnologías Big Data (Hadoop/Spark y Visualización)
      • 6.2.1 Tecnologías Hadoop, Spark, y Sparklyr
      • 6.2.2 Big Data y Machine Learning
      • 6.2.3 Rattle como alternativa a RapidMiner en R
      • 6.2.4 Visualización y Generación de Cuadros de Mando
    • 6.3 Introducción al Análisis de Datos Masivos
  • Publicado con bookdown

Prácticas de Tecnologías de Gestión y Manipulación de Datos

Prácticas de Tecnologías de Gestión y Manipulación de Datos

Guillermo López Taboada (guillermo.lopez.taboada@udc.es)

Diego Darriba (diego.darriba@udc.es)

Rubén Fernández Casal (ruben.fcasal@udc.es)

Manuel Oviedo de la Fuente (manuel.oviedo@udc.es)

Edición: Octubre de 2025. Impresión: 2025-11-04

Prólogo

Este libro contiene algunas de las prácticas de la asignatura de Tecnologías de Gestión de Datos del Máster interuniversitario en Técnicas Estadísticas).

En este libro se asume que se dispone de conocimientos básicos de R, un lenguaje de programación interpretado y un entorno estadístico desarrollado específicamente para el análisis de datos. Para instalar R se recomienda seguir los pasos descritos en el post https://rubenfcasal.github.io/post/instalacion-de-r. Para el desarrollo de código e informes se sugiere emplear RStudio Desktop, que se puede instalar y configurar siguiendo las indicaciones proporcionadas en el post https://rubenfcasal.github.io/post/instalacion-de-rstudio.

Para una introducción a la programación en R se puede consultar el libro Fernández-Casal et al. (2022): Introducción al Análisis de Datos con R (github). Adicionalmente, en el post https://rubenfcasal.github.io/post/ayuda-y-recursos-para-el-aprendizaje-de-r se proporcionan enlaces a recursos adicionales, incluyendo bibliografía y cursos. También puede ser de utilidad el libro Fernández-Casal (2023): Notas de Programación en R (github).

Este libro ha sido escrito en R-Markdown empleando el paquete bookdown y está disponible en el repositorio Github: gltaboada/tgdbook. Se puede acceder a la versión en línea a través del siguiente enlace:

https://gltaboada.github.io/tgdbook.

donde puede descargarse en formato pdf.

Para ejecutar los ejemplos mostrados en el libro será necesario tener instalados los siguientes paquetes: dplyr (colección tidyverse), tidyr, stringr, readxl , openxlsx, naniar, RODBC, sqldf, RSQLite, foreign, magrittr, knitr Por ejemplo mediante los comandos:

pkgs <- c('dplyr', 'tidyr', 'stringr', 'readxl', 'openxlsx', 'magrittr', 
          'naniar', 'RODBC', 'sqldf', 'RSQLite', 'foreign', 'knitr')
# install.packages(pkgs, dependencies=TRUE)
install.packages(setdiff(pkgs, installed.packages()[,'Package']), dependencies = TRUE)

Para generar el libro (compilar) se recomendaría consultar el libro de “Escritura de libros con bookdown” en castellano.

Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional (esperamos poder liberarlo bajo una licencia menos restrictiva más adelante…).