Transformación Digital

Tidyverse: una librería para la minería de datos.

agosto 6, 2018

Tidyverse es una librería que resume la mayor parte de las tareas que tiene que realizar un data-scientist. Se trata de una aportación de uno de los mayores gurúes de R: Hadley Wicham y que resume un trabajo genial realizado por este brillante data-scientist durante años.

La idea básica es dotar a R de un lenguaje muy potente de tratamiento de todas las tareas a realizar a la hora de crear conocimiento.

Consta básicamente de 6 librerías para la minería de datos como podemos ver en la imagen 1.

ggplot2.– Es la librería más famosa. Se trata de una gramática de gráficos, es decir de un lenguaje que cubre todos los aspectos a la hora tanto de explorar unos datos, como de comunicar las conclusiones. Su introducción en R revolucionó la manera de concebir la elaboración de gráficos mediante la creación de un lenguaje mediante diferentes capas que aportan la manera de seleccionar y filtrar los datos, las diferentes geometrías, escalas, coordenadas, divisiones, zooms, etc.
dplyr.– Es la segunda librería más famosa. Creada para transformar los datos, vendría a ser el equivalente a un lenguaje SQL, e incluye sus mismas funcionalidades.
readr.– Es una librería de lectura de diferentes fuentes de datos. Su ventaja sobre las otras librerías de lectura de R es que permite integrarse perfectamente con las otras dos librerías anteriores, mediante la concatenación de órdenes: %>%. (pipes)
purrr.– Es una librería que permite explotar una de las grandes funcionalidades de R : la vectorización. Para explicarlo, ponemos un ejemplo que el propio manual proporciona, y esto es hallar el coeficiente de determinación de una regresión de líneal de un conjunto de datos, teniendo en cuenta una factorización.

library(purrr) : cargamos la librería

mtcars %>% : elegimos el conjunto de datos a trabajar

split(.$cyl) %>% : dividimos ese conjunto según los distintos valores del campo cyl

map(~ lm(mpg ~ wt, data = .)) %>% : realizamos una regresión lineal para cada subconjunto

map(summary) %>% : sacamos el coeficiente de determinación para cada subconjunto, o sea, cuando cyl vale 4, 6, 8

map_dbl(«r.squared»)

4 6 8

0.5086326 0.4645102 0.4229655

5. tidyr.– Es la librería que permite transformar cualquier formato de dato en un formato legible tanto por los algoritmos como por el resto de librerías de tidyverse.

6. tibble.- Es la librería que permite transformar los datos en un formato de tipo “tibble” que da muchos menos problemas con su tratamiento que los habituales “data-frame”

Y otras dos librerías que no vienen en la imagen 1.

7. stringr.- Es la librería que permite tratar con cadenas de caracteres, extrayendo, sustituyendo, manipulando minúsculas, etc.

8. forcats.– Es una librería para manejar variables de tipo categórico.

En resumen, si yo tuviera que recomendar que, de todas las librerías de R, se aprendieran unas pocas para tener un buen nivel competitivo profesional, yo recomendaría éstas.

Autor: Pedro José Jiménez López, docente en el Máster en Big Data y Business Intelligence