Índice de contenido
Toggle1. Librería Recipes
Una de las labores más importantes en minería de datos es el preprocesamiento de los datos, esto es, todo el conjunto de operaciones que se realizan para la preparación de los datos de cara a introducirlos como fichero de entrada dentro de los algoritmos. Libreria Recipes, es la mejor librería que dispone R para realizar dicha función.
Habitualmente, se dice que dicha labor abarca aproximadamente más del 50% del tiempo que usan los profesionales para presentar una solución al cliente. Y, según mi experiencia, esto puede ser cierto.
2. Antes de la Librería Recipes
Antes de que se extendiera la disciplina del gobierno del dato dentro de las organizaciones, éramos muchas personas las que sufríamos los defectos que tenían todos los ficheros que nos facilitaban para realizar nuestro trabajo. Había terceros y cuartos códigos para el sexo de las personas, había campos monetarios en direcciones, muchísimos datos en blanco a los que nadie encontraba el menor sentido.
El trabajo que nos daba era tremendo, puesto que era necesario auditar y corregir la calidad de la información, muchas veces con unos clientes que no estaban dispuestos a admitir que, ellos en este aspecto, tuvieran algo que mejorar.
3. Automatización de manera estandarizada
Ahora con la incorporación y creación de esta librería, dicho trabajo se puede automatizar de una manera estandarizada, de manera que todas las correcciones y automatizaciones queden expresadas de un modo parecido a como si fuera una receta de cocina. De ahí el nombre de “recipes”.
Por ejemplo, podemos estandarizar de forma general:
- El convertir todos los datos numéricos en datos numéricos de media cero y desviación típica la unidad o normalización de los datos.
- El quitarnos aquellas variables que apenas presentan variación de los datos. Varianza casi cero.
- El eliminar todas las variables que presentan una alta correlación o que son combinación lineal de otras.
- El estimar por método algorítmicos aquellos valores faltantes que tengamos en los datos. Por ejemplo, el algoritmo de los vecinos más próximos o KNN.
- El convertir variables categóricas en numéricas mediante el procedimiento dummy.
- El convertir variables numéricas en categóricas mediante el procedimiento binning.
- El reducir todas las variables numéricas mediante el procedimiento de las componentes principales o PCA.
Y esto es un solo una muestra, existen más de 50 utilidades diferentes que podemos aplicar de forma sencilla y que, además, podemos comentar en nuestro código fuente de manera que sea transparente para su lectura.
Esta ventaja de utilizar un mismo lenguaje con una misma sintaxis tiene la tremenda ventaja que reduce en mucho el tiempo de aprendizaje para aquellos que nos dedicamos a la enseñanza.
Autor: Pedro José Jiménez, docente del Máster en Big Data y Business Intelligence de EADIC