El objetivo primordial del análisis de la dependencia es el empezar a determinar esas relaciones para comenzar a conocer nuestros datos.
Cuando terminamos de explorar las variables una a una y de conocer cómo se centran, se dispersan y se distribuyen sus datos, tenemos que empezar con el análisis de la relaciones entre variables.
Es el siguiente paso que nos sirve para empezar a conocer si tenemos variables redundantes, o sea, que tienen la misma información, o si tenemos variables irrelevantes con el objetivo que deseamos conseguir, y que por lo tanto deben ser eliminadas de nuestro estudio, o si tenemos cualquier otro tipo de relación, generalmente lineal, entre unas variables y otras.
El procedimiento para hacerlo puede ser variado y lo vamos a exponer brevemente.
-
- Si tenemos dos variables categóricas, hacemos un test chi-2, para ver si las frecuencias observadas se corresponden con las frecuencias esperadas. Por ejemplo, en las compras de un supermercado si los clientes que han comprado pañales, han comprado también cervezas. Y en donde podemos jugar también con las reglas de asociación y los conceptos de soporte, confianza y lift.
- Si tenemos dos variables numéricas, tenemos que recurrir al concepto de correlación y ver la relación lineal entre ellas. Esta correlación es también llamada de Pearson, y no hay que confundirla con la de Spearman y Kendall en donde puede apreciarse relaciones no lineales, y que puede ser utilizadas para medir el grado de asociación entre variables ordinales.
- Si lo que tenemos es una variable categórica y otra variable numérica, debemos utilizar un ANOVA que nos diga si un cambio en el valor de la variable categórica tiene un efecto significativo en la media de los valores de las variables numéricas. Y en este caso si queremos probar que el efecto es debido a la presencia o ausencia de otra variable podemos realizar un ANCOVA.
- Cuando deseamos establecer la relación de una variable objetivo con varias variables que suponemos causales, podemos realizar también algún tipo de técnica de reducción de variables como los componentes principales, y ver la correlación de Pearson con los componentes generados, teniendo en cuenta que todos ellos son independientes entre sí.
Podemos utilizar varios paquetes informáticos que también comentamos por si el lector desea utilizarlos.
-
-
- En el caso de Excel, algunos tipos de correlaciones ya vienen programadas en forma de función como es el caso del coeficiente de Pearson, al que llama genéricamente coeficiente de correlación. También se puede utilizar el add-ins de «análisis de datos» en donde viene también la posibilidad de hacer un ANOVA. Los demás tests estadísticos como los de Spearman, Kendall y el de la chi2, requieren de un pequeña programación por celdas, no muy complicada.
- El caso de R podemos utilizar la librería Rcmdr que es una GUI, en donde tenemos las mismas opciones que en Excel, si bien nos lo ofrece como un test de hipótesis, por si estamos trabajando con datos muestrales en vez de con datos poblacionales. Si vamos a programar directamente con R, tenemos la orden cor.test que nos sirve para realizar cualquier tipo de correlación.
-
Nuestra recomendación es usar aquel que sea más cómodo, informáticamente hablando, para el trabajo que estemos realizando aunque, como matemático, siempre nos decantamos más por R que por Excel, por el mayor número de opciones previamente programadas que ofrece, y en donde podemos utilizar algoritmos basados en reglas de asociación, para conocer con mayor detalle las relaciones entre distintos valores. Algoritmo que, también podemos usar con variables numéricas, si hacemos una transformación de las variables para que sean categóricas.
A nivel profesional y a la hora de presentar los datos a un cliente para poder elevar recomendaciones, creemos que R permite realizar un análisis de la dependencia mucho más exhaustivo que Excel.
Autor: Pedro José Jiménez, profesor del Máster en Big Data y Business Intelligence