Como todos sabemos, una regresión es un algoritmo que permite establecer una función algebraica que relaciona unas variables independientes (“x”) como otra dependiente (“y”), y en donde habitualmente se clasifican las regresiones según el tipo de función algebraica que se busca: lineal, parabólica o polinómica en general.
También sabemos que la búsqueda de dicha función se realiza mediante un algoritmo que minimiza el cuadrado de los errores entre la variable observada y la esperada.
Sin embargo, esta postura tan generalista no siempre es la mejor para todas las situaciones que se pueden dar en la realidad, porque las variables pueden “sufrir” diversas circunstancias que hagan que muchas veces el error cuadrático medio no sea el mejor algoritmo a emplear.
Una de dicha circunstancias especiales se da cuando tenemos variables censuradas, es decir, variables en donde a partir de un cierto valor, tenemos una información ocultada por diversas razones. Podría ser una variable de tipo salarial, en donde por ejemplo, a partir de los 40.000 euros anuales, no tuviéramos más información que esa precisamente, que es mayor de 40.000 euros anuales, y sin embargo para cantidades menores, tuviéramos el valor exacto del sueldo.
Si pensamos un poco, emplear el algoritmo del error cuadrático medio, no tiene mucho sentido puesto que desconocemos el valor exacto que tiene la parte de las variables que está censurada, pero en cambio, podemos aplicar como mal menor, el algoritmo de máxima verosimilitud, de manera que elegimos el parámetro para la función que haga más verosímil el haber obtenido la muestra que hemos obtenido.
Lo mismo sucedería si, por ejemplo, sabemos que o bien la variable “y”, o bien una transformada de la variable “y” siguiera una distribución de Poisson, en ese caso, siempre esperaríamos obtener un menor error, por la estimación de máxima verosimilitud, que por la estimación de mínimos cuadrados.
Y esto mismo, es generalizable cuando tengamos cualquier función de distribución que describa o bien a la variable “y” o bien a una transformación algebraica de dicha variable “y”, aunque se trate de variables no censuradas o que no siguieran una distribución de Poisson. Por ejemplo, la famosa regresión logística, también estima sus parámetros por máxima verosimilitud.
Dicha transformación lineal suele ser la exponencial, y es así como la mayor parte de los software están programados, pero más que eso, lo verdaderamente importante que tenemos con este resultado, es que si realizamos una buena estimación paramétrica de la variable “y” según una distribución de probabilidad, podemos ganar mucho en los modelos de regresión que elaboremos, y viendo a su vez, si alguna de las variables “x”, pudiera cumplir esa misma distribución de probabilidad con otros parámetros.
Como es natural, nuestro amigo R está aquí para echarnos una mano.
Veamos un ejemplo de regresión censurada: Queremos estimar el sueldo de los empleados de una empresa cliente nuestra, de los que sólo tenemos los valores exactos para las personas de convenio, mientras que las personas de fuera convenio únicamente sabemos que ganan más de 40.000 euros al año.
Vamos a empezar por hacer una regresión normal, con una estimación por mínimos cuadrados.
En este caso, la regresión es significativa y el coeficiente que tenemos que nos relaciona las compras con el sueldo es de 0,62, siendo también un 62% el coeficiente de R2.
Veamos lo que sucede cuando realizamos una regresión por máxima verosimilitud, indicando que los datos de los sueldos están censurados por encima de los 40.000 euros anuales.
Ahora obtenemos un valor del coeficiente de 0,76, superior al obtenido anteriormente, pero con una diferencia sustancial: En el caso anterior, la información explicada por la regresión era de un 62,23%. Mientras que en este caso, se puede calcular con la ayuda del exponencial de “Intercept 2” y es de un 78,28%.
Esto nos sirve para tener un modelo más rico que el anterior, y con una mejor interpretación del coeficiente de la variable “Compras” que ahora es de 0,76 muy diferente al anterior que era de 0,62, ya que nos dice que el efecto Compras sobre el Sueldo es un 22% superior.
Con ello puede concluirse que la estimación máxima verosimilitud es más precisa y aporta más información al modelo, porque utiliza más información de los datos que la estimación por mínimos cuadrados, ya que en el caso de las regresiones censuradas, ignora estos valores para realizar la operativa.
Esto es debido a lo que se llama eficiencia asintótica, y que significa que los estimadores de máxima verosimilitud son los que menor varianza presentan de todos los estimadores consistentes.
A continuación os dejamos otros artículos relacionados con esta materia:
– Nuestro amigo R: introducción al análisis de redes
– Nuestro amigo R: análisis de supervivencia
– Nuestro amigo R: reglas de asociación
Autor: Pedro José Jiménez, profesor del Máster en Big Data y Business Intelligence