Siempre se ha dicho que la razón fundamental por la que se hacen muestreos y estimaciones es por economía de recursos, ya que en muchos casos no es posible acceder a toda la población a un coste asequible. El inconveniente que presenta esta forma de trabajar es que se tiene que trabajar con estimaciones, intervalos de confianza, p-values y test de hipótesis, que si bien tienen su base matemática, tienen la desventaja de que no son exactos del todo.
Para algunos, la aparición de la tecnología Big Data viene a intentar “solucionar” este problema, trabajando con datos poblacionales exclusivamente, y no tratando otra estadística que la descriptiva, que es lo que dicen que realizan empresas como Google, Amazon o Facebook. La razón es también económica, el precio de los ordenadores ha bajado tanto que ahora es posible tener un potente procesamiento en paralelo, que haga que el riesgo que se corre al realizar estadística inferencial, no merezca la pena.
Con esto no quiero pronosticar la muerte de los test de hipótesis, pero subrayar que está surgiendo una nueva forma de trabajar, en la que lo importante es la velocidad de procesamiento de datos, siempre de forma descriptiva, para poder tomar decisiones en tiempo real de forma segura.
La corriente que está surgiendo valora ante todo el beneficio que puede reportar una correcta toma de decisiones, y hace que tanto la informática como las matemáticas aplicadas al Big Data sirvan a ese objetivo máximo. La informática con los procesamientos en paralelos y los Map-Reduce, y las matemáticas con la aparición de nuevos softwares de gráficos interactivo y de nuevos modelos básicamente visuales de minería de datos.
Contra esto, no tengo nada en contra, pero a mi juicio, se cae en el error de que ver a la estadística como una herramienta exclusivamente descriptiva, es verla de forma muy parcial, porque su objetivo no es otro que la generación de conocimiento, empleando a veces su parte descriptiva, a veces su parte inferencial.
La tecnología Big Data trae a mi juicio, un importantísimo avance a la hora de procesar datos a una velocidad hasta ahora desconocida, que facilita mucho el trabajo del analista, pero por mucho que nos digan, nunca podrá trabajar con todos los datos necesarios en un problema y siempre tendrá que realizar test de hipótesis para crear conocimiento. Es decir, aumenta el volumen de datos, aumenta la complejidad, pero no cambia, la manera crítica de abordarlo.
Nate Silver, en su famoso libro, la señal y el ruido, subraya la paradoja de que cuánta más información se tiene, más información basura se tiene también, y de que por lo tanto, se incrementa así el riesgo de equivocarse tomando decisiones en tiempo real y que, por ejemplo, realizar inferencias en tiempo real, según las opiniones de las redes sociales, es uno de las labores con más probabilidad de fracaso.
De un modo o de otro, las matemáticas clásicas tienen una absoluta vigencia a la hora de ser aplicadas al Big Data y que, independientemente del márketing de la recurrente revolución digital que quieren vendernos todos los años, tienen unos cimientos firmes y sólidos, sobre los que poder basar la creación del conocimiento científico para la toma de decisiones.
Y es esa exigencia, de la pureza del método científico, es la que tiene que tener el data scientist para consigo mismo, para reírse cuando en una entrevista de trabajo, le pregunten por el volumen de datos que ha manejado, porque lo que de verdad importante es el beneficio que dan sus recomendaciones.
Autor: Pedro José Jiménez, profesor del Máster en Big Data y Business Intelligence