Las estadísticas están recibiendo mala prensa” de aquellos que no la conocen, o peor aún, la tergiversan. La forma de recolección genera prácticamente la mayoría de los errores” en los datos que procesa la estadística, y la tergiversación de los datos estadísticos produce la totalidad de los errores” en las interpretaciones. Nada de eso tiene que ver con la estadística.
Con tantos cambios y tan rápidos, los censos se vuelven viejos rápidamente y dejan de ser útiles. Para corregirlos se usan encuestas por muestras representativas que debieran construirse con sujetos –llamados elementos muestrales- extraídos del total de la población, que debieran tener la misma probabilidad de ser elegidos, pero eso ocurre pocas veces.
Por cuestiones de costos, se realizan por teléfono fijo, que solo tienen el 40% más rico de la población, por celulares con abono con dueños identificados que no son más del 20% del total, o prepagos que no siempre están activos porque carecen de crédito o no responden, con lo que la condición esencial de la estadística no se cumple.
Otros han recurrido a las redes sociales, que no todos usan con frecuencia y en las que pocos están dispuestos a contestar, por lo que son frecuentes las no respuesta”, que es la medida más importante para medir la calidad de los datos. Sus consecuencias más recordadas fueron los enormes errores en los últimos pronósticos electorales.
En la interpretación de los datos, la semana pasada el Presidente de la Nación criticó las estadísticas, aunque en realidad lo hizo con los promedios –es claro que un abogado no tiene por qué saber estadística-, citando a Bertolt Brecht con el caso de los dos pollos y dos personas, que, en promedio, comen uno cada uno, salvo que uno de ellos coma los dos, con lo que coincido totalmente. Pero también utiliza mucho los datos estadísticos de la pandemia que bien hechos han sido infalibles en los últimos meses.
Es que algunos datos utilizados como única información para interpretar, tienen una carga ideológica indigna de la estadística, pero frecuentemente útil para quien no quiere ver o mostrarlo correctamente, para fundar con evidencia científica” lo que quiere decir de cualquier modo.
El promedio es uno de ellos, porque desconoce la diferencia y dispersión de los datos que es lo más rico de cualquier observación.
También los rankings, que, en base a un solo dato, ordenan de mayor a menor, de mejor a peor, cuando la realidad es mucho más compleja que lo que puede expresar un solo dato, por lo que solo sirven en una ideología de competencia” que en nada sirve para mejorar, sino solamente para abrir grietas que impiden cooperar, que no casualmente es la mejor forma de dominar al pueblo.
Pero entonces. ¿Por qué algunos aciertan y otros no en sus diagnósticos y predicciones? Es simple, los que aciertan buscan datos de registros exhaustivos –o sea todos- y verificables de muertos, internados, infectados, camas, etc. y votantes en donde invierten gran parte de los recursos para garantizar que se analiza una población o una muestra representativa de ella –con igual probabilidad de ser elegida-.
En la interpretación de los datos, algunos comunicadores y medios son afectos a rankings y estadísticas sesgadas –por la muestra elegida, el método de relevamiento y preguntas que inducen a una respuesta- que terminan confirmando lo que quieren decir, sabiendo que ello no responde a la realidad.
Los más prudentes, analizan datos ciertos y verificables, y comparan casos que en su complejidad permiten algunos aprendizajes que van modificando la lectura de la realidad (ver mi nota El teorema de Bayes y la pandemia”, en la edición del 6/4/2021 de HOY DÍA CÓRDOBA) en base a nuevas evidencias que, a su vez, modifican las medidas de políticas públicas.
¿Y entonces, que podemos hacer para identificar las fake news estadísticas? Seguimos unos simples pasos:
1) Descartar toda estadística basada en promedios, sin que se explique la dispersión de datos, o de subgrupos que explican ese promedio;
2) Descartar cualquier ranking basado en una sola variable;
3) Descartar toda encuesta basada en llamados telefónicos, o consultas en web, que no diga cómo se obtuvieron los datos, donde, cuando, por qué medio y con qué preguntas.
Por último es importante señalar que el error estadístico” que se publica es teórico –o sea, sólo si cada elemento de la población tiene la misma probabilidad de ser elegido-, mientras que los errores totales dependen de los errores no muestrales”, que aumentan cuanto más grande es la muestra por no haber respetado ese requisito básico de la estadística, con lo que una muestra más grande es peor que una pequeña.