Monday, April 22, 2013

Un gran error: utilizar Excel para realizar análisis estadísticos

NewImage

Hace poco leí una discusión que debo traer a colación en este espacio. Lo hago porque sé que muchos de nosotros utilizamos hojas de cálculo para realizar nuestros análisis estadísticos. Aunque el título de la entrada se refiere a MS Excel, usted también puede caer en este error si usa hojas de cálculo en programas estadísticos más sofisticados como Minitab, SPSS, StatGraphics, entre otros.


Sin embargo, el estadístico que utiliza MS Excel está cometiendo, quizás sin saberlo, un gran error puesto que se ha mostrado (acá y acá) que MS Excel no arroja estimaciones correctas para algunos modelos estadísticos. En particular, el NIS (National Institute of Standards and Technology) provee varios conjuntos de datos para que los analistas de información estadística corroboren que sus modelos y sus herramientas están calibrados y por ende, el proceso de estimación e inferencia se correcto. En algunos modelos de regresión nolineal, entre otros, el desempeño de MS Excel no es el mejor. 


Ahora, los usuarios de hojas de cálculo en MS Excel, o en cualquier otro software estadístico, deben saber que existen políticas de análisis estandarizadas, como las normas ISO, entre otras, que propenden por el buen uso de los modelos estadísticos. Entre estas características están la reproducibilidad (replicar o reproducir un análisis por cualquier persona ajena al estudio) de los resultados obtenidos y la trazabilidad (serie de procedimientos que permiten seguir  el proceso de evolución de un producto en cada una de sus etapas). Es decir que, aunque el software sea correcto en sus estimaciones, se debe garantizar las anteriores características, lo cual es imposible a no ser que el error humano sea minimizado. 


Por lo anterior, si en su empresa o institución usted quiere cumplir a satisfacción con los estándares internacionales de análisis de datos, es menester que empiece a documentar todos sus procesos con la utilización de sintaxis estadística que le permita reproducir sus análisis repetidas veces y obtener siempre los mismos resultados. 


Esto es fundamental, por ejemplo, en el sector de evaluación de políticas públicas, en donde todo debería estar documentado. Hace algunos años, como asesor del gobierno en temas de muestreo, me enfrenté a una situación parecida. El consultor privado, había seleccionado una muestra, a mi juicio no probabilística (puesto que algunos municipios del país sospechosamente había ya sido seleccionados en varios ejercicios anteriores), aunque él declaraba que en efecto era probabilística. Yo requerí que por favor me enviase los códigos computacionales que había utilizado para inducir esa muestra. La respuesta del consultor: "no tengo el código". Además de sospechoso, todo el asunto culminó con una política interna en donde se exige que el consultor, no sólo socialice los códigos de los análisis estadísticos (como regresiones, método multivariados, etc.) sino que, sustente incluso la selección de una muestra.


Por último, como un ejemplo actual de esta problemática, tenemos a dos reconocidos investigadores de Harvard, Reinhart y Rogoff (este último en la foto del encabezado de esta entrada), que utilizaron hojas de cálculo para sustentar una teoría económica de austeridad que ha impactado todo el mundo occidental. Ellos concluyeron en 2010, con ayuda de MS Excel, que cuando la deuda de un país alcanza el 90% de su producto interno bruto, el crecimiento económico decrece significativamente. Tiempo después, un estudiante los desmintió y esto ha generado una respuesta mediática bastante grande.


¡Piénselo dos veces cuando abra el MS Excel! No quisiera usted estar en los zapatos desacreditados de estos dos investigadores que ahora, andan dando entrevistas de porqué sí o porqué no omitieron en el análisis algunos datos.

3 comments:

  1. Muy buen artículo. Buen dato, lo tendré muy en cuenta.

    ReplyDelete
  2. En primer lugar, se debe plantear qué se entiende por Análisis Estadístico, y hasta qué aspecto se desea llegar.
    Por supuesto es conocido que el MS Excel NO ES UN SOFTWARE ESTADÍSTICO, aunque posea una serie de herramientas, que yo denominaría de procesamientos elementales de estadística, con los cuales se pueden obtener resultados que, en dependencia de los conocimientos que se posea de aspectos tales como la Estadística Superior, Econometría,etc., así como de las facilidades y conocimientos del usuario de dicho software para la preparación de hojas de cálculo, se pueden obtener buenos resultados.
    Es cierto además que, por ejemplo, no se pueden realizar, de forma directa, análisis de residuos, para obtener por ejemplo un conocimiento acerca de características de las series tales como la homocedasticidad, ni tampoco realizar análisis de discriminantes, etc.
    Sin embargo, hay aspectos mencionados que TIENEN QUE SER CUMPLIDOS EN CUALQUIER INVESTIGACIÓN QUE SE PRECIE DE TAL, y que, incluso en publicaciones muy serias, no es posible cumplir porque el autor o los autores no brindan suficientes elementos para lograr estos objetivos.
    Y me refiero específicamente, y cito: "entre estas características están la REPRODUCIBILIDAD (replicar o reproducir un análisis por cualquier persona ajena al estudio) de los resultados obtenidos y la TRAZABILIDAD (serie de procedimientos que permiten seguir el proceso de evolución de un producto en cada una de sus etapas).
    Con respecto a otros softwares que se mencionan hay que considerar que pocos paquetes estadísticos pueden incorporar TODAS LAS PRUEBAS ESTADÍSTICAS QUE SE RECOMIENDAN POR ORGANISMOS COMO EL CITADO "National Institute of Standards and Technology".
    Pienso, por lo tanto, que no se deben absolutizar criterios, sin dejar de reconocer, que en muchísimas ocasiones se encuentran resultados que aparentemente son excelentes por la facilidad del autor o autores de "DORAR LA PÍLDORA" y cuando se profundiza solo un poco, no son tan buenos, e incluso en muchas de esas ocasiones, se pueden calificar de MEDIOCRES.

    MUCHISIMAS GRACIAS

    ReplyDelete
  3. Me parece que se están confundiendo dos conceptos diferentes: una cosa es el medio o instrumento a través del cual se realiza un acción, en este caso una hoja electrónica para análisis estadístico, y otra es la forma en que este se utiliza. Como con cualquier herramienta, existen buenas prácticas y procedimientos de uso que, si se siguen adecuadamente, permiten desarrollar todo el potencial que el instrumento posee. No se puede negar que por la naturaleza las hojas de cálculo tienen limitaciones por la flexibilidad y ductilidad que poseen, que a su vez son el origen de muchas de sus ventajas y potencialidades, y también que para muchos análisis de cierta complejidad existen herramientas especializadas. No obstante, para una gran gama de análisis de datos, modelos y simulaciones de negocio, las hojas electrónicas representan un medio sumamente útil y poderoso, sobre todo cuando este es complementado con las herramientas de programación con que muchas de ellas cuentan, que expanden exponencialmente su potencial.

    Gracias.

    ReplyDelete