Tuesday, November 13, 2012

Cifras sospechosas con un CVE mayor al 15%

En esta entrada critico las políticas absurdas de algunas entidades oficiales a la hora de reportar las estadísticas oficiales. Después de la crítica hago una serie de recomendaciones para evitar el desgaste de las cifras.


Tal vez me equivoque cuando afirmo que, tal vez, debido a la insistencia de nuestros maestros (de muestreo) en tener un sistema de estadísticas oficiales confiables, apareció una política, en algunas entidades que brindan estadísticas oficiales en Colombia, que consiste en no publicar las cifras que tengan un coeficiente de variación estimado (CVE) mayor al 15%. La razón de lo anterior está basada en la confiabilidad que se debe garantizar en un proceso de publicación de cifras para la toma de decisiones en el sector público.


Cualquier lector externo diría: "qué bien, están garantizando la calidad de las cifras oficiales"… Sin embargo, yo digo: "mmmmm". El coeficiente de variación es una medida que los profesores de muestreo hemos vendido como un indicador de la precisión de las cifras en las encuestas. sin embargo, es deber del maestro (yo lo comencé a hacer este semestre y espero que mis alumnos anteriores lean esto) hacer una aclaración sobre las deficiencias de este indicador. A continuación cito algunas de ellas:




  1.  ¿Tiene sentido un coeficiente de variación negativo? Claro que sí. Cuando la estimación es negativa el CVE también lo es. Por ejemplo, cuando se estiman diferencias, cambios netos, cambios brutos, impactos, etc. ¿Es interpretable un CVE negativo? No, no lo es.

  2. Suponga que la estimación del parámetro es exactamente cero. Para esta configuración, sin importar que tan grande o pequeña sea la varianza, el coeficiente de variación no está definido.

  3. Suponga que la estimación del parámetro de interés es muy cercana a cero. Para esta configuración, sin importar que tan grande o pequeña sea la varianza, el coeficiente de variación será muy grande y no representará la calidad de la estrategia de muestreo.


Específicamente, si se siguiera la política de no reportar la cifra que tenga un CVE mayor al 15%, las estimaciones que tienen una magnitud pequeña (muy cercana a cero) son automáticamente castigadas por este indicador. Incluso si la variabilidad de la cifra es pequeña pequeña (cercana a cero), el coeficiente de variación será gigante. 

Por ejemplo, suponga que un estudio se plantea para estimar la proporción de niños que desertan de las aulas de clase y no vuelven a la escuela. Después de realizar el muestreo, se encontró que la proporción de niños desertores es de P=0.06 con un coeficiente de variación del 25%. Si seguimos la regla del 15%, entonces la cifra no sería publicable.

 Por lo anterior, el CVE no debe ser una medida de calidad de la cifra cuando las estimaciones son negativas o cercanas a cero. No es posible concebir que se adopten políticas de restricciones a las cifras basados en un indicador que no puede ser generalizado para todos los casos. Entonces, ¿qué medida de variabilidad debe adoptarse? En particular a mi gusta muchísimo el intervalo de confianza que envuelve dos medidas de calidad importantes: el error estándar (definido como la raíz cuadrada de la varianza del estimador) y el margen de error (definido como la multiplicación del error estándar por el percentíl adecuado de la distribución del estimador). Con el intervalo de confianza sí se puede decidir si una cifra es confiable o no, y si se procede a la publicación de la misma.


Ahora, en general lo del intervalo de confianza es un poco más engorroso puesto que sería preciso evaluar todas las cifras (una por una) y tomar la decisión después de un estudio juicioso. Entonces, si de generar un proceso automático se trata, el siguiente algoritmo sería una buena opción para que sea incorporado como factor decisivo en la publicación de las cifras oficiales.



Siguiendo con el ejemplo de estudiantes desertores, un CVE del 25%, para una proporción estimada de P=0.06, da como resultado un error estándar de 1.5% (dado por 0.25X0.06=0.015) y un margen de error cercano al 3% (dado por 0.015X1.96=0.029). Por lo tanto el intervalo de confianza de la proporción estaría dado por [3%,9%] (dado por 6%-3% y 6%+3% ) Esas cifras no son despreciables y deberían ser publicadas por cualquier entidad que genere estadísticas oficiales.

1 comment:

  1. Como su exalumno tomo su recomendación!

    Entonces Profe ¿ Es de suma URGENCIA!!! requerir la la tarjeta profesional para el Profesional en Estadístca ?

    Como empleado del sector público y en pro de fortalecerlo considero que SE REQUIERE PERO YA!

    Saludos.

    ReplyDelete