Friday, February 1, 2013

Publicando cifras con CVE mayor al 15% (la técnica de la transformación logit)

Empieza este nuevo año y asimismo la actividad bloguera. Quiero retomar un tema que había generado controversia el año pasado. A grandes rasgos, un par de personas me preguntaban acerca de qué hacer con los estimativos que tienen un coeficiente de variación (definido como el error estándar sobre el valor del estimativo) mayor al 15%. En términos generales, las directrices de algunas agencias que brindan estadísticas oficiales en Colombia y en América Latina van en la dirección de omitir la cifra y no publicarla.


En el último post de este tema habíamos concluido que el mejor indicativo era el intervalo de confianza y con algún ejemplo, mostramos que en realidad hay estimativos de proporciones pequeñas que tienen un error estándar pequeño, pero un coeficiente de variación muy elevado (mayor al 15%) y por lo tanto, la cifra – aunque buena - no era publicada. Creo que lo anterior sucede por tratar de automatizar los procesos antes de tener una estructura mental muy clara de lo que se quiere. En esta entrada voy a referirme a un algoritmo que se utiliza, entre otras encuestas, en la National Household Survey on Drug Abuse en EE.UU. en sus procesos de publicación de cifras.


Como se discutió anteriormente, cuando los estimativos son pequeños - en particular en proporciones, razones y tasas – se generan coeficientes de variación muy grandes que realmente no describen con efectividad el nivel de precisión de la cifra. Es más, cuando la proporción estimada (notada como $latex hat{p}$) es cercana a cero o a uno, los intervalos de confianza podrían contener cifras negativas o mayores a uno, que por supuesto no tendrían sentido lógico. Cuando se presenta esta situación, es mejor optar por una transformación de los límites de confianza. Esta transformación está definida como


$latex hat{L}=ln (hat{p}/1-hat{p})=logit(hat{p})$


Luego, haciendo uso de la aproximación de Taylor de primer orden en el punto $latex p$, se tiene que


$latex hat{L}approx L(p) + frac{partial L}{partial hat{p}}(hat{p}-p)$


En donde $latex frac{partial hat{L}}{partial hat{p}}$ corresponde a la derivada de L con respecto a $latex p$ y $latex L=logit(p)$. Por lo tanto, la varianza aproximada de $latex hat{L}$ estará dada por


$latex AVar(hat{L})=(frac{partial hat{L}}{partial hat{p}})^2Var(hat{p})=frac{1}{(1-p)^2}Var(hat{p})$


Entonces, un intervalo de confianza aproximado para $latex L$ estará dado por:


$latex (A,B)$


En donde,


$latex A=hat{L}-Z frac{sqrt{Var(hat{p})}}{hat{p}(1-hat{p})}$


$latex B=hat{L}+Z frac{sqrt{Var(hat{p})}}{hat{p}(1-hat{p})}$


En donde $latex Z$ representa el percentil de la distribución normal estándar escogido para satisfacer los niveles de confianza escogido en el estudio (que muchas veces se toma como Z=1.64 para un 90% de confianza). Finalmente, teniendo en cuenta que


$latex p = frac{exp(L)}{1+exp(L)}$


Entonces, se obtienen los nuevos límites del intervalo de confianza aproximado para $latex p$ al tomar la inversa de la función logit:


$latex A^* = frac{exp(A)}{1+exp(A)}$


$latex B^*=frac{exp(B)}{1+exp(B)}$


En donde $latex A^*$ denota el límite inferior y $latex B^*$ denota el límite superior del intervalo de confianza. Es decir, el nuevo intervalo de confianza para $latex p$ será $latex (A^*, B^*)$


Lo anterior resuelve el problema de los intervalos de confianza para proporciones con valores negativos para el límite inferior. Debe notarse que este intervalo de confianza no es simétrico. Ahora, el criterio utilizado para la publicación o eliminación de la cifra está basado en el CVE de $latex -ln(hat{p})$:


$latex CVE(-ln(hat{p}))=frac{sqrt{Var(-ln(hat{p}))}}{-ln(hat{p})}=frac{sqrt{Var(hat{p})/hat{p}^2}}{-ln(hat{p})}= CVE(hat{p})/-ln(hat{p})$


Nótese que, una vez más utilizando la aproximación de Taylor de primer orden, $latex Var(-ln(hat{p}))= Var(hat{p})/hat{p}^2$. Por lo tanto, la nueva regla de decisión estará dada en términos de este nuevo criterio. En general, si el umbral de eliminación de la cifra es 15%, entonces la cifra no se publica si el nuevo CVE es mayor al 15%.


A continuación se presenta un ejemplo, para una población de tamaño N=un millón con una muestral aleatoria simple de tamaño n=mil, en donde la proporción estimada es del 0.10% y el intervalo de confianza clásico está dado por (-0.10%, 0.30%). Aún más, el CVE es del 99.70%, razón por la cual la cifra no sería publicable (según el criterio que afirma que si el CVE es mayor al 15%, entonces la cifra no se publica). Sin embargo, en esta misma situación, utilizando la transformación logit, el intervalo de confianza estaría dado por (0.01%, 0.71%) y el CVE es de 14.5%, y por lo tanto la cifra sí debería publicarse.


Aún más, este enfoque representa una excelente aproximación al enfoque clásico cuando las proporciones estimadas no son pequeñas. Por ejemplo, para la misma población del ejemplo anterior, con una proporción estimada del 30%, el intervalo de confianza clásico es de (27.16%, 32.84%) con un CVE de 4.83%. Utilizando la transformación logit, el intervalo de confianza estaría dado por (27.24%, 32.91%) y el CVE es de 4.01%. Haciendo clic acá pueden descargar una hoja de Excel para verificar las anteriores cantidades.


Por último, insto a las diferentes instancias técnicas en América Latina a utilizar enfoques como este, con el fin de no malgastar los recursos públicos. Si se siguen utilizando reglas de eliminación de cifras que tienen en cuenta el CVE clásico, entonces nos quedaremos siempre sin cifras pequeñas que, en realidad, si deberían ser publicadas.

No comments:

Post a Comment