Thursday, March 31, 2011

Técnicas básicas de estimación en dominios VS enfoque de postestratificación (TeachingSampling)


Es cierto, lo he visto. Aquel rumor que corría por las aulas de mi alma mater en las clases de muestreo es cierto. No sólo es un error de estudiantes, es un error sistemático que se presenta en nuestras respetadas instituciones de estadísticas oficiales, en instituciones dedicadas a las encuestas y en auditorías realizadas por expertos estadísticos. No es para alarmarse, hasta las mejores familias tienen problemas, y vaya que la nuestra es una familia peculiar.


Pero no estoy queriendo increpar a nadie ni mucho menos. En este post quiero que mis lectores entiendan que existe una gran precio que se paga al utilizar las técnicas básicas de la estimación en dominios, y de paso profundizar un poco en cuáles son las expresiones correctas de la varianza cuando se trabaja con dominios. De esta forma, ese rumor maluco, será sólo eso, un rumor, y dejara de ser una práctica sistemática en nuestras entidades.


Empecemos por establecer que la varianza del estimador de Horvitz-Thompson para el total de la característica de interés en el dominio U_d, para cualquier diseño de muestreo, es


$latex Var(hat{t}_{dpi})=sumsum_{U_d}Delta_{kl}frac{y_k}{pi_k}frac{y_l}{pi_l}$


Con esta expresión, el estadístico se emociona y para un diseño de muestreo aleatorio simple de tamaño de muestra n para una población de tamaño N, hace analogía de fórmulas y resulta que empieza a realizar cálculos erróneos sobre la anterior expresión. En muchas entidades, se supone erróneamente que para este diseño de muestreo, en particular, la expresión que se debe utilizar para la varianza es


$latex Var_{MAS}(hat{t}_{dpi})=frac{N^2_d}{n_d}(1-frac{n_d}{N_d})S^2_{yU_d}$


Pues bien, la anterior expresión es equivocada. En primer lugar, el hecho de que la doble suma esté definida sobre U_d, no significa que se deba utilizar la misma fórmula del muestreo aleatorio simple. Además, las probabilidades de inclusión de primer orden, de segundo orden y la covarianza de las variables indicadoras conservan sus mismas expresiones que en muestreo aleatorio simple de una población de tamaño N y con una muestra de tamaño n. Al utilizar la anterior expresión, se supondría que se planeó un diseño de muestreo aleatorio simple de tamaño de muestra n_d para una población de tamaño N_d. La verdadera expresión para el cálculo de esta varianza debe ser la siguiente:


$latex Var_{MAS}(hat{t}_{dpi})=frac{N^2}{n}(1-frac{n}{N})S^2_{y_dU}$


En principio hay varias diferencias entre las dos expresiones: en primer lugar lugar es obvio que N_d y N no son semejante; de la misma manera n_d y n tampoco lo son. La expresión $latex S^2_{yU_d}$ implica una cuasi-varianza entre los valores de la característica de interés únicamente en el dominio U_d. Por otro lado, $latex S^2_{y_dU}$, implica una cuasi-varianza entre los valores de la característica de interés en el dominio U_d y muchos ceros para los individuos de la muestra que no pertenezcan al dominio U_d. Obviamente, esta última expresión verdadera arroja cifras más grandes y al momento de calcular los coeficientes de variación, estos serán también muy grandes.


No estoy diciendo que la fórmula $latex Var_{MAS}(hat{t}_{dpi})=frac{N^2_d}{n_d}(1-frac{n_d}{N_d})S^2_{yU_d}$ no se pueda utilizar nunca. En efecto, sólo cuando se conoce el tamaño absoluto del dominio, N_d, y se controla el tamaño de la muestra del mismo, n_d, se puede utilizar. Esta situación sería similar a una estratificación. Sin embargo, el control del tamaño de muestra en el dominio, n_d, no siempre se tiene en la práctica. Lo anterior tampoco implica que estemos supeditados a utilizar siempre la fórmula $latex Var_{MAS}(hat{t}_{dpi})=frac{N^2}{n}(1-frac{n}{N})S^2_{y_dU}$ que arroja grandes coeficientes de variación. De hecho, cuando se trabaja con dominios, es posible reducir la varianza sin tener que controlar el tamaño de muestra n_d. Para eso, se utiliza un enfoque de post-estratificación, en donde se requiere el conocimiento de los tamaños absolutos de los dominios, N_d, que fácilmente pueden ser obtenidos mediante registros administrativos confiables. De esta manera, la expresión genérica de la varianza (aproximada por la linealización de Taylor) del estimador de postestratificación es la siguiente:


$latex AVar(tilde{t}_{d})=sumsum_{U_d}Delta_{kl}frac{y_k-bar{y}_{U_d}}{pi_k}frac{y_l-bar{y}_{U_d}}{pi_l}$


La cual, bajo un diseño de muestreo aleatorio simple, toma la siguiente forma:

$latex AVar_{MAS}(tilde{t}_{d})=frac{N^2}{n}(1-frac{n}{N}) S^2_{yU_d}$


Nótese que, si bien se siguen manteniendo las cantidades N y n, la cuasi-varianza sólo está supeditada a los valores de la característica de interés únicamente en el dominio U_d. Lo cual implica una gran reducción en términos de la varianza. A continuación ilustro esta situación con ayuda de las bases de datos Marco & Lucy, del paquete TeachingSampling. En primer lugar se selecciona una muestra aleatoria simple:





> data(Marco)
> data(Lucy)

> N <- dim(Marco)[1]
> n <- 400
> Pik<-rep(n/N,n)
> sam <- S.SI(N,n)
> data <- Lucy[sam,]
> attach(data)



Luego, se utiliza la función Domains para crear los dominios de interés como una matriz de variables indicadoras. Tantas columnas como dominios exista. Al multiplicarlas por las características de interés en la muestra, se obtiene una matriz de ceros, para los elementos que no pertenecen al dominio, y de valores, para los que sí pertenecen al dominio.





> Doma <- Domains(SPAM)
> estima <- data.frame(Income, Employees, Taxes)
> SPAM.no <- estima*Doma[,1]
> SPAM.yes <- estima*Doma[,2]



Las estimaciones para los dominios de interés cuentan con un coeficiente de variación estimado del orden del 7 % hasta el 11%, en el dominio SPAM.NO y del orden del 5% al 9% en el otro dominio.





> E.SI(N,n,SPAM.no)
Income Employees Taxes
Estimation 3.799757e+05 5.721648e+04 1.094673e+04
Variance 8.821093e+08 1.691118e+07 1.647727e+06
CVE 7.816376e+00 7.187301e+00 1.172623e+01

> E.SI(N,n,SPAM.yes)
Income Employees Taxes
Estimation 6.166226e+05 9.045499e+04 1.655636e+04
Variance 1.013343e+09 1.786384e+07 2.540981e+06
CVE 5.162485e+00 4.672560e+00 9.627995e+00



Por supuesto que al sumar las estimaciones se tendrá el total estimado de la población y el coeficiente de variación se reduce.





> E.SI(N,n,estima)
Income Employees Taxes
Estimation 9.965982e+05 1.476715e+05 2.750309e+04
Variance 9.170756e+08 1.316354e+07 3.431910e+06
CVE 3.038662e+00 2.456913e+00 6.735759e+00



Si utilizamos el estimador de postestratificación en cada dominio, se obtienen mejores estimaciones de los coeficientes de variación.





> estima<-Doma*Income
> tx <- c(937, 1459)
> b <- E.Beta(estima,Doma,Pik,ck=1,b0=FALSE)
> GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE)
no yes
Estimation 4.099213e+05 5.889897e+05
Variance 3.519767e+08 5.619366e+08
CVE 4.576742e+00 4.024723e+00

> estima<-Doma*Employees
> tx <- c(937, 1459)
> b <- E.Beta(estima,Doma,Pik,ck=1,b0=FALSE)
> GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE)
no yes
Estimation 6.172568e+04 8.640141e+04
Variance 4.890882e+06 8.149935e+06
CVE 3.582842e+00 3.304123e+00

> estima<-Doma*Taxes
> tx <- c(937, 1459)
> b <- E.Beta(estima,Doma,Pik,ck=1,b0=FALSE)
> GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE)
no yes
Estimation 1.180943e+04 1.581442e+04
Variance 1.207738e+06 2.215550e+06
CVE 9.305880e+00 9.412124e+00



Las estimaciones para los dominios de interés cuentan con un coeficiente de variación estimado del orden del 3 % hasta el 9%, en el dominio SPAM.NO y del orden del 3% al 9% en el otro dominio. Lo anterior representa una pérdida significativa en la magnitud de los coeficientes de variación. Por supuesto, al sumar, obtenemos las estimaciones poblacionales con coeficientes de variación mucho menores.





> GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE)
Income Employees Taxes
Estimation 9.989111e+05 1.481271e+05 2.762385e+04
Variance 9.139133e+08 1.304082e+07 3.423289e+06
CVE 3.026395e+00 2.437911e+00 6.697884e+00


No comments:

Post a Comment