Wednesday, April 18, 2012

Inferencia doble cuando se analizan datos de muestras complejas que suponen un modelo poblacional

Ya estoy harto de repetirlo: si los datos provienen de encuestas complejas, debe incorporar el diseño de muestreo al análisis inferencial que se quiera realizar… Es la frase que más repito en mis clases. Sin embargo, esta bonita profesión de profesor me obliga a repetirlo hasta el cansancio. Esta entrada es para todos aquellos inquietos por la estadística, va para los amantes del muestreo y también para los críticos del muestreo. Lo cierto es que espero con esta entrada espero contar muy bien la historia y al final, espero que los muestristas tengan un mayor aprecio por los modelos y los que los críticos del muestreo reconozcan el valor del mismo en los procesos de inferencia. Con una réplica del ejemplo que David Binder utiliza en un artículo del año 2011 (una excelente lectura para quienes ha seguido el trabajo de Ken Brewer), voy a desarrollar mis ideas y voy a introducir algunos conceptos que son de utilidad. Finalmente, todos los resultados los voy a plasmar en simulaciones de Monte Carlo, algunas veces anidadas.


Suponga que se generaron N=100 realizaciones de variables aleatorias independientes distribuidas Bernoulli con parámetro θ=0.3. Los datos que se obtienen se muestran a continuación:


1 1 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 1 0 0 0 1 1 0 0 0 1 1 0 0 1 0 0 0 1 0 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0


En esta población finita, que fue generada a partir de un modelo probabilístico, hay 28 éxitos.

Primer proceso inferencial: el modelo


En este apartado, es notable que la medida de probabilidad que rige la inferencia hasta el momento sea la inducida por la distribución Binomial con parámetro 0.3. De esta manera, el estimador insesgado de mínima varianza (todas estas propiedades obtenidas con base en la distribución binomial) está dado por el promedio poblacional. Por supuesto, aunque la realización del promedio poblacional en la población del ejemplo es $latex bar{Y}_U=0.28$, se comprueba fácilmente que la esperanza del promedio poblacional es $latex E(bar{Y}_U)=0.3$. Nótese que la inferencia utiliza todos los datos de la población. Ahora, para reproducirlo computacionalmente, basta con simular hartas poblaciones de 100 variables aleatorias independientes distribuidas Bernoulli con parámetro desconocido θ=0.3. El siguiente esquema trata de reproducir gráficamente este proceso de inferencia, en donde un gran número de poblaciones podrían haber sido obtenidas bajo el modelo.



Con la siguiente simulación de Monte Carlo se tiene un aceramiento al insesgamiento de $latex bar{Y}_U$:
> theta 
[1] 0.3 
> Esp0 
[1] 0.30046

 

Segundo proceso inferencial: el muestreo


En el primer proceso inferencial, se asume que las variables de estudio son realizaciones de variables aleatorias gobernadas por un modelo probabilístico. Sin embargo, un razonamiento muy válido es que en cualquier población finita en particular, los valores de la medición son fijos aunque desconocidos y no siguen ningún modelo probabilístico; es decir no corresponden a realizaciones de variables aleatorias. Por ejemplo, a la hora de estimar la tasa de desempleo, se considera que si un individuo está desempleado, pues está desempleado y punto. En otras palabras, el estado de la naturaleza del individuo al momento de la medición es "desempleado" y esta caracterización no corresponde a ninguna realización de algún evento aleatorio. Es por esto que una vertiente de la inferencia en poblaciones finitas considera que el parámetro de interés será el número total de personas desempleadas dividido por el número total de personas en la fuerza laboral. Si se tuviese la oportunidad de medir a todos los integrantes de la fuerza laboral, mediante la realización de un censo, pues esa división correspondería al parámetro poblacional con el cual se tomarían decisiones y/o se cambiarían o reforzarían las políticas públicas de un país.


Para reforzar esta idea haga lo siguiente: examine una moneda y obsérvela. Suponga que usted está observando la cara (o sello, da igual) de la moneda. Pues bien, le tengo una noticia: esa cara (o sello) no constituye una realización de una variable aleatoria. Para que se pueda hablar de una variable aleatoria, es necesario realizar un experimento, el cual induce el conjunto de todos los posibles resultados, el cual a su vez induce una sigma-álgebra que define a la variable aleatoria. Sería muy diferente si usted crea un experimento con esa moneda. El más sencillo de todos sería lanzarla al aire y observar si la moneda cayó en cara o sello. De forma similar, es muy válido afirmar que el estado de la naturaleza de un individuo que está desempleado no constituye una realización de una variable aleatoria.


Por ejemplo, suponga que para esa misma población del ejemplo anterior el dato uno corresponde a un individuo desempleado y el dato cero corresponde a un individuo empleado. De esta manera, el parámetro de interés es $latex theta_N=bar{Y}_U=0.28$. Por otra parte, asuma que la población está subdividida en conglomerados, que pueden ser llamados hogares. De esta forma, nuestra población finita toma la siguiente caracterización, mediante una partición de NI=27 hogares:


(1 1 0) (1 0) (0 0 0 0 0 0 1) (1 0) (0 0 0 0 0 0 1) (0 0 1) (0 0 0 0 0 0 0 1) (0 0 1) (0 0 0 1) (0 0 0 0 1) (0 0 0 0 0 0 0 1) (1 0) (1 0) (0 0 1) (1 0) (0 0 1) (1 0) (0 1) (0 0 0 1) (0 0 1) (1 1 0) (0 0 0 0 1) (0 1) (0 1) (0 0 0 0 0 0 0 0 0 1) (0 1) (0)


El proceso de aglomeración en hogares es obviamente artificioso en este ejemplo, pero ilustra que en la vida real las poblaciones finitas siempre están aglomeradas. Suponga por otra parte que tomamos una muestra de nI hogares y en cada hogar seleccionado realizamos un censo; además la selección de los hogares se hará aleatoriamente, sin reemplazo y con probabilidades de inclusión proporcionales al tamaño del hogar Ni. Siendo la característica de interés yi el estado del individuo en la fuerza laboral (1, si está desempleado y 0, en otro caso), entonces es bien sabido que bajo este esquema de muestreo un estimador insesgado para la proporción de desempleados es el siguiente:


$latex bar{Y}_S=frac{sum_i bar{y}_i}{nI}$


En donde $latex bar{y}_i=t_{y_i}/N_i$ es la proporción de desempleados en el hogar i-ésimo, $latex t_{y_i}$ es el total de desempleados en el hogar i, Ni es el número de individuos en el hogar i y nI es el número de hogares seleccionados. Por otro lado, un estimador ingenuo, que asume que el agrupamiento de los valores no interfiere en el proceso de inferencia e ignora el diseño de muestreo es el siguiente:


$latex bar{Y}_S^*=frac{sum_i t_{y_i}}{sum_i n_i}$


Que corresponde a la proporción general de desempleados en la muestra. En términos generales el siguiente esquema trata de reproducir gráficamente este proceso de inferencia, en donde un gran número de muestras podrían haber sido extraídas siguiendo el diseño de muestreo.



Con la siguiente simulación de Monte Carlo se comprueba fácilmente que $latex bar{Y}_S$ es insesgado, mientras que es $latex bar{Y}_S^*$ sesgado:
> theta_N
[1] 0.28
> Esp1
[1] 0.2827724
> Esp2
[1] 0.10941

Nótese que el primer estimador es insesgado (su esperanza equivale al parámetro de la población finita) porque es función del inverso de la probabilidad de inclusión de los elementos que son inducidas por la medida de probabilidad definida por el plan de muestreo. El segundo estimador es sesgado porque no tiene en cuenta el diseño de muestreo.


Inferencia doble: los modelos y el muestreo


En último lugar, suponga que los valores de las variables de interés sí constituyen realizaciones de variables aleatorias que siguen un modelo probabilístico. Ahora, una población finita está constituida por la realización particular de las variables aleatorias. Ahora, condicionado a la realización de una población finita, se extrae una muestra aleatoria de elementos, mediante un diseño de muestreo complejo. Nótese que en este tercer proceso inferencial, tanto el modelo como el diseño de muestreo constituyen dos medidas de probabilidad distintas que deben regir la inferencia del parámetro de interés.


Al respecto, nótese que, dado que el diseño de muestreo es complejo, no es viable utilizar técnicas clásicas, como el método de máxima verosimilitud, puesto que los datos finales no constituyen una muestra aleatoria de variables independientes ni idénticamente distribuidas. Po lo anterior, la forma final de la función de verosimilitud, definida como la densidad conjunta de las variables en la muestra, será muy compleja, intratable e insoluble.


Una solución a este problema de estimación es la técnica de máxima pseudo-verosimilitud, la cual induce estimadores que tienen en cuenta las ponderaciones del diseño de muestreo complejo. Para el ejemplo de las proporciones, el estimador $latex bar{Y}_S$ resulta ser el estimador de máxima pseudo-verosimilitud, el cual cumple la siguiente relación:


$latex E_{xi p}(bar{Y}_S)=E_{xi}E_p(bar{Y}_S|Y)=E_{xi}(bar{Y}_U)=theta=0.3$


Por otro lado, otro estimador insesgado para el parámetro de interés es el promedio poblacional, pero dado que sólo tenemos una muestra aleatoria, no es posible calcularlo. Ahora, el estimador ingenuo, , es sesgado puesto que:


$latex E_{xi p}(bar{Y}_S^*)=E_{xi}E_p(bar{Y}_S^*|Y) neq theta$


El siguiente esquema trata de reproducir gráficamente este proceso de inferencia doble, en donde un gran número poblaciones podrían haber sido generadas del modelo y a su vez, para cada una de estas, un gran número de muestras podrían haber sido extraídas siguiendo el diseño de muestreo complejo.



Con la siguiente simulación de Monte Carlo se comprueba fácilmente que $latex bar{Y}_S$ es insesgado, mientras que es $latex bar{Y}_S^*$ sesgado:
> theta
[1] 0.30
> mean(Esp1)
[1] 0.3093036
> mean(Esp2)
[1] 0.1160646
> mean(Esp0)
[1] 0.29754

Por supuesto que, dado que el proceso de inferencia es doble, entonces este ejercicio de Monte Carlo debe ser anidado. Es decir, muchas simulaciones dentro de una simulación. Nótese que en primer lugar se debe generar todas las poblaciones finitas y para cada una de ellas se debe generar las posibles muestras.

No comments:

Post a Comment