miércoles, 8 de agosto de 2018

Calibración de personas en encuestas de hogares

A la hora de analizar encuestas de hogares, uno de los tópicos más importantes está relacionado con la calibración de los factores de expansión. Como es bien sabido, este tópico es importante porque, cuando se utiliza bien esta técnica (ver Silva (2004) para una discusión de las consecución de mal-utilizar este método), además de reducir el sesgo generado por la ausencia de respuesta y mejorar la eficiencia de las estimaciones, es posible mantener la consistencia con las cifras que ya se han publicado en otras operaciones estadísticas (como censos, proyecciones demográficas, o incluso otras encuestas).

Desde las encuestas de hogares es posible realizar el proceso de calibración de factores de expansión sobre la misma base de datos de las personas o sobre la base de datos de los hogares. De estos dos escenarios calibrar sobre la base de personas parecería ser la opción más rápida puesto que, en la mayoría de casos, las cifras que se utilizan para calibrar están al nivel de los individuos. Por ejemplo, pensando en una encuesta de fuerza laboral, es evidente que las variables más importantes de la encuesta se encuentran al nivel de las personas y que la calibración de los factores de expansión se debería realizar desde la base de datos de personas.

Ahora, suponga una situación en la cual se desea calibrar por sexo. En este caso, se debería tener acceso a las proyecciones demográficas por sexo para el periodo de referencia de la encuesta y se procedería a calibrar los factores de expansión, utilizando un enfoque de post-estratificación. En este escenario, las ecuaciones de calibración estarían dadas por las siguiente expresión:

$$(\sum_{k \in s} w_kx_{1k}, \sum_{k \in s} w_k x_{2k})' = (t_{x1}, t_{x2})'$$


En donde la suma se hace sobre las personas en la muestra $s$; $x_{k1}$ toma el valor de uno, si el individuo $k$ es hombre, y cero en otro caso; $x_{k2} = 1 - x_{k1}$; $t_{x1}$ es la proyección demográfica del total de mujeres y $t_{x2}$ es la proyección demográfica del total de hombres. En este caso las covariables de la calibración son variables dicotómicas. Nótese que las ecuaciones de calibración están al nivel de la muestra $s$ que induce una base de datos de persona.

Como el muestreo ha sido en varias etapas, una posibilidad que surge al momento de calibrar los factores de expansión es utilizar la muestra de hogares $s_I$ que induce una base de datos con información de los hogares y calibrar usando un enfoque de covariables continuas. De esta forma las ecuaciones de calibración estarían dadas por la siguiente expresión:

$$(\sum_{i \in s_I} w_ix^h_{1i}, \sum_{i \in s_I} w_i x^h_{2i})' = (t_{x1}, t_{x2})'$$

En donde la suma se realiza sobre los hogares en la muestra de hogares $s_I$. Nótese que $x^h_{1i} = \sum_{k \in U_i} x_{1k}$ se refiere al número de hombres en el hogar $i$; $x^h_{2i}= \sum_{k \in U_i} x_{2k}$ es el número de mujeres en el hogar $i$; y los totales de calibración $t_{x1}$ y $t_{x2}$ siguen siendo el número de hombres y mujeres en la población.

Al respecto, nótese que calibrar con el primer escenario reproduce los totales auxiliares sobre la base de personas, mientras que calibrar sobre el segundo escenario reproduce los totales sobre la base de hogares. Sin embargo, teniendo en cuenta los principios del muestreo en varias etapas y notando que en un hogar, la probabilidad de inclusión de las personas es de uno (forzosa), entonces generar factores de expansión para las personas en el segundo escenario es muy sencillo puesto que

$$w_k = w_{i} * Pr(k \in U_i | i \in s_I) = w_{i} * 1 = w_i$$

Es decir que, bajo el segundo escenario de calibración, todas la personas dentro del hogar comparten los mismos pesos de muestreo y además estos pesos son iguales al peso del hogar. Esta propiedad sólo se presenta en el segundo escenario. Es más, bajo el primer escenario, se garantiza que los hombres y las mujeres (dentro de un mismo hogar) tengan diferentes factores de expansión. Lo anterior, desde un punto de vista teórico no reviste ningún inconveniente, pero hay quienes quisieran conservar aquellas propiedades de los esquemas de muestreo en los factores de expansión finales. Estevao y Sarndal (2006) presentan algunas propiedades teóricas del segundo escenario.

Referencias

Silva, PL. d N. 2004. «Calibration estimation: when and why, how much and how».Riode Janeiro: Instituto Brasileiro de Geografia e Estatística.

Estevao, Victor, y Carl-Erik Särndal. 2006. «Survey Estimates by Calibration on Com-plex Auxiliary Information».International Statistical Review / Revue Internationale deStatistique74 (2): 127-47.

No hay comentarios.:

Publicar un comentario