Sunday, January 24, 2016

Estratificación implicita usando muestreo sistemático

Una de las razones por las cuales el muestreo sistemático es utilizado en las primeras etapas de un diseño muestral es por su facilidad de implementación. Además, si el marco de muestreo cuenta con información auxiliar categórica (o continua que pueda ser categorizada) es posible ordenar el marco de acuerdo a estas variables. Teniendo en cuenta que el muestreo sistemático define saltos sistemáticos de igual tamaño sobre esta lista ordenada, entonces al final la muestra seleccionada reproducirá aproximadamente los mismos porcentajes poblacionales de las categorías por las cuales se ordenó el marco. A este proceso se le conoce como estratificación implícita y es un proceso comparable con los diseños de muestreo autoponderados

La estratificación explícita es aquella que define una estrategia de muestreo particular para cada una de las categorías poblacionales (conocidas como estratos) de interés. Ahora, cuando se planea un diseño de muestreo, los expertos en la temática siempre (siempre y siempre) desean desagregar los resultados en muchas (incluso cientos) de categorías. Al definir como estratos explícitos todas estas categorías al final nos encontraríamos con un gran problema logístico y económico, pues se tendrían que definir tantos estratos y estrategias de muestreo como desagregaciones contempladas. 

En algunos estudios importantes es común encontrar una mezcla de estratos, tanto explícitos como implícitos. Esta mixtura es posible gracias al muestreo sistemático simple. En principio se definen las desagragaciones más importantes y para cada una de ellas se planea una estrategia de muestreo particular; es decir, se definen los estratos de interés. Luego, para que las otras desagregaciones deseadas (aunque no tan importantes) puedan estar representadas en la muestra seleccionada, es posible ordenar el marco de muestreo de acuerdo a estas categorías y luego utilizar un diseño de muestreo sistemático simple que vaya seleccionando unidades a medida que avanza en el marco ordenado. 

Por ejemplo, en una encuesta de educación es posible definir estratos explícitos como la zona (urbano / rural) y el sector (oficial / no oficial) y  a su vez, para obtener estratos implícitos, ordenar el marco de muestreo de acuerdo a categorías menos importantes como región, municipalidad o incluso código postal. Luego en cada estrato explícito se ejecuta un diseño sistemático simple sobre el marco ordenado por los estratos implícitos.

Es importante notar dos cosas. En primer lugar, aunque esta estrategia de autoponderación utilizando muestreo sistemático permite reproducir aproximadamente los porcentajes poblacionales en la muestra seleccionada, esta caracterización no es una condición necesaria para definir una muestra representativa. El lector debe recordar que, aunque los porcentajes poblacionales de alguna categoría de interés no se reproduzcan en la muestra, si el diseño de muestreo está bien definido, entonces la muestra expandida deberá ser una réplica de la población y por ende la muestra se dice representativa. 

En segundo lugar, si a pesar de haber ordenado el marco de acuerdo a las desagregaciones de interés, se utiliza un muestreo sistemático complejo,  por ejemplo con probabilidad proporcional a una medida de tamaño (Sarndal et. al, 2003, pp. 96 - 97) entonces la estratificación implícita se pierde por completo y por ende el propósito de mantener los porcentajes poblacionales aproximadamente iguales en la muestra. Ahora, nótese que este diseño de muestreo sistemático proporcional, a pesar de no tener la propiedad del simple, es válido puesto que las unidades seleccionadas tendrán probabilidades de inclusión desiguales y por ende pesos de muestreo (o factores de expansión) desiguales. Por tanto, al expandir la muestra, se garantiza la representatividad, puesto que en esa muestra expandida sí se reproducirán los porcentajes de interés. 

En mi opinión, utilizar la estratificación implícita con el muestreo sistemático es un buen método que facilita la logística e implementación de la recolección de la información. Por otro lado, yo no utilizaría el muestreo sistemático proporcional puesto que la estimación de la varianza es muy compleja (ya lo es para el muestreo sistemático simple en donde no existe un estimador insesgado para la varianza pues algunas probabilidades de inclusión de segundo orden son iguales a cero); más bien utilizaría el muestreo piPT cuyos algoritmos de muestreo son sencillos y la estimación de la varianza es eficiente en términos computacionales. 

No comments:

Post a Comment