Tuesday, August 30, 2011

Muestreo inverso, no-respuesta y otros temas

Un colega me pregunta lo siguiente:

Suponga un universo de 10 individuos U={12,…,10} de los cuales se quiere seleccionar 3 por muestreo aleatorio simple (MAS). Para esto, se aplica el método de coordinado negativo el cual re-ordena los 10 individuos de la siguiente forma 7,2,9,10,5,1,4,3,6,8. Por supuesto, se selecciona la muestra {7,2,9} y el estadístico a cargo guarda el orden en el cual quedaron los individuos en un archivo. Por problemas operativos no se puede contactar a los individuos 7 y 9, y se decide reemplazarlos por los individuos 10 y 5 sin ninguna selección aleatoria entre los restantes… simplemente se consideran "los que siguen en la lista". ¿Es correcto afirmar que esa muestra {2,10,5} es generada por un diseño MAS (10,3)?

Por supuesto, me parece que este ejemplo viene del día a día de las encuestas complejas. Antes de formular cualquier cosa hay varias consideraciones al respecto (algunas mías y la mayoría de otros colegas extranjeros con quiénes discutí el tema en el Survey Research Methods Section de la ASA):

  1. Existe un problema de ausencia de respuesta que no debe ser pasado por alto. Hay muchos métodos para modelar esta ausencia y es mandatorio ponerlos en práctica cuando este fenómeno (que cada vez se va convirtiendo en una regla, en vez de la excepción) de ausencia de respuesta aparece. En general, se trata de modelar la respuesta como un evento aleatorio con probabilidad P(R); por lo tanto la probabilidad de ausencia de respuesta es 1-P(R). Si después de analizar la información, el estadístico decide que la ausencia de respuesta sigue un patrón completamente aleatorio MCAR (missing completely at random, por sus siglas en inglés) y no es debida a comportamientos intrínsecos en los subgrupos poblacionales, entonces, bajo este supuesto, todos los individuos tendrán la misma probabilidad de responder y, por tanto, la misma probabilidad de no responder.
  2. El algoritmo coordinado negativo ordena la población de forma aleatoria. De hecho, se trata de una permutación aleatoria de los elementos de la población. De esta forma, si la población tiene N individuos, y se ordenan aleatoriamente, entonces los primeros (o los últimos) k elementos conforman una muestra aleatoria simple de tamaño k.
  3. Para evitar esos inconvenientes técnicos, en la fase de diseño, se acostumbra a extraer la muestra de reemplazo para permitir la ausencia de respuesta. Cuando uno no ordena toda la lista de forma aleatoria, la muestra de reemplazo es una muestra separada de la población que queda después de extraer la muestra principal.) Por lo tanto, si los individuos 7 y 9 fueron los que no respondieron porque no estaban disponibles (missing o faltantes), y se reemplazaron con los individuos 10 y 5, entonces es plausible suponer que se tiene una muestra aleatoria de tamaño 5 que incluye dos individuos que no respondieron. Por supuesto, el siguiente paso debe ser el ajuste de los pesos de los encuestados para tener en cuenta la falta de respuesta.
  4. El proceso de muestreo que se describe puede ser llamado "muestreo inverso" puesto que no se dejan de seleccionar individuos hasta obtener tres observaciones que efectivamente sí respondieron y que conforman la muestra válida. En este caso, el tamaño de la muestra no es 3 y se convierte en una cantidad aleatoria. Este método, descrito en Cochran (1977), fue propuesto por Haldane (1949). Sin embargo, los desarrollos para la estimación insesgada de totales, media y proporciones son recientes.

A continuación vamos a tratar de elaborar un poco más el tema. Si se decide que el modelo pertinente para la falta de respuesta es MCAR, entonces se puede suponer (muy importante… suponer es diferente a definir) que la muestra es de 5 observaciones aleatoria simple y reajustar los pesos de las dos observaciones faltantes. De esta forma, si los individuos 7 y 9 no respondieron, se puede utilizar esa información para estimar la proporción de la población que no responde. De esta forma, sea S1 la muestra en la primera selección (esta muestra es de tamaño 3). Sea S2 la muestra efectiva en la segunda selección (esta muestra es de tamaño 2). Por último, sea R el conjunto de respondientes en la primera selección. Luego, dado que las selecciones no son independientes (puesto que para obtener S2, se debió haber seleccionado S1 y definido R), la probabilidad de inclusión de un individuo en la muestra final es:


Bajo esta perspectiva, muestreo aleatorio simple de 5 unidades con 2 faltantes, cada individuo en la muestra final tiene la misma ponderación. Lo anterior no significa que la muestra final provenga de un muestreo aleatorio simple de tamaño 3. Con este desarrollo, es posible utilizar el estimador de Horvitz-Thompson para estimar sesgadamente (pero con sesgo moderado) funciones de totales. Dada esta configuración, se deben desarrollar expresiones para las probabilidades de inclusión de segundo orden para tener un acercamiento apropiado a la varianza de las estimaciones. También se pueden aplicar los principios de la estimación en dos fases, entre otros.

Por otra parte, nos podemos permitir ajustar esta situación al muestreo inverso, en donde para satisfacer un tamaño de muestra r (en nuestro ejemplo, r=3) se continúan seleccionado unidades en la población hasta que las r respondan. Para profundizar en algunos algoritmos de selección de muestras inversas, el lector puede remitirse al artículo de Hinkins, Lock Oh & Scheuren (1997). Si se pretende estimar la media de la población o la proporción de respondientes es posible utilizar las técnicas planteadas en la Sección 3 de Salehi & Seber (2001). Algunas expresiones acerca de la probabilidad de selección de muestras inversas sin reemplazo se pueden encontrar en el artículo de Espejo, Singh & Saxena (2008). Por último, si desea utilizar este diseño de muestreo para combinarlo con el estimador de Horvitz-Thompson, entonces le recomiendo este excelente artículo de Mohammadi & Salehi (2011).

2 comments:

  1. Quisiera plantearte algo; tiene un tiempo que una amiga me contó que realizó un estudio donde el procedimiento de obtención de información de un grupo de asociaciones pero como le era muy caro realizar el proceso desde conocer al universo -lo tiene estimado por otra fuente- hasta la búsqueda de estas organizaciones para que le respondieran la encuesta decidió enviarla via correo a todas las asociaciones y trabaó con los datos de quienes le respondieron como si fuera su muestra. Eso es válido? esto es, los resultados a obtener pueden tener alguna validez para obtener conclusiones de todo el grupo de organizaciones?'

    Saludos y muy buen sitio

    ale ramirez

    ReplyDelete
  2. Depende, si la muestra efectiva recoge la variabilidad de las organizaciones. De no ser así, no es válido. Por ejemplo, puede que solamente las organizaciones con cierto perfil hayan contestado, digamos las más pequeñas. De igual forma, se debe hacer un modelamiento de la no respuesta

    ReplyDelete