Friday, August 7, 2015

Nunca utilice el estimador de Horvitz-Thompson

Si está realizando inferencia en dominios poblacionales y su muestra no contiene elementos en cada uno de los dominios, no utilice este estimador. 

Yo soy un tipo que en términos de estadística cree con firmeza en dos cosas: 1) la inferencia basada en la medida de probabilidad inducida por un diseño (muestral o experimental) y 2) en la incorporación de información previa en todo tipo de inferencias. Es decir, creo en el muestreo y soy bayesiano. No suena muy ortodoxo, pero hay muchas similaridades entre los dos paradigmas.

Cada vez más estoy convencido de que las muestras probabilísticas deben ser planeadas con mucha pericia, de tal manera que las inferencias sean precisas en realidad. No todas las muestras, por ser probabilísticas, son buenas muestras y entiendo cada vez más la posición de los investigadores (como Rubin, Little, Gelman o Dorfman) que confían en la robustez de los modelos probabilísticos para hacer inferencias en la población finita.

Retomando el título sugestivo de esta entrada, debo decir que el estimador de Horvitz-Thompson (HT) tiene propiedades agradables. Desde el punto de vista de la inferencia basada en el muestreo, es el único estimador hiperadmisible en la clase de los estimadores insesgados polinomiales :). Pero a la hora de realizar estimaciones sobre dominios (subgrupos poblacionales para los cuales no se conoce la membresía de los elementos a cada dominio), cuando la muestra no abarca la totalidad de dominios, entonces las estimaciones son supremamente deficientes, puesto que el estimador debe repartir sus valores entre los dominios. Esto redunda en una sobre-estimación en los dominios que sí tuvieron participación en la muestra.

Suponga que se planeó una muestra probabilística para la cual el total estimado de una característica de interés $y$ es 1550. Ahora, suponga que esta muestra seleccionada para un dominio de interés particular no logra tener cobertura en dos de cinco subgrupos. Dadas las propiedades lineales del estimador HT, se tiene que:

  1. La suma de los totales estimados sobre los tres subgrupos debe ser 1550. 
  2. El total estimado sobre los dos subgrupos para los cuales no se tuvo cobertura debe ser cero.
  3. El total estimado sobre los tres dominios necesariamente estará sobre-estimado

La siguiente tabla ilustra este fenómeno: $t_{yd}$ hace referencia al total real, $\hat{t}_{yd, HT}$ es la estimación de Horvitz-Thompson.

Dominio$t_{yd}$Indicador$\hat{t}_{yd, HT}$
1 600 No 0
2 200 No 0
3 300 Si 600
4 200 Si 400
5 300 Si 550
Total 1600 - 1550

 

No comments:

Post a Comment