Thursday, August 26, 2010

La regla de oro del muestreo


La verdad no recuerdo si el sobrenombre <<regla de oro>> me lo inventé o lo leí en alguna parte. Pudo haber sido resultado de haber combinado la lectura del libro <<Foundations of Inference in Survey Sampling>> con la lectura de algún evangelio mientras meditaba en la conclusión del sermón del monte. Lo que recuerdo bien es que ese libro hablaba acerca de que una estrategia de muestreo es óptima siempre y cuando el vector de probabilidades de inclusión de primer orden fuese proporcional a la característica de interés. A eso es a lo que yo llamo la regla de oro del muestreo.


Al respecto, debo aclarar que, a mi modo de ver, lo de la proporcionalidad se debe entender como la similaridad en el comportamiento estructural de los dos conjuntos de datos (el vector de probabilidades de inclusión y el vector de valores observados de la característica de información auxiliar). Por ejemplo, suponga una encuesta de establecimientos en un país latino en donde hay pocas tiendas supergigantes que venden muchísimo, hay muchas tiendas grandes que venden mucho y hay muchísimas tienditas de barrio que venden poco. Ahora suponga tres diseños de muestreo para el mismo problema: el primero, que asigna probabilidades de inclusión iguales a cada elemento de la población, el segundo que asigna mayores probabilidades de inclusión a las tienditas que venden menos y menores probabilidades de inclusión a las supertiendas que venden muchísimo, y el tercer diseño que asigna probabilidades de inclusión mayores a las supertiendas y menores a las tienditas. Teniendo en cuenta la regla de oro del muestreo, el mejor diseño es este último pues más ventas implica mayores probabilidades de inclusión y menos ventas implica menores probabilidades de inclusión.


¿Por qué? Por el principio de representatividad sobre el cual se basa todo el andamiaje epistemológico de la inferencia en poblaciones finitas. Palabras más, palabras menos, se dice que a pesar de la variación per se de todas la poblaciones, algunos individuos son capaces de representarse a sí mismos y a algún otro conjunto de individuos. Es por lo anterior que en estadística se utilizan ponderadores para representar a la población de interés y, como es bien sabido, un ponderador natural es el inverso de la probabilidad de inclusión. Por tanto, un individuo con una probabilidad de inclusión máxima igual a uno, sólo es capaz de representarse a sí mismo y a nadie más, puesto que el inverso de la unidad es la unidad. Un individuo con una probabilidad de inclusión baja, se representará a si mismo y a un conjunto grande de individuos. Si se utiliza el primer diseño muestral, se está incurriendo en un error puesto que se le está asignando el mismo peso a las supertiendas gigantes que a las tienditas de barrio. Pero si se utiliza el segundo diseño muestral se está incurriendo en un error más grave aún puesto que se está afirmando que la supertienda gigante se representa a si misma y a muchas otras y a la vez las tienditas no tienen mucha representación en la población. Lo anterior es obviamente incorrecto. Así que, la regla de oro del muestreo, no es otra cosa que sentido común. Y contra el sentido común no hay mucho que pelear. Por eso a mi me gusta afirmar en mis clases que el diseño muestral y el estimador deben ser igualmente importantes. De qué sirve un mal diseño combinado con el único estimador hiper admisible en la clase de todos los estimadores insesgados polinomiales generalizados..... sirve de nada.

1 comment:

  1. buena con la regla de oro del muestreo....me sirve de muchos estos blog sigan poniendo mas cosas

    ReplyDelete