Tuesday, May 3, 2011

La entropía de un diseño muestral

Suponga que se desea seleccionar una muestra aleatoria de una población finita de tamaño N. Para esto, usted escoge la mejor estrategia de muestreo que le permite hacer todo tipo de inferencias precisas sobre los parámetros de interés. Una estrategia de muestreo tiene dos componentes: la primera, el diseño de muestreo y la segunda, el estimador utilizado. Como ya lo he repetido en diferentes ocasiones, la planeación de un estudio por muestreo tiene que estar condicionada a la estrategia y no a l diseño o al estimador por separados. Es así como la estrategia, siguiendo la regla de oro del muestreo y el principio de representatividad, debería inducir ponderaciones cuyo comportamiento estructural sean directamente proporcional al comportamiento de la característica de interés.


En esta ocasión, voy a referirme a una propiedad bastante útil, pero desconocida de un diseño de muestreo, la entropía. Recalco que un diseño de muestreo no es otra cosa que una medida de probabilidad discreta definida sobre un conjunto aleatorio (o si se quiere, sobre un vector aleatorio) que toma distintas realizaciones sobre un soporte Q. A una realización de la muestra aleatoria se le conoce con el nombre de muestra seleccionada y el soporte Q contiene todas las posibles realizaciones. De esta forma, la entropía se define como


$latex -sum_{s in Q}p(s)log p(s)$


La entropía es una medida contraria a la información. Entre más entropía exista en un diseño de muestreo, se dice que hay más incertidumbre. Por el contrario, cuando hay baja entropía, hay más información y menos dispersión. Tillé (2010) afirma que un diseño de muestreo tiene alta entropía cuando existe una gran cantidad de "sorpresa" en la muestra seleccionada y que cuando un diseño de muestreo tiene alta entropía es muy difícil predecir el tipo de muestra que se obtendrá.


En algunas ocasiones es deseable que un diseño de muestreo tenga alta entropía. En muchas consultorías, el cliente suele estar preocupado por el tipo de muestra que se va a seleccionar: que si es posible que la muestra esté sesgada, que si es posible que la muestra contenga sólo a personas de estratos altos, que si la muestra va a llegar a todos los grupos etarios, que cómo hacemos para garantizar la representatividad de la muestra. Entre otro tipo de comentarios, lo que el cliente expresa en las primeras etapas del estudio es su afán porque la muestra sea "representativa". Cuando esto sucede, simplemente le digo que confíe en el experto y que el principio de aleatorización es muy acertado y seguramente la muestra tendrá la dispersión que el cliente está esperando. Por supuesto que lo anterior, es simplemente un paliativo y una muy sutil explicación de la entropía.


De hecho, haciendo un paréntesis, una de las causas de éxito en esta profesión de consultor es poder expresar sin tecnicismos los conceptos inherentes a la teoría que sustenta nuestro trabajo. Si quiere perder el próximo contrato, le sugiero que le diga al cliente que no debe estar preocupado porque la entropía es una medida de la información de diseño de muestreo definida sobre un soporte… bla, bla, bla… El cliente no le va a entender nada de esas explicaciones técnicas y me va a contratar a mí J . Es en serio, un consultor es un profesional altamente adiestrado para transmitir conceptos y para aplicarlos en su área de experticia, un consultor no es un entrenador y no es un profesor.


Volviendo al tema de la entropía, un muestreo aleatorio simple tiene una alta entropía. Es muy útil este diseño en las últimas etapas de una investigación puesto que garantiza que la muestra no estará concentrada en ciertos subgrupos de la población (la muestra no estará "sesgada"). El diseño de muestreo sistemático, es un diseño que tiene muy poca entropía, puesto que si la población está ordenada sistemáticamente en el marco de muestreo, por ejemplo, un hombre, una mujer, un hombre, una mujer, etc., entonces si se escoge un arranque aleatorio cualquiera, la muestra estará conformada por sólo hombres o sólo mujeres, que sería precisamente lo que queremos evitar.


Bajo la familia de diseños de muestreo exponenciales, también llamados piPT y que no tienen nada que ver con la familia exponencial de la inferencia estadística clásica, caracterizados por tener probabilidades de inclusión desiguales, ser de tamaño de muestra fijo y sin reemplazo, el diseño con más alta entropía es el de Poisson condicional (que es un muestreo Poisson con tamaño de muestra fijo, que se implementa fijando el tamaño de muestra y seleccionando muestras Poisson hasta llegar a una muestra con el tamaño deseado). Así que, cuando utilice diseños proporcionales al tamaño, tenga en cuenta que tal vez la propiedad de alta entropía no es deseable. En otras palabras, cuando se tiene información auxiliar de tipo continúo y se sabe que tiene una muy buena correlación con la característica de interés, debemos sacrificar entropía por eficiencia. El uso de la información auxiliar hace que la muestra tenga un bajo nivel de sorpresa, pues lo que uno espera es que la muestra contenga los elementos con probabilidades de inclusión más altas y por lo tanto, un bajo nivel de entropía. Bajo estas condiciones, el estimador resultante será muy concentrado y con poca varianza produciendo coeficientes de variación más bajos y mayor eficiencia.

2 comments:

  1. Parce:

    Cual es la direccion electronica para conseguir su libro de muestreo?. Se puede enviar desde Colombia a Puerto Es para un companero del depto aca en la UPR y tambien para sus alumnos.


    Jairo

    ReplyDelete
  2. Saludos desde Perú, quiero comprar el libro de Estrategias de muestreo, como haria, tienen alguna cuenta o alguna agencia de envio. Muchas gracias esperaré atentamente a tu respuesta.

    ReplyDelete