Saturday, December 8, 2012

¿Está seguro de su tamaño de muestra?

Permítame asegurar que una de las tareas más importantes del estadístico es la del cálculo del tamaño de muestra. De la misma manera, creo que no me equivoco al afirmar que es una de las tareas a las cuales se le presta menos atención. De hecho, en muchas ocasiones el investigador entra a una página de internet, o incluso a su teléfono celular, y carga una aplicación para la determinación del tamaño de muestra, que supone poblaciones infinitas y bla, bla, bla... Se imaginarán el resultado.


En otras ocasiones el investigador decide contar con el estadístico como apoyo para el cálculo del tamaño de muestra. Este a su vez, debe implementar un camino correcto para esta importante tarea. Muchas veces ese camino está dado por una expresión matemática que vio en algún libro de muestreo o en algún artículo. Hoy quiero abordar el tema del tamaño de muestra para una diferencia de proporciones, que se utiliza en muchas ocasiones, por ejemplo en el levantamiento de una línea de base en la evaluación de alguna política pública, entre otros.


Antes de abordar el tema, quiero que el lector (ya sea estudiante, profesor, consultor, asesor o empleado) tome consciencia de la importancia de utilizar una fórmula. Muchos profesores a veces no le prestamos atención a las fórmulas para los tamaños de muestra y las despreciamos, como si se tratara de una simpleza. Sin embargo, en la vida real, fuera del aula de clase, los profesionales podrían seguir esta práctica y tomar a la ligera el uso de las fórmulas. Lo que a veces olvida el profesor, que está en su burbuja académica, es que la correcta evaluación de las políticas públicas, de los estudios epidemiológicos, entre otros, depende en gran manera de este cálculo. Es tan increíblemente grande esta responsabilidad, que no encuentro las palabras para plasmarla en esta entrada. Imagínese que por negligencia o desconocimiento uno puede afectar a millones de personas. La tarea del estadístico es gigante. Por ejemplo, con un mal tamaño de muestra, la evaluación de una política pública podría arrojar resultados negativos, cuando en realidad son positivos, y de esta manera podría acabarse una intervención que sí está beneficiando a millones de niños. Pero claro, a veces no tenemos ni idea de que hay niños con hambre que necesitan ser nutridos y pasamos por alto las fórmulas y su correcto uso.


Bueno, creo que no hay tantos profesores así, pero es necesario que usted no haga esto y genere cultura estadística en sus pupilos. Volviendo al tema, creo que muchos conocen la siguiente expresión para el cálculo del tamaño de muestra cuando se quiere indagar por una proporción de interés:



$latex n> dfrac{PQ}{dfrac{e^2}{z^2}+dfrac{PQ}{N}}$

En donde, e es el error relativo que uno quiere minimizar y z es el percentil de una normal estándar. Aquí no hay mucho misterio, simplemente el resultado de esta expresión es una cifra, y esta cifra induce un tamaño de muestra para un muestreo aleatorio simple sin reeemplazo.


Sin embargo, cuando el interés se centra en la diferencias de proporciones entre dos subpoblaciones, entonces es común encontrar esta fórmula, para un diseño de muestreo aleatorio simple sin reemplazo.



$latex n> dfrac{P_1Q_1+P_2Q_2}{dfrac{e^2}{z^2}+dfrac{P_1Q_1+P_2Q_2}{N}}$

y el resultado es una cifra, una cifra que induce un tamaño de muestra. Pero espere, esta cifra no indica un tamaño de muestra total. Esta cifra induce un tamaño de muestra para las dos subpoblaciones de interés; es decir, se debe seleccionar n elementos de la primera subpoblación y otros n elementos de la segunda subpoblación. La razón de lo anterior está en que para llegar a esta expresión, se debe realizar una cantidad de supuestos, uno de los cuales es que el tamaño de muestra sea igual en cada subpoblación. Algo así como n1=n2=n.


Muchos investigadores hacen sus cálculos y en vez de duplicar el tamaño de muestra, lo dividen a la mitad. Recuerde, se debe seleccionar n elementos de la primera subpoblación y otros n elementos de la segunda subpoblación.


Si tiene curiosidad por la demostración y los supuestos utilizados, puede leer este documento que he preparado para usted.

6 comments:

  1. Para determinar el tamaño de muestra para estimar la diferencias de dos proporciones no es necesario que los tamaños de las subpoblaciones sean iguales. Como se muestra en el enlace.

    ReplyDelete
  2. Para determinar el tamaño de muestra para estimar la diferencias de dos proporciones no es necesario que los tamaños de las subpoblaciones sean iguales. Como se muestra en el enlace. https://docs.google.com/open?id=0B7u1ZDnbqX56MDUwQjdUUFo5Tk0

    ReplyDelete
  3. Chévere, gracias...

    ReplyDelete
  4. Estadístico en construcciónDecember 9, 2012 at 2:32 PM

    ¿Eso quiere decir que en ese caso el tamaño de muestra en cada subpoblación debe ser proporcional al tamaño de la subpoblación?

    ReplyDelete
  5. Buenos días don Hugo Andrés:
    Efectivamente es tal y como usted lo explica. ¿Se puede agregar sin temor a equivocaciones, que el estimado del tamaño muestral es este, siempre y cuando el proceso sea en un muestreo de una sola etapa?
    Feliz día,

    ReplyDelete
  6. No sólo cuando el proceso es en una sola etapa sino cuando el muestreo es MAS sin reemplazo. Sin embargo, para otros esquemas de muestreo, es posible utilizar una modificación de esta expresión al agregar el efecto de diseño en la fórmula.

    ReplyDelete