Wednesday, May 8, 2013

El tamaño sí importa

Attractive young woman sitting on white background


Con el tiempo deja de fastidiarme la pregunta que se hacen todos y cada uno de los usuarios y "clientes" de una encuesta: ¿cuál es el tamo de muestra para este estudio? De hecho, esta pregunta a veces surge sin plantear el problema de investigación, ¡a veces sin siquiera saludar! El dueño de la investigación llega muy orondo y de repente cuestiona: ¿cuál es el tamaño de muestra para evaluar esta política pública? ¿cuál es el tamaño de muestra para esta investigación de mercados? ¿cuál es el tamaño de muestra para este estudio farmacológico? Por supuesto, el tamaño importa porque dependiendo de esta cifra se tiene un costeo previo del monto del estudio.


Además de lidiar con estas actitudes automatizadas, el estadístico debe guiar al "cliente", muchas veces con preguntas sagaces, hacia un lugar que les permita tener un acercamiento exhaustivo al problema en cuestión. A algunos les parecerá aburrido e innecesario, pero les aseguro que es un ejercicio que hará valorar más el papel del estadístico frente al medio. Esto llega a tener implicaciones éticas muy profundas porque una buena concienciación del problema puede ahorrarle dinero al estado. Por ejemplo, considere que un estudio quiera tener representatividad (nivel de confianza predefinido, asegurar un margen de error previo y acotar el error estándar relativo) con un nivel de confianza del 95% y un error estándar relativo máximo del 3%. Ahora piense en esto: si con tres mil encuestas se logra un error estándar relativo del 2% y con dos mil encuestas se logra un error estándar relativo del 2.9%, entonces la escogencia de tamaño de muestra debería ser dos mil encuestas, en vez de tres mil. El estadístico novato dirá que tres mil es mejor que dos mil. En términos de inferencia estadística los dos escenarios son similares (ambos con la misma confianza y un error estándar relativo menor al 3%), se toman las mismas decisiones con ambas cifras, pero la diferencia en dinero puede ser abrumadora.


Sin embargo, aparte de lo anterior, el estadístico debe sondear si el problema de investigación se refiere a la estimación de un parámetro o al contraste de una hipótesis que el investigador haya definido como importante.  En principio son dos escenarios distintos, pero hay una delgada línea entre uno y el otro. Por ejemplo, suponga que se plantea un estudio que va a comparar dos grupos: un grupo de tratamiento y grupo de control. El investigador quiere conocer si existen diferencias significativas entre un grupo y otro. Es justo en este instante cuando comienza la encrucijada. Eso suena a prueba de hipótesis. Es más suena a prueba de hipótesis bilateral. Sin embargo, es aquí en donde el papel del estadístico debe sobresalir. Y no porque sea avezado en sugerir expresiones matemáticas inmediatas para el cálculo del tamaño de muestra, sino porque debe seguir ahondando más en el problema. Antes de sugerir alguna fórmula, debe realizar la siguiente pregunta ¿cuánto es diferente? Si las diferencias son de medias o de proporciones, los investigadores deben saber desde qué cantidad esa diferencia comienza a ser importante. La respuesta a esta pregunta determina el rumbo de estudio y por consiguiente la fórmula correcta para determinar el tamaño de muestra.


Entonces, si la respuesta es: "déjeme pensar, no sé, dígame usted"; este es un problema de estimación y no de pruebas de hipótesis. Si todavía está leyendo pues no pare de hacerlo, porque esto se pone más interesante. No es una herejía, cuando el investigador no conoce la respuesta a la pregunta ¿cuánto es diferente?, entonces al diablo con las pruebas de hipótesis y bienvenida la confianza estadística ($latex Z_{1-alpha/2}$), el margen de error ($latex varepsilon$) y el efecto de diseño del muestreo (Deff). En este caso, la expresión adecuada para el tamaño de muestra es: (Ver acá)


$latex n>dfrac{Deff(P_1Q_1+P_2Q_2)}{dfrac{e^2}{Z_{1-alpha/2}^2}+dfrac{Deff(P_1Q_1+P_2Q_2)}{N}}$


Por el contrario, si el investigador responde: "yo quiero saber si la diferencia absoluta entre las proporciones es mayor a 0.2"; entonces el problema sí es de pruebas de hipótesis y no de estimación. Nótese lo ambigua que es la afirmación "quiero saber si hay diferencias significativas." No, de lo que se trata es de que el investigador afirme "quiero saber si el grupo de tratamiento tiene una proporción mayor que la del grupo control. Es más quiero saber si esa diferencia es mayor a 0.2" En el anterior escenario, es claro que ni siquiera se trataba de una hipótesis bilateral, sino unilateral y que el efecto que al investigador le importa ya está cualificado y es de 0.2. Este sí es un escenario de pruebas de hipótesis (unilateral) y debe involucrar a la confianza ($latex Z_{1-alpha}$), la potencia ($latex Z_{beta}$) y el efecto que quiere contrastar en la prueba ($latex D=P_1-P_2$). En este caso, la expresión correcta para el tamaño de muestra es: (Ver acá)


$latex n=dfrac{Deff(P_1Q_1+P_2Q_2)}{dfrac{D^2}{(Z_{1-alpha}+Z_{beta})^2}+dfrac{Deff(P_1Q_1+P_2Q_2)}{N}}$


En la práctica, esto significa que para una población de un millón de personas, divida en dos grupos de interés, en donde se supone un diseño de muestreo complejo para la recolección de la información con un $latex Deff=4$, y asumiendo que la varainza de la diferencia de proporciones es máxima (con $latex P_1=P_2=0.5$), se tiene que:


1.  El tamaño de muestra mínimo en cada subgrupo, para realizar una estimación de la diferencia de proporciones cuyo intervalo de confianza al 95% sea tal que su margen de error no supere el 3%, es de 2130 personas.


2. El tamaño de muestra mínimo en cada subgrupo, para realizar una prueba de hipótesis sobre la diferencia de proporciones para detectar un efecto de D=15%, un nivel de significación del 5% y una potencia del 80%, es de 933 personas.


Espero que con esta lectura usted esté descubriendo esa delgada línea en su área de trabajo. Por lo demás, tómese siempre su tiempo para reflexionar en las características de su estudio y en hacer las preguntas correctas a las personas correctas en el momento correcto. Esto le da una ventaja competitiva invaluable.

No comments:

Post a Comment