Sunday, October 25, 2009

Tablas 2X2… Independencia bayesiana

La prueba Ji-cuadrado (más conocida como el test de Pearson) usualmente tiene dos connotaciones prácticas importantes en el día a día del oficio del estadístico. Una de ellas es chequear la bondad del ajuste de una distribución propuesta a los datos reales y la otra se trata de probar la independencia de dos variables aleatorias categóricas cuyos conteos se reúnen en una tabla de contingencia. Sin embargo, esta prueba utiliza resultados de teoría asintótica y por tanto sólo debe ser utilizada cuando el total de conteos marginales es grande (¿qué es grande? algunos autores afirman que es inapropiado utilizar esta prueba cuando los valores esperados por cada celda son menores que diez). Por otra parte, tampoco es apropiado utilizarlo en tablas de contingencia 2X2 puesto que, en este caso particular, la estadística de prueba "asintótica" tendría un solo grado de libertad.


Se cuenta que Fisher pensó en este problema cuando una señorita afirmó (The lady tasting tea) que era capaz de discernir cuándo el té inglés era preparado adicionando primero la leche, luego el té y revolviendo o viceversa. La solución de Fisher fue la prueba exacta que lleva su nombre (Fisher's exact test) la cual guía a la probabilidad exacta, basada en una distribución hipergeométrica, de obtener un arreglo particular en unta tabla 2X2. Sin embargo, el bayesiano Andrew Gelman afirma:



Yo odio el Fisher's exact test puesto que tiene problemas de orden práctico, citando a Agresti & Coull, y que la presunción de que es "exacta" se da en circunstancias muy raras. O, para decirlo de otra manera, es una solución exacta a un problema que nunca se verá.


Gelman también propone un método bayesiano directo y sencillo (basado en la diferencia de dos proporciones inducida por la tabla 2X2) que es práctico en los problemas fáciles y se generaliza rápidamente a problemas más complejos. Curiosamente, el método del análisis de la diferencia de proporciones fue uno de mis primeros acercamientos a la teoría bayesiana y hace poco tiempo, en este blog, publiqué un artículo que trata de cómo realizar un análisis de este tipo en R. En resumidas cuentas, la técnica se trata de suponer que las entradas de la tabla vienen de distribuciones binomiales "independientes" (Nótese el símil con la hipótesis nula de independencia), una con parámetro $latex theta_1$ y la otra con parámetro $latex theta_2$. Estos parámetros, que se asumen variables aleatorias, tienen asignada una función de probabilidad a priori, que usualmente es Beta puesto que admite varios casos particulares como la uniforme. Como se asume independencia, entonces la densidad a posteriori de los parámetros será Beta. En resumen se tienen dos densidades a posteriori para las cuales se simulan un número grande (digamos dos mil) observaciones para tener dos vectores de tamaño 2000. Por la independencia, un vector de observaciones provenientes de la distribución a posteriori de $latex theta_1 - theta_2$ está dada por la resta de los anteriores vectores. Las inferencias estarán dadas en términos de este nuevo vector. Eso es todo.


Sin embargo, una cosa es que la diferencia de los parámetros de las binomiales sea igual a cero con una credibilidad muy alta y otra es que las filas y las columnas en la tabla 2X2 sean independientes. Luego, lo que Gelman no responde es ¿de qué manera se relacionan estas dos situaciones? Pues bien, la respuesta está en este sencillo documento (¿página 189?) que encuentro muy didáctico. Con esto simplemente se conlcuye que si $latex Pr(theta_1 > theta_2)$ o si $latex Pr(theta_2 > theta_1)$ es muy grande, entonces no existe independencia entre las filas y columnas de la tabla de contingencia.


Ahora que está claro que sí existe una relación directa entre los dos análisis entonces no queda nada más sino bajar las funciones y el documento y realizar la inferencia, obviamente bayesiana, en las tablas 2X2 que son tan usadas por este gremio.

2 comments:

  1. Profesor buenas tardes es posible conseguir el artículo completo de tablas de contingencia aplicados a la estadística bayesiana

    ReplyDelete
  2. Acá está ... http://predictive.files.wordpress.com/2008/12/revmetcuant.pdf

    ReplyDelete