Thursday, September 24, 2009

John Cook y sus tres acercamientos a la distribución binomial negativa


John Cook plantea acá una interesante discusión acerca de la interpretación de la distribución binomial negativa. Nótese que esta distribución, según wikipedia, tiene la siguiente forma funcional:


$latex Pr(X=k)=frac{Gamma(r+k)}{k!Gamma(r)}p^r(1-p)^k$


En donde $latex X$ es una variable aleatoria y los parámetros de esta distribución son $latex p$ y $latex r$. El lector habrá notado que la forma funcional de este modelo no es familiar y tal vez dudará en que de veras corresponda a la famosa binomial negativa. La razón es clara: en la forma funcional dada arriba no hay ninguna expresión que involucre combinatorias. Pues bien, resulta que las combinatorias, definidas para números enteros, se pueden extender para números reales a través de la función gamma. Este mismo tipo de conflicto lo pueden tener los estudiantes de series de tiempo cuando se enfrentan con los modelos ARFIMA (ver acá) que inducen un orden de integración $latex d$ que puede ser fraccionario y en donde el operador de rezago $latex B$ debe cumplir que $latex (1-B)^d=sum binom{d}{k}(-B)^k$.


Esta distribución siempre ha tenido lugar al resolver el famoso problema del número de ensayos necesarios para lograr tantos éxitos. Por supuesto, si $latex r$ es el número de éxitos necesarios y se conoce que la probabilidad de éxito es $latex p$, entonces la distribución binomial negativa corresponde a un modelo probabilístico, afianzado durante siglos, que permite la resolución de este tipo de situaciones.


Con lo anterior en mente, es posible asignar al parámetro $latex r$ valores que sean reales. Por supuesto, como lo afirma Cook, en este caso no hay ninguna interpretación práctica en el contexto del número de ensayos necesarios para tantos éxitos. Sin embargo, en términos de la distribución $latex r$ es un parámetro más. Esto nos lleva a uno de los verdaderos usos prácticos de esta distribución: sobredispersión. Dado que la forma funcional arriba corresponde a una generalización de la función de distribución Poisson, entonces es posible suponer que los datos de conteo vienen de una distribución binomial negativa. Lo anterior tiene sus ventajas puesto que si la media de los datos recolectados no corresponde con la varianza (característica esencial de la Poisson) entonces cualquier modelo que de allí surgiese sería altamente cuestionable. Si lo anterior se presenta es mejor acudir a la distribución binomial negativa dando valores reales al parámetro $latex r$.

No comments:

Post a Comment