Tuesday, October 30, 2012

Regresión Beta (modelando la media y la precisión)

Si su variable de interés toma valores en el intervalo (0,1), puede ser correctamente modelada con la distribución Beta. Por ejemplo, las proporciones, tasas, y porcentajes que muchas veces se consideran distribuidas normales, deberían ser consideradas como realizaciones de variables aleatorias con distribución Beta. Ahora, según Cribari-Neto & Zeileis (2010), es natural que estas regresiones sean heterocedásticas pues los datos muestran más variación cerca de la media y menos dispersión en los límites del intervalo.


La regresión se lleva a cabo al realizar una reparametrización de la distribución, de la siguiente manera:


$latex f(y,mu,phi)=frac{Gamma(phi)}{Gamma(muphi)Gamma((1-mu)phi)}y^{muphi-1}(1-y)^{(1-mu)phi-1}$


 Luego, la media y la precisión se modelan de la siguiente manera, respectivamente:


$latex g_1(mu_i)=mathbf{x}_i' mathbf{beta} $


 $latex g_2(phi_i)=mathbf{z}_i' mathbf{gamma}$


La inferencia de estos modelos puede hacerse de forma clásica, por ejemplo, utilizando el paquete betareg. Sin embargo, en la red también se encuentran algunos documentos de Cepeda & Garrido, que dan cuenta de la inferencia Bayesiana para esta misma configuración con algunos códigos en WinBugs. A propósito de la inferencia Bayesiana, el enfoque de Cepeda está dado en términos de la creación de nuevas variables de trabajo para la implementación de un algoritmo híbrido MCMC.


El siguiente código realiza la estimación clásica para un conjunto de datos. La función de vínculo para el modelo de media es logit, y para el modelo de precisión es logarítmica.



library(betareg)
data(FoodExpenditure)
attach(FoodExpenditure)
model.beta <- betareg(I(food/income) ~ income + persons| income, data = FoodExpenditure, link = "logit", link.phi = "log")
summary(model.beta)

Desde el punto de vista Bayesiano, se debe implementar un algoritmo híbrido. El siguiente código puede ser usado para encontrar las estimaciones con distribuciones previas planas y no informativas para los parámetros de regresión, tanto en la media, como en la precisión.