Tuesday, October 30, 2012

Regresión Beta (modelando la media y la precisión)

Si su variable de interés toma valores en el intervalo (0,1), puede ser correctamente modelada con la distribución Beta. Por ejemplo, las proporciones, tasas, y porcentajes que muchas veces se consideran distribuidas normales, deberían ser consideradas como realizaciones de variables aleatorias con distribución Beta. Ahora, según Cribari-Neto & Zeileis (2010), es natural que estas regresiones sean heterocedásticas pues los datos muestran más variación cerca de la media y menos dispersión en los límites del intervalo.


La regresión se lleva a cabo al realizar una reparametrización de la distribución, de la siguiente manera:


$latex f(y,mu,phi)=frac{Gamma(phi)}{Gamma(muphi)Gamma((1-mu)phi)}y^{muphi-1}(1-y)^{(1-mu)phi-1}$


 Luego, la media y la precisión se modelan de la siguiente manera, respectivamente:


$latex g_1(mu_i)=mathbf{x}_i' mathbf{beta} $


 $latex g_2(phi_i)=mathbf{z}_i' mathbf{gamma}$


La inferencia de estos modelos puede hacerse de forma clásica, por ejemplo, utilizando el paquete betareg. Sin embargo, en la red también se encuentran algunos documentos de Cepeda & Garrido, que dan cuenta de la inferencia Bayesiana para esta misma configuración con algunos códigos en WinBugs. A propósito de la inferencia Bayesiana, el enfoque de Cepeda está dado en términos de la creación de nuevas variables de trabajo para la implementación de un algoritmo híbrido MCMC.


El siguiente código realiza la estimación clásica para un conjunto de datos. La función de vínculo para el modelo de media es logit, y para el modelo de precisión es logarítmica.



library(betareg)
data(FoodExpenditure)
attach(FoodExpenditure)
model.beta <- betareg(I(food/income) ~ income + persons| income, data = FoodExpenditure, link = "logit", link.phi = "log")
summary(model.beta)

Desde el punto de vista Bayesiano, se debe implementar un algoritmo híbrido. El siguiente código puede ser usado para encontrar las estimaciones con distribuciones previas planas y no informativas para los parámetros de regresión, tanto en la media, como en la precisión.

3 comments:

  1. Andrés, usted dirá que yo soy muy mamón, y seguro lo soy, pero la frase con que su entrada comienza no es correcta. Qué le hace pensar que todas las variable con soporte en (0,1) tienen distribución Beta?

    ReplyDelete
  2. Cierto, puede tener también otra distribución (de kuramaswany, por ejemplo http://www.gutierrezandres.com/archives/1071) o uniforme. !!! o según le entiendo, podríamos no asumir ningún modelo paramétrico y conseguir su propia distribución mediante los enforques no paramétricos ?

    ReplyDelete
  3. Podría tener cualquiera de esas distribuciones, o aún peor, podría tener una distribución con cualquier forma funcional oscura que a usted se le ocurra.

    Antes de decidirse por un método, creo que hay una pregunta más importante que responder: Qué quiere uno saber sobre la distribución de los datos? En su ejemplo FoodExpenditure, por ejemplo, podría ser de interés saber si la proporción de ingresos invertida en comida es más alta para las personas con mayor ingreso o no. Claro, también podría ser de interés conocer la distribución condicional del porcentaje dado el ingreso y el número de personas (que es lo que ud estima en su ejemplo), pero primero hay que decidir cuál es la pregunta de investigación.

    ReplyDelete