Friday, September 21, 2012

¿Con intercepto o sin intercepto? ¡Esa es la cuestión! (controversia del mes... ver los comentarios)

Hace varios meses he tenido que lidiar con la creación de modelos en diferentes disciplinas. Si bien cada modelo requiere que el investigador haga una contextualización adecuada de la problemática que aborda, lo cual implica que ningún modelo será igual a otro, existe una pregunta común que el investigador debe hacerse antes de la puesta en marcha del modelo.


¿Ajusto el modelo con o sin intercepto?  


En la búsqueda del mejor ajuste, el investigador se ve tentado muchas veces a ejecutar procedimientos automatizados de selección de variables (stepwise, forward, backward) y muchas veces se escoge el mejor modelo; de tal manera que el coeficiente de determinación (o el AIC, o el DIC) sea el más alto. Llámenme anticuado y retrogrado (o incluso vejestorio) pero yo siempre he sido un poco reticente de meter los datos al software y esperar el mejor modelo (ver diseño estadístico).


Volviendo al objeto de esta entrada quisiera resaltar la importancia de la inclusión/omisión del intercepto en un modelo. Para esto voy a tener en cuenta los siguientes casos


Si la variable respuesta Y es continua:




  • La variable explicativa X también es continua: este es el caso clásico de una regresión lineal, donde al incluir el intercepto, estamos asumiendo que cuando  X toma el valor 0, el valor de Y no es 0, y corresponde a la estimación del intercepto. Mientas que al excluir el intercepto, estamos exigiendo que el valor de Y sea 0 cuando X sea 0. De esta forma la inclusión o exclusión del intercepto, en muchos casos, depende de la naturaleza y la interpretación de las variables.

  • Cuando la variable explicativa X es categórica, y sin pérdida de generalidad al asumimos como dicotómica (de dos niveles): en este caso, al ajustar una línea de regresión incluyendo el intercepto, se crea una variable Dummy que representa el primer nivel de la variable X, y el modelo queda definido como


 $latex Y_i=beta_0+beta_1 D1_i+E_i$


Donde D1 toma el valor 1 para los individuos que se encuentran en el primer nivel de X y toma el valor 0 para los demás individuos. En este caso, la interpretación de este modelo es como sigue: Para los individuos del nivel 1 de X, la esperanza de Y está dada por $latex beta_0+beta_1$. Para los individuos del nivel 2 de X, la esperanza de Y está dada por $latex beta_0$. De esta forma $latex beta_1$ representa la diferencia en los dos niveles, y si la estimación resulta significativa implica que la variable X sí tiene una influencia significativa en Y.


Por otro lado, si se ajusta la regresión sin el intercepto, se crean dos variables Dummies representando los niveles de X, y el modelo queda formulado como


 $latex Y_i=beta_0D1_i+beta_1D2_i+E_i$


En este modelo tenemos que: para los individuos del primer nivel de X, la esperanza de Y está dada por $latex beta_0$ y para los individuos del segundo nivel de X, la esperanza de Y está dada por $latex beta_1$. De esta forma, aun cuando la estimación de $latex beta_0$ o de $latex beta_1$ resulte significativa, no implica que X influye en Y. Lo único que podríamos afirmar en este modelo es que los dos parámetros son significativamente distintos de cero. Por lo tanto si se desea establecer si X influye en Y, entonces omitir el intercepto no resulta ser una buena opción.


 Si la variable respuesta Y es discreta:




  • Si la variable respuesta Y es continua: en este caso, el modelo que se ajusta correspondería (en general) a una regresión logit, modelando las probabilidades de éxito $latex pi_i$ en términos de X de la forma


$latex logit(pi_i)=beta_0+beta_1X_i$


Si el modelo incluye intercepto, la estimación de $latex beta_0$ se puede usar para estimar la probabilidad de éxito cuando X toma el valor 0, puesto que $latex pi_i=frac{exp{beta_0}}{1+exp{beta_0}}$. Por otro lado, si la estimación de $latex beta_1$ no resulta significativa, implica que los valores de X no influyen en las probabilidades de éxito, y estas serán constantes; si la estimación de $latex beta_1$ es significativa con un valor positivo (negativo), indica que el aumento de la variable X contribuye a obtener una mayor (menor) probabilidad de éxito, y esta interpretación se mantiene cuando la regresión se ajusta sin el intercepto.




  • Cuando la variable explicativa es categórica que sin pérdida de generalidad, se asume como dicotómica (de dos niveles): en este caso, al ajustar una línea de regresión incluyendo el intercepto, se crea una variable Dummy que representa el primer nivel de la variable X, y el modelo queda definido como


$latex logit(pi_i)=beta_0+beta_1D1_i$


La interpretación de este modelo es como sigue: para los individuos del primer nivel de X, $latex logit(pi_i)= beta_0+beta_1$ y para los individuos del segundo de $latex X$, $latex logit(pi_i)= beta_0$. De esta forma, si la estimación de $latex beta_1$ es significativa, indica que $latex logit(pi_i)$ es diferente en los niveles de la variable X, y podemos concluir que la variable X sí tiene una influencia significativa en Y.


Por otro lado, si se ajusta la regresión sin el intercepto, se crean dos variables Dummies representando los niveles de X, y el modelo queda formulado como


$latex logit(pi_i) =beta_0D1_i+beta_1D2_i$


Para este modelo, las estimaciones de $latex beta_0$ y $latex beta_1$ representan los valores de $latex logit(pi_i)$ en los dos niveles de X. De esta forma, la significación de la estimación de $latex beta_1$ no da ninguna información sobre la influencia de X en Y.


En resumen, podemos concluir que cuando la variable explicativa es continua, la interpretación de $latex beta_1$ no varía si se incluye o se excluye el intercepto, mientras que cuando la variable explicativa es discreta, debemos tener en cuenta si el modelo incluye o no el intercepto, puesto que la interpretación de $latex beta_1$ cambia. Además, si lo que se quiere es conocer la influencia de X en Y, es necesario incluir el intercepto. Lo anterior, sólo se logra si se construye un modelo con intercepto, y se dejan de lado (un poco, aunque sea un poco) los procedimiento automatizados que ajustan el mejor modelo, en términos de la bondad del ajuste.

20 comments:

  1. Hola Andrés.

    Si de ajustar los datos (que yo leo como estimar consistentemente E(Y|X)) se trata, da lo mismo sin o con intercepto, simplemente porque E(Y|X,1) = E(Y|X).

    Si de interpretar los coeficientes se trata, yo no me desgastaría intentando descifrar qué significan en uno u otro caso, simplemente porque como todos los estadísticos sabemos, todos los modelos paramétricos están errados, lo que hace que los coeficientes estimados sean de todas formas no-interpretables.

    ReplyDelete
  2. Debí aclarar: todos los modelos paramétricos *no saturados* están errados.

    ReplyDelete
  3. Claro, pero no por eso vamos a dejar de plantear modelos que darían alguna explicación a un fenómeno. Todos lo mapas están errados; es decir, en alguna parte del mapa habrá algún error con seguridad... no por eso voy a dejar de utilizarlos... Ahora, dentro del modelo que se asume, los parámetros tienen interpretación... y ese es el espíritu de la entrada...

    ReplyDelete
  4. En teoría estadística le enseñan a uno que un modelo estadístico es un conjunto de distribuciones de probabilidad que contiene la distribución real de los datos.

    El único modelo que da una explicación útil de un fenómeno es el modelo que contiene la verdadera distribución de los datos, el resto de los modelos son en su totalidad inútiles, pues la distancia entre la distribución real de los datos y el modelo es desconocida, por lo tanto la '"utlidad" del modelo no puede ser medida.

    ReplyDelete
  5. Permítame ir más lejos... cuando usted menciona la distancia entre la distribución real de los datos y el modelo... yo le pregunto ¿los datos tienen una distribución?...Es decir, resulta paradójico hablar de la verdadera distribución, sabiendo de antemano que una distribución es un modelo y un modelo es... eso, un modelo... un acercamiento a la verdad!!!! En ese escenario, toda la práctica estadística no tendría sentido y sería inútil... pero lo que yo creo es que , aunque el modelo no sea exacto (y ningún modelo lo es), sí puede describir la realidad... y es que cuando yo busco un mapa, yo no quiero un mapa con montañas y carreteras de verdad, yo quiero una guía que describa la realidad... en esos términos, yo creería que los modelos que se construyen juiciosamente tienen mucha utilidad.

    ReplyDelete
  6. Hay un error conceptual grave, Andrés. Una distribución no es un modelo. Una distribución es una medida de probabilidad. Un modelo es un conjunto de distribuciones.

    El modelo no paramétrico es exacto y correcto, pues contiene la distribución real de los datos.

    ReplyDelete
  7. Claro, un modelo (en el sentido de la estadística matemática) es una familia de distribuciones que podríamos definir como f(y; theta) y cada valor de theta especifica una distribución particular.

    Pero yo no estoy refiriéndome a esa definición de modelo, sino a una más terrenal... Es decir, cuando yo digo, es que theta vale tanto... entonces ahí estoy modelando mi variable de interés... Fijo que theta no vale tanto en la vida real... pero si esa afirmación que hice acerca de theta se basó en una ejercicio juicioso y bien contextualizado, entonces esa distribución particula f(y;theta que vale tanto) es inmediatamente un modelo de la realidad de la variable respuesta... y entiéndase modelo como una acepción del verbo modelar que se refiere a formar o configurar el carácter de algo de acuerdo con unos rasgos o principios determinados!!!!

    A lo que voy es a esto... es muy fácil rayar el tablero y echar carreta acerca de la distribución real de los datos... Entonces, yo digo en el tablero que Y tiene tal distribución... Pero, en la vida real nadie puede asegurar que los datos tienen una distribución particular... en ese sentido, el modelo tiene mucha utilidad porque me permite acercarme a un fenómeno, tal vez desconocido... Lo veo muy dogmático con la "distribución real de los datos"... cuando en la realidad uno debería preguntarse si los datos pueden ser vistos como realizaciones de una variable aleatoria... Por ejemplo, el resultado del lanzamiento de una moneda... esa vaina no tiene nada de aleatorio.... eso es determinístico... sin embargo, ese es el ejemplo preferido de los profesores al hablar de realizaciones de una variable aleatoria, bla bla bla...

    ReplyDelete
  8. El lanzamiento de una moneda se convierte en pura física en lugar de un evento aleatorio. Es el elemento humano que hace que el proceso sea aleatorio cuando cada lanzamiento obedece a una velocidad diferente, una altura diferente, un ángulo diferente, etc... pero en últimas es un evento físico determinístico.

    ReplyDelete
  9. Andrés, no me parece correcto que sea un profesor de estadística quien esté jugando el juego de dar definiciones formales matemáticas para luego interpretar las cosas de forma "terrenal", que para mi no son más que interpretaciones ad hoc. La ciencia es objetiva, la estadística es una ciencia, no un arte.

    Si los datos no son realizaciones de una variable aleatoria, y no tienen una distribución de probabilidad real, ni usted ni yo deberíamos estar haciendo estadística, no es dogmatismo, es formalismo científico.

    ReplyDelete
  10. Ivan, lastimosamente a usted se le olvidó que existen corrientes filosóficas dentro de la ciencia estadística... un ejemplo claro es la inferencia en poblaciones finitas inducida por el diseño de muestreo... allí los datos no se consideran realizaciones de variables aleatorias... y gústele a quien le guste, existen junto a mí miles de investigadores serios que contemplan que los datos no necesariamente son realizaciones de variables aleatorias... Esta discusión es chévere y muy fructifera, pero creo que usted quiere matizarla con juicios personales que no le quedan nada bien y que no encajan dentro del formalismo científico que usted profesa... Le dejo unos comentarios más con base en sus argumentos:

    1.) Puede leer todo el trabajo de Persi Diaconis, uno de los probabilístas más respetados del mundo, para entender lo del lanzamiento de la moneda.

    2.) Usted dice que todos los modelos son inútiles; Box dice que todos son errados, pero algunos son útiles.

    3.) Usted dice que los datos son realizaciones de variables aleatorias; Neyman, Rao, Sarndal, Cochran, Kish, Brewer, y yo, entre muchos otros afirmamos que los datos no son realizaciones de variables aleatorias. Aún así, yo sigo enseñando estadística sin ningún inconveniente.

    4.) Quisiera que me ilustrara cómo utilizaría los principios de la teoría estadística al modelar una variable aleatoria. Deme un ejemplo de una variable y de la distribución real de los datos... Pero no un ejemplo de tablero, un ejemplo real... exacto, no puede darme ninguno, porque nadie conoce esa distribución real.

    5.) Dado que nadie conoce esa distribución real, el estadístico ha desarrollado todo un conjunto de técnicas para estimar los parámetros de esa distribución. De alguna manera, usted está negando el espíritu que existe detrás de todos lo procedimientos de estimación en estadística matemática... Para algo servirá la teoría de estimación y pruebas de hipótesis... Para qué sirve? pues para modelar en el sentido terrenal; es decir, para darle un valor a ese theta desconocido... De otra forma, nos quedaríamos con que Y se modela Normal con parámetros mu y sigma.

    5a.) Bien lo expresa Cox cuando dice que el modelamiento estadístico es un proceso de al menos dos etapas: la primera es la escogencia de un modelo, entre muchas familias distintas de modelos; la segunda es la escogencia de un modelo específico dentro de la familia seleccionada. Entonces mi término terrenal está respaldado por Cox y muchos otros... que a su vez, como yo, son profesores de estadística.

    6.) Creo que se le olvida un principio fundamental en estadística aplicada: el modelo se ajusta a los datos, no los datos al modelo... una leida rápida al libro de Cox (principles of applied statistics) estaría bien.

    Con gusto seguimos charlando del tema, siempre y cuando deje de lados los comentarios personales y se refiera solamente a los argumentos que escribo.

    ReplyDelete
  11. Ivan, acerca de su comentario de que los modelos no paramétricos son exactos, usted me podría dar un ejemplo de unos datos en donde se ajuste un modelo no paramétrico y uno paramétrico y en qué forma el modelo no paramétrico es exacto y el paramétrico es inexacto... creo que tal vez ahí está el quid del asunto que yo no le he entendido. saludos, ag

    ReplyDelete
  12. Para enfatizar mi respuesta a su última pregunta, el modelo no paramétrico es exacto y correcto porque contiene la distribución real de los datos.

    ReplyDelete
  13. Ivan: "asumir que se observan n copias iid de X", y si los datos no fueron obtenidos iid?, esa es una afirmaci'on fuerte, no?, y si no se cumple?, c'omo se hace para verificar eso?, creo que toda la teor'ia que lo hace estar tan seguro de la corriente no-param'etrica se basa en ese supuesto, no?, es m'as cuando existe error de medida, las bondades de los m'etodos no parametricos tradicionales desaparecen, y creo que errores de medida aparecen en todo lado.

    ReplyDelete
  14. Mauricio, esa es una pregunta muy importante también. Lo importante es ser honestos con los supuestos que incluimos en nuestro modelo estadístico. En muchos casos es correcto asumir independencia (e.g., muchas de las aplicaciones de biofarmaceútica en las que yo trabajo). En otros casos, como el suyo (redes sociales), ese supuesto es inverosímil. El deber del estadístico es entonces continuar siendo honesto, asumir modelos que incluyan ese conocimiento de no independencia, y trabajar fuertemente para desarrollar métodos de estadística matemática que sean adecuados. Sin embargo, me parece importante dar primero la discusión de los casos más simples, con el objeto de entender los conceptos fundamentales.

    ReplyDelete
  15. Adicionalmente, en la mayoría de los casos en que los datos no pueden ser considerados independientes, por lo menos se conoce que los datos están agrupados de alguna manera, y que esos grupos sí son independientes. Ejemplos son los datos longitudinales, y medidas repetidas de todo tipo. En ese caso la unidad de análisis es el grupo, la variable aleatoria es un vector X que contiene todas las variables de los individuos en el grupo, y el modelo es un modelo para la distribución F de la variable X.

    Por supuesto, hay muchos casos en que el tipo de dependencia no se puede describir de esta forma (redes sociales), en los que... ni idea qué hacer.

    ReplyDelete
  16. Interesante!!! comparto muchas ideas de Andres , la estadística a través de los modelos es una pequeña ventana con vista al mundo incomprensible (ya que además estamos sujetos al sistema y no somo agentes externos para poder validarla), y si de alguna forma tratar de interpretar un concepto siempre será errado entonces ¡hemos perdido la batalla! y ante todo el tan preciado tiempo .... y creo que los físicos también .... los grandes aportes en estadística muy pocas veces han sido resultados puramente teóricos .... a veces creo que el universo es un sistema con una causa y un efecto, y la aleatoriedad es una forma de explicar tales fenómenos determinísticos tan complejos ej movimiento browniano sujeto a la temperatura del sistema (aunque suponen un sistema de choques aleatorios) .... bastante interesante

    ReplyDelete
  17. La teoría que me hace estar seguro de la ''corriente no paramétrica'' no tiene nada que ver con supuestos de independencia, tiene que ver con rigurosidad científica.

    Si observamos X=(X1... Xn) ~ F, y F no puede ser factorizado como F=prod_i G(X_i) (caso iid), entonces planteamos un modelo no paramétrico para F.

    La matemática de esos modelos puede no ser fácil, pero es necesaria.

    ReplyDelete
  18. Querido anónimo. Me disculpo si mis comentarios dan la impresión de que todo está perdido. No es ese el mensaje que pretendo comunicar.

    Todo lo que estoy diciendo es que la estadística es una ciencia matemática. Los teoremas matemáticos tienen supuestos. Un supuesto fundamental de cualquier método estadístico es que el modelo contiene la distribución de los datos. No podemos construir métodos que de antemano sabemos violan este supuesto, y aún así esperar que los teoremas que en él se basan sean válidos!!!

    Si seguimos y tratamos de cumplir todos los supuestos cuidadosamente, seguro tendremos más chances de acercarnos a esa realidad que no parece tan inalcanzable (por lo menos eso dicen las matemáticas).

    ReplyDelete
  19. correción: que nos parece

    ReplyDelete
  20. Andres, puedo saber que referencias bibliograficas has usado para dar con las conclusiones acerca de usar o no el intercepto en el modelo...

    Saludos.y gracias

    ReplyDelete