Thursday, September 8, 2011

Si las elecciones fueran hoy (y además 1, 2, 3, etc.)… Peñalosa gana (P=0.973)

Esta serie de entradas buscan analizar, a manera de ejemplo, la adjudicación de distribuciones previas en un análisis bayesiano de tipo electoral. Los resultados son meramente ilustrativos y no deberían inducir ninguna intención de voto. 


Antes de que comience a leer, le quiero aclarar dos cosas: la primera es que el título de esta entrada no expresa mi intención de voto, y la segunda es que tanto los análisis como los resultados y discusiones de todas las entradas publicadas en este blog están protegidos por un copyright y usted es libre de leer, comentar y compartir esta información. Lo único que se pide es que se cite la fuente.


Aunque no estoy de acuerdo con la metodología de muestreo de la mayoría de las encuestas electorales, pienso que la acumulación de la información es de alguna forma ilustrativa. En esta entrada se realiza un análisis bayesiano acerca de la intención de voto para las próximas elecciones de la alcaldía de Bogotá, ciudad donde yo resido. El ejercicio es meramente académico y voy a actualizar los resultados de manera sistemática hasta el día de las elecciones.


El análisis electoral desde el enfoque bayesiano puede parecer sencillo. En una primera instancia, se trata de conocer la probabilidad de éxito de un candidato, que aplicada a una población específica se traduce en la intención de voto hacia el candidato. Como hay varios candidatos en la disputa, entonces es conveniente suponer que el fenómeno puede ser descrito muy bien mediante el uso de una distribución multinomial. Como el parámetro en este caso es un vector de probabilidades, es adecuado suponer una distribución previa de tipo Dirichlet para este vector. Por lo tanto, haciendo uso del teorema de Bayes, la distribución posterior del parámetro será también de tipo Dirichlet.


En esta primera entrada, desarrollaremos un análisis básico con base en una primera encuesta realizada del 12 al 14 de Agosto por la firma Ipsos – Napoleón Franco, en donde según el portal WEB de la revista Semana se afirma que:




<<Según la encuesta de Ipsos Napoleón Franco, hay un cabeza a cabeza (cada uno con el 22%) entre los dos candidatos. Mockus es tercero, pero con notable diferencia: 12%, seguido, muy cerca, por Gina Parody, con 9%>>.



Con base en esta información, y teniendo en cuenta que hubo 604 respondientes, se afina la distribución previa que es Dirichlet con parámetros 133 (igual a 604*0.22), 133 (604*0.22), 72 (604*0.12) y 64 (604*0.09), para los candidatos Peñalosa, Petro, Mockus y Parody, respectivamente. En las entradas posteriores se analizarán otras distribuciones previas que pueden ser más convenientes y/o tener ventajas en el análisis.


Por otro lado, según la última encuesta electoral reportada por un medio de comunicación, correspondiente a la realizada por la firma Centro Nacional de Consultoría, entre el 30 de agosto y el primero de Septiembre, y publicada por el portal WEB de ElTiempo.com afirma que:




<<Peñalosa alcanza el 22% de preferencia. Segundo aparece Gustavo Petro, con 17%, en tercer lugar Antanas Mockus, con 12%. El cuarto lugar es para la candidata Gina Parody, con 11%>>.



Como se trata de la encuesta más reciente, supondremos que estos datos corresponden a la realización de una distribución multinomial.


Es bien sabido que el análisis conjugado, señala que la distribución posterior del parámetro es de tipo Dirichlet, que en este ejercicio particular, tiene parámetros 353, 302, 192 y 164, para los candidatos Peñalosa, Petro, Mockus y Parody, respectivamente. Después de realizar cien mil simulaciones de Monte Carlo y chequear la convergencia de las cadenas y todo lo otro que se deba chequear, los resultados se presentan a continuación:



Luego, la distribución posterior estima que Peñalosa será el ganador. Nada nuevo hasta acá. La novedad es que realicé un análisis para determinar la probabilidad posterior de que el parámetro de Peñalosa fuese mayor que el parámetro de Petro. Esta probabilidad es del orden de 0.97. Luego, la probabilidad de victoria de Peñalosa sobre Petro al día de hoy y, aunque sea muy difícil, suponiendo que los datos son válidos, es de 0.97.


PD: El análisis se complementa considerando todos los candidatos en la contienda electoral. Este análisis sólo tuvo en cuenta los cuatro primeros en intención de voto.


PD2: Entre muchas otras razones, para que estos análisis sean válidos es necesario suponer que 1) el muestreo es aleatorio simple (mejor si es con reemplazo) 2) el modelo es correcto, 3) en este país las firmas encuestadoras sí hacen diseños probabilísticos para seleccionar una muestra, 4) El respondiente va a votar, 5) Va a votar por quien dijo que iba a votar.


PD3: Gracias a las reflexiones de los comentaristas esta entrada ha sufrido valiosos cambios que ayudaron a darle un enfoque más ilustrativo y académico.


14 comments:

  1. Yo recuerdo que alguna vez hice ese ejercicio con mi amigo Ronald Herrera, motivado por el profesor Edilberto Cepeda. Desistimos de la idea al encontrar que los par'ametros de la distribuci'on aposteriori (Dirichlet) son una simple suma de los conteos de las dos encuestas. Mi opini'on es que este an'alisis no es v'alido ni siquiera de manera descriptiva (pues es un enfoque inferencial). Que una encuesta salga en un momento y otra despu'es no quiere decir que esa informaci'on se pueda combinar de esta manera como apriori y actualizaci'on en un enfoque Bayesiano. Las dos encuestas miden intenci'on de voto en momentos diferentes. Es m'as, este an'alisis no tiene en cuenta el disenio muestral.

    Saludos.

    ReplyDelete
  2. Hola Mauricio, lo de la actualización bayesiana es debatible (lo comentaré en una próxima entrada).

    ReplyDelete
  3. Complementando el comentario de Mauricio, la estadistica basada en modelos supone que los datos constituyen realizaciones independientes de una variable aleatoria que sigue determinada distribucion. Los ejercicios de inferencia buscan "aprender" ciertas caracteristicas de dicha distribucion. Por lo tanto, aunque los multiples supuestos sean validos (iid, modelos parametricos, etc), las inferencias que se hacen son solo validas para la distribucion que genero los datos, motivo por el cual los "sesgos" de muestreo en que las companyias que recogen estos datos incurren, y que tanto se han criticado en este blog, son tan danyinos en este analisis como lo son si se utiliza cualquier otro estimador basado en otros paradigmas.

    ReplyDelete
  4. PS: perdon por la ortografia, desafortunadamente fueron angloparlantes los que se inventaron los computadores.

    ReplyDelete
  5. Aun no dejo de pensar en esto, y concluyo que me parece muy grave que alguien con la responsabilidad social que usted tiene como cientifico publique los resultados de un analisis tan pobre, pero que a su vez contiene conclusiones tan contundentes y puede tener fuertes repercusiones en la sociedad. Por lo menos podria aclarar si es que se trata de un ejercicio academico.

    ReplyDelete
  6. Ahora sí tengo tiempo para escribir... Este comentario es en respuesta a Mauricio...

    Estimado Mauricio, al parecer usted y Herrera se desanimaron porque encontraron que los parámetros de la posterior eran simples agregados. Pues bien, así es, son simples agregados. ahora, recuerde que todo el andamiaje de la teoría estadística está construido con base en... simples promedios... De hecho, considero que la teoría estadística es una oda a X barra y no por eso es inocua.

    Por otra parte, y para escribir el post esto lo discutí con Michael Kellermann - un estadístico experto en ciencia política - es muy válido asignar los conteos de la primera encuesta como parámetros de la dirichlet previa... Si se da cuenta las encuestas no son muy distantes. Ahora, en la próxima encuesta que se publique, sería grave asignar las previas agregadas. Digo grave y no incorrecto, puesto que técnicamente no hay ninguna razón que invalide los resultados. Pero es grave, porque se iría acumulando mucho poder en la previa, de tal forma que en la encuesta 20 o 30, la previa acumularía toda la información y la verosimilitud perdería fuerza en el analisis posterior. Por lo tanto, uno desearía previas no tan informativas. Y de hecho, esta serie se trata de eso... Es un estudio empírico, muy simple pero valioso, sobre las distintas formas de asignación de previas. En la próxima encuesta encontrará el mismo análisis pero con previas distintas, de tal forma que se puedan contrastar.

    Sí, el análisis no tiene en cuenta el diseño muestral. No pasa nada... ¿sabe por qué? Por que las encuestadoras no hacen diseños muestrales... Luego, es imposible analizar algo que no existe. Ahora, estoy seguro de que en estas encuestas distritales no se presentan los mismos problemas de las encuestas nacionales. Y de alguna manera me atrevo a afirmar que CNC e IPSOS no están haciendo las cosas mal. Por supuesto, uno quiere un diseño muestral, pero no lo hay y toca hacer los post con lo que haya. Por algo existirán los journals científicos de marketing, de medicina, etc.

    Saludos desde Colombia... gracias por comentar!

    ReplyDelete
  7. Esta es para el primer comentario de Iván...

    Primera parte: No sé, tal vez no... Por ejemplo, en los ensayos clínicos casi siempre hay sesgo de selección. No obstante, se han presentado valiosos resultados y tratamientos con la utilización de modelos.

    Segunda parte: Sí, el título es engañoso y voy a cambiarlo. Es muy valioso su aporte porque me hace caer en cuenta que tal vez la escritura del post induce a pensar que se trata de conclusiones acertadas y no de un simple ejercicio ilustrativo.

    ReplyDelete
  8. Este es para el último comentario de Iván: Yo creo que el análisis es muy simple... Se asignan conteos a las previas, computador, monte carlo y listo. Es simple, pero no es pobre... Para un estudiante latinoamericano de estadística en pregrado puede ser muy ilustrativo. Y créame que es así... muchas personas me animan para que siga ilustrando la estadística con ejemplos de la vida práctica. Así que no es pobre para quien realmente lo valore.

    Por otro lado, yo no sé si usted leyó todo el post. Si se fija bien, esto dice en la introducción: < >

    Yo leo eso y pienso: < > Por otro lado, está bien que tenga fuertes repercusiones en la sociedad... De hecho las está teniendo y por eso todos estos comentarios.

    Gracias por comentar y saludos desde Colombia !

    ReplyDelete
  9. Gracias por la respuesta Andres, son temas que vale la pena discutir.

    Con respecto a su primera respuesta, el hecho de que los resultados se presenten y hasta se publiquen en revistas importantes no quiere decir que sean correctos, la historia de la ciencia esta llena de "resultados" que anyos despues resultaron ser falsos. A este respecto los lectores del blog pueden leer el articulo "Why Most Published Research Findings Are False", que encuentran en google con solo digitar el nombre en el buscador. Adicionalmente, no veo en su analisis ningun esfuerzo por controlar por ese sesgo de seleccion, cosa que esta bien si esto se trata de un ejercicio de clase, pero que esta muy mal si es un ejercicio que verdaderamente intenta estimar la intencion de voto.

    Con respecto al tercer comentrio, me confundi por la certeza de sus conclusiones. El ejercicio es ilustrativo de lo que no se debe hacer en la practica de la vida real, para cualquier estudiante de estadistica, no solo en latinoamerica. Ahora, insisto en que representaria una alternativa muy pobre si fuera un analisis que pretende utilizarse con objetivos periodisticos, o politicos.

    Aunque por lo que veo su ejercicio no tiene otro interes mas que el de ilustrar estudiantes sobre el uso de una metodologia en particular, quiero ir mas alla, porque alguien podra argumentar que este ejercicio es menos pobre que lo que se hace en la practica actualmente. Como estadistico prefiero una pregunta sin respuesta a una mentira. Si es que no hay datos disponibles para implementar un estimador insesgado, pues quedemonos sin estimaciones hasta que los haya, pero no corramos el riesgo de entregar a la sociedad resultados con una cantidad de sesgo desconocida, mucho menos cuando esos resultados tienen implicaciones politicas y sociales.

    PS: seria tambien chevere si ampliara el tamanyo del recuadro que el blog tiene para que los lectores escribamos nuestros comentarios. Saludos.

    ReplyDelete
  10. Lax & Phillips (2009)[http://www.columbia.edu/~jrl2124/Lax%20Phillips%20-%20Estimating%20State%20Public%20Opinion.pdf], escriben que, para hace estudio de opinión en agregaciones más pequeñas que la nacional se debe tener en cuenta: el tamaño de muestra, la complejidad del modelo y el balance entre los predictores demográficos y geográficos y recomienda hacer desagreagaciones de encuestas más grandes. Entonces, claramente este tema debe explicarse con más cuidado porque precisamente es la opinión pública el fenómeno más volátil.

    ReplyDelete
  11. Hola parce:

    Buen ejemplo. Interesante. Analisis de sensibilidad es necesario, (i.e. otras previas). Bueno y desde el punto de vista muestral leer el libro de Rao o Little los que hacen muestreo bayesiano y la verdad esto ya no es cuestionable. En fin los ensayos clinicos realizan cosas similiares.

    Como ejemplo numerico excelente. Bien man gracias por fomentar la estadistica Bayesiana en Colombia!!!
    ya es hora que los estadisticos en Colombia entiendan que esta linea no es solamente teorica y si muy practica y que tambien se acabe el monopolio de que solo algunos conocen esta area en Colombia. Buena!!!

    Bye

    ReplyDelete
  12. Es cierto Jairo, yo no veo nada de malo en que haya sesgos de selección... Es más, chévere... quién dijo que una buena muestra es aquella en donde hay "representatividad" en las frecuencias demográficas o lo que sea. Ahora, que la selección sea sesgada implica cierta responsabilidad en la escogencia del estimador. Por ejemplo, el PPT es completamente sesgado a favor de aquellas unidades que tienen una xk más grande. Ahora, que hay un proceso probabilístico que seleccione aleatoriamente esas unidades no es gran cosa. Lo que sí es gnancia es que se pueden conseguir estimadores insesgados que tengan en cuenta ese proceso de selección.

    Por otra parte, escoger un estimador porque sea insesgado es un criterio muy debatible. Existen otras propiedades como la consistencia que son más intuitivas. De qué sirve un estimador que tenga dos realizaciones 0 y 8 y su esperanza es 4. Ps de nada.

    ReplyDelete
  13. [...] con qué ganas voy a hacer el análisis bayesiano electoral con las últimas denuncias que se han suscrito a la encuestadora Datexco? En mis pocos años de [...]

    ReplyDelete
  14. Suponga que usted utiliza el mejor diseño muestral (en el escritorio porsupuesto), que obtiene los mejores estimadores, con la mejor estimacion de la varianza.
    Ahora, como selecciona la muestra?
    Enviamos a los encuestadores a que realicen las encuestas a quien las realizan, ustedes saben?
    A los seleccionados, cuales seleccionados?
    Si un encuestador tiene a su haber 10 encuestas y realiza 3 y el resto las diligencia el mismo en una cafetería inventándose los datos, que sentido tienen los estimadores calculados con información inventada? que sentido tiene la varianza?
    De que sirvío el mejor diseño muestral?
    Un ejemplo : En una base de datos se pueden leer que el 1% de hombres sufren de cáncer en los ovarios. Esto que puede significar en términos de estimadores?

    ReplyDelete