Tuesday, September 6, 2011

Del muestreo a la teoría estadística… (Si no utilizó un MAS con reemplazo, sus análisis no son válidos)


En la introducción de su excelente libro, Statistical Design for Researches, Leslie Kish afirmó que el enunciado de la mayoría de libros de inferencia estadística abren con el siguiente enunciado: <<Dadas n variables aleatorias, seleccionadas de una población, independientes e idénticamente distribuidas…>> y que cada palabra en el anterior enunciado es engañosa. ¿Quién le da a uno las muestras? ¿Existe algún sitio en dónde las repartan? Las muestras no son dadas, las muestras deben ser seleccionadas, asignadas o capturadas. El tamaño de la muestra no siempre es un número n fijo, en la mayoría de casos prácticos es una variable aleatoria. Los datos no siguen el supuesto de independencia ni de idéntica distribución; es más, en muchas ocasiones no existe una sola población, sino que la muestra seleccionada es el resultado de una selección de sub-poblaciones para las cuales se deben producir, no sólo una estimación sino un montón de estimaciones. Así que la historia que nos contaron no aplica en la mayoría de situaciones prácticas.

Por otro lado, recuerdo cuando, en un simposio nacional de estadística, la expositora hablaba de cómo había ajustado un modelo de regresión logística y de todas las valiosas conclusiones a las que llegó analizando el problema en cuestión. A simple vista, el análisis de la regresión no tenía la más mínima amonestación. Sin embargo, cuando yo pregunté cómo había sido la selección de la muestra, ella contestó que los datos provenían de una encuesta compleja que avistaba estratos, etapas y selecciones proporcionales. Mi contra-pregunta inmediata se refirió a si ella había contemplado este diseño complejo en sus análisis y la respuesta, muy escueta, fue un rotundo no.

A donde quiero llevar a mis queridos lectores es a un lugar en donde no haya excusa alguna para repetir tan álgida práctica. Espero pues que, después de terminar la lectura de este post, usted no vuelva a analizar sus datos sin antes preguntarse acerca del proceso de selección de la muestra. Más aún, espero que se dé cuenta que, en términos de selección de muestras, sólo hay un único caso para el cual la teoría de la inferencia estadística es aplicable.

Tipos de muestreo

Y es que en términos de selección de muestras, sólo hay dos posibles escenarios generales. La selección con reemplazo y la selección sin reemplazo. Hablemos primero de la selección sin reemplazo, en donde una muestra seleccionada está conformada por algunos elementos de la población que no se repiten. Para seleccionar una muestra sin reemplazo de tamaño n=tres, de una población de tamaño N=5, el proceso de selección puede ser de la siguiente manera. Se escoge una unidad de las cinco posibles, luego se selecciona una unidad de las cuatro restantes, y por último, una unidad de las tres restantes. Esto hace que el proceso de selección de la muestra no se lleve a cabo de forma independiente. Por ejemplo, si el muestreo es aleatorio simple, la probabilidad de selección de la primera unidad es 1/5, la probabilidad de selección de la segunda unidad, es 1/4 y así sucesivamente.

Por otro lado, cuando el muestreo es con reemplazo, la selección se realiza de forma independiente puesto que se trata de realizar el mismo ensayo (seleccionar una unidad de cinco posibles) tres veces, sin importar que las unidades tengan diferentes probabilidades de selección.

Construyendo muestras aleatorias como en los libros clásicos

Por otra parte, es bien sabido que la teoría de muestreo establece que el valor de la característica de interés, yk, es eso… un valor, por tanto no es aleatorio. Luego, es incorrecto decir que yk es una variable aleatoria asociada con alguna distribución de probabilidad. Antes de que me sacrifiquen, permítame afirmar en mi defensa que así son las cosas en el muestreo y que lo único aleatorio en la inferencia es la muestra. Y entre otras cosas, en investigación social me parece coherente hablar de valores fijos. Ahora, no significa que no podamos construir variables aleatorias en muestreo. Por ejemplo, construyamos la siguiente variable aleatoria Xi, i=1,…,3, definida como el valor de la característica de interés en el individuo k-ésimo, seleccionado en la i-ésima extracción. En este caso, existen tres variables aleatorias, puesto que la muestra es de tamaño tres.

Si consideramos un muestreo aleatorio sin reemplazo, la primera variable aleatoria X1, podría tomar los cinco valores y1, y2, y3, y4, y5. La segunda variable aleatoria X2, sólo podrá tomar cuatro valores, puesto que X1 ya fue realizada, y la tercera variable aleatoria X3 sólo podrá tomar tres valores, puesto que X1 y X2 ya fueron realizadas. Esto hace que X1, X2 y X3 no constituya una sucesión de variables aleatorias independientes (puesto que la selección sin reemplazo no es un proceso independiente) ni idénticamente distribuidas (puesto que ni siquiera su espacio muestral es el mismo… X1 puede tomar cinco valores, X2 sólo cuatro y X3 sólo tres). Lo cual quiere decir que a partir de un muestreo sin reemplazo (ni siquiera el tan mencionado muestreo aleatorio simple) no es posible construir una muestra aleatoria, como las que aparecen en los libros de teoría estadística.

Sin embargo, algo muy distinto sucede con el muestreo con reemplazo. Cuando construimos las variables aleatorias X1, X2 y X3, resulta ser que ellas sí conforman una sucesión de variables aleatorias independientes (puesto que el muestreo con reemplazo sí define un proceso de extracciones independientes) e idénticamente distribuidas (puesto que conservan el mismo espacio muestral y mantienen la probabilidad de selección… X1, X2 y X3 pueden tomar los cinco valores, y para cada uno de esos valores la probabilidad es la misma). Es decir, X1 puede tomar los valores y1, y2, y3, y4, y5. La probabilidad de que X1=y1 es p1, la probabilidad de selección del primer elemento, la probabilidad de que X1=y2 es p2, la probabilidad de selección del segundo elemento y así sucesivamente hasta obtener que la probabilidad de que X1=y5 es p5, la probabilidad de selección del primer elemento primer elemento. La misma distribución la tienen X2 y X3. Por lo tanto, X1, X2, X3 conforman una muestra aleatoria, como las que aparecen en los libros clásicos de inferencia estadística.

Obteniendo los mismos resultados como en los libros clásicos

Entonces, hemos llegado a un punto sin retorno, en donde la conclusión es que si la muestra fue seleccionada con reemplazo, entonces podemos inducir una muestra aleatoria. Sin embargo, existen muchas variantes en el muestreo con reemplazo. A continuación, vamos a dilucidar cuál de ellas es la indicada para analizar la muestra de acuerdo a la teoría de los libros de inferencia. Lo vamos a hacer mediante un ejemplo muy sencillo, el estimador X barra, su esperanza y su varianza.

En primera instancia, veamos que para que la esperanza (bajo el diseño de muestreo, por eso el suscrito p) de cualquier variable aleatoria Xi, i=1,…,n, sea igual a la media poblacional, es necesario que, para todos los individuos en la población, la probabilidad de selección sea idéntica e igual a 1/N, como se muestra a continuación:


De la misma manera, para que la varianza de cualquier variable aleatoria Xi, i=1,…,n, sea igual a la varianza poblacional, se requiere la misma condición, puesto que:


Por lo tanto, la esperanza y la varianza de X barra coincidirán con los bien conocidos resultados de la inferencia clásica.



Pero, para llegar a esto, es necesario que el muestreo haya sido aleatorio simple con reemplazo. De otra forma, no se tienen las propiedades. Por lo tanto, esto aplica para pruebas de hipótesis, construcción de intervalos de confianza, modelos de regresión, y hasta diseño de experimentos. Ahora, si su encuesta está en marcha y los datos no fueron extraídos de manera aleatoria simple con reemplazo, usted puede analizarla confiadamente desde que incluya los pesos de muestreo en sus análisis, ya sean regresiones logísticas o simples varianzas del promedio.

5 comments:

  1. Hola!

    La probabilidad de que cualquier elemento Y_k de la población pertenezca a la muestra, considerando muestreo aleatorio simple, es: n/N.

    En el caso de MAS con reemplazo, es la suma de las probabilidades de las n extracciones independientes, es decir:
    1/N+1/N+...+1/N=n/N.

    En el caso de MAS sin reemplazo, esa probabilidad es:
    i) en la primera extracción: 1/N
    ii) en la segunda extracción: ((N-1)/N)(1/N)=1/N, es decir, la probabilidad de que no haya sido extraída la primera vez, pero sí la segunda
    iii) en la tercera, ((N-1)/N)((N-2)/(N-1))(1/(N-2))=1/N
    iv) en la n-ésima extracción: ((N-1)/N)((N-2)/(N-1))..(1/(N-(n-1)))=1/N

    Es decir, con o sin extracción, tenemos la misma probabilidad: n/N.

    ¿Me podría dar la referencia del libro ó artículo de donde se basó par esta publicación? De antemano muchas gracias.

    ReplyDelete
  2. Estimado Benjamín, la referencia es la entrada misma. Yo la pensé y la publiqué. Por otra parte, ((N-1)/N)(1/N) no es 1/N. Es decir, la probabilidad de selección no es constante para MAS sin reemplazo. Saludos, AG

    ReplyDelete
  3. Benjamín FigueroaOctober 18, 2011 at 1:00 PM

    Muchas gracias por tu contestación.

    Tengo un error en lo que escribí antes. Escribir fracciones y demás cuestiones matemáticas sin la ayuda de LaTeX, es un poco complicado. Corrijo.

    En el caso de MAS sin reemplazo, esa probabilidad es:
    i) en la primera extracción: 1/N
    ii) en la segunda extracción: ((N-1)/N)(1/(N-1))=1/N, es decir, la probabilidad de que no haya sido extraída la primera vez, pero sí la segunda
    iii) en la tercera, ((N-1)/N)((N-2)/(N-1))(1/(N-2))=1/N
    iv) en la n-ésima extracción: ((N-1)/N)((N-2)/(N-1))..(1/(N-(n-1)))=1/N
    Es decir, con o sin extracción, tenemos la misma probabilidad: n/N.

    Jamás quisiera sonar como un necio. Simplemente es el afán del conocimiento lo que me hace actuar. Hoy estuve discutiendo este tema con otro compañero estadístico. Las ideas fueron en resumen las siguientes:

    En MAS con reemplazo tenemos que: Var(bar(y))=S^2/n
    mientras que en MAS sin reemplazo:
    Var(bar(y))=(1-n/N)frac{sigma^2}{n}=(1-f)S^2/n

    Es decir, en el muestreo aleatorio sin reemplazo se considera un factor de corrección por finitud.

    Mi conclusión serían entonces:
    1) Si usted utilizó MAS con reemplazo sus estimaciones corresponden a las de las muestras aleatorios de los libros clásicos.
    2) Si usted utillizó MAs sin reemplazo se debe corregir la varianza mediante el factor (1-f) de corrección por población finita.

    Muchísimas gracias por su respuesta y también por su paciencia de leer mis comentarios. Hasta pronto!

    ReplyDelete
  4. Conclusiones acertadas... gracias por comentar!!

    ReplyDelete
  5. Queria agradecerte por un articulo poco extenso pero a la vez esclarecedor sobre el tema. La cuestion va tambien mas alla, por ejemplo en la teoria de errores (que no es mas que una teoria devenida de la teoria de muestreo) donde se busca el desarrollo de formulas y metodos de acotar la medicion realizada, via inferencia estadistica, pero la cual hay poca bibliografia clara sobre el tema, de hecho incluso he visto muchas mediciones realizadas por diferentes metodos y a los que se les aplica "formulas de memoria" que no conducen a lo deseado, puesto que no le son aplicables (no cumplen supuestos de Gauss, por ejemplo) pero que erroneamente - ironico, verdad? - se enseñan. Un abrazo.

    ReplyDelete