TABLAS DE CONTINGENCIA

En muchas ocasiones, los n elementos de una muestra tomada de una población pueden clasificarse con dos criterios diferentes. Por tanto, es interesante saber si los dos métodos de clasificación son estadísticamente independientes. Supóngase que el primer método de clasificación tiene r niveles, y que el segundo tiene c niveles. O sea Oij la frecuencia observada para el nivel i del primer método de clasificación y el nivel j del segúndo método de clasificación. En general, los datos aparecerán como se muestra en la siguiente tabla. Una tabla de este tipo usualmente se conoce como tabla de contingencia r x c.

Columnas

Renglones

 

1

2

. . .

c

1

O11

O12

. . .

O1c

2

O21

O22

. . .

O2c

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

r

Or1

Or2

. . .

Orc

El interés recae en probar la hipótesis de que los dos métodos de clasificación renglón-columna son independientes. Si se rechaza esta hipótesis, entonces se concluye que existe alguna interacción entre los dos criterios de clasificación. Los procedimientos de prueba exactos son difíciles de obtener, pero puede obtenerse un estadístico de prueba aproximado válido para n grande.

Sea pij la probabilidad de que un elemento seleccionado al azar caiga el la
ij-ésima celda, dado que las dos clasificaciones son independientes. Entonces, pij=uivj, donde ui es la probabilidad de que un elemento seleccionado al azar pertenezca al renglón de la clase i, y vj es la probabilidad de que un elemento seleccionado pertenezca a la columna de la clase j. Ahora bien, si se supone independencia, los estimadores de ui y vj son:

Por lo tanto, la frecuencia esperada de la celda es:

Entonces, para n grande, el estadístico

tiene una distribución aproximada ji-cuadrada con (r-1)(c-1) grados de libertad si la hipótesis nula es verdadera. Por consiguiente, la hipótesis de independencia debe rechazarse si el valor del estadístico de prueba X2 calculado es mayor que X2 crítico o de tabla.

Ejemplos:

  1. Una asociación de profesores universitarios quiere determinar si la satisfacción en el trabajo es independiente del rango académico. Para ello realizó un estudio nacional entre los académicos universitarios y encontró los resultados mostrados son la tabla siguiente. Con =0.05, haga una prueba para saber si son dependientes la satisfacción en el trabajo y el rango.
  2.  

    Satisfacción en el

    trabajo

    Rango

     

    Instructor

    Profesor

    asistente

    Profesor

    asociado

    Profesor

    Mucha

    40

    60

    52

    63

    Regular

    78

    87

    82

    88

    Poca

    57

    63

    66

    64

    Solución:

    Ho; La satisfacción en el trabajo y el rango son independientes.

    H1; La satisfacción en el trabajo y el rango son dependientes.

    Grados de libertad: (r-1)(c-1) = (3-1)(4-1)=(2)(3) = 6

    Regla de decisión:

    Si X2R 12.592 no se rechaza Ho.

    Si X2R > 12.592 se rechaza Ho.

    Se procederá a calcular los valores esperados de cada celda. Como los grados de libertad son 6, esto quiere decir que necesitamos calcular únicamente 6 frecuencias esperadas, y las faltantes se encuentran por diferencia.

    Se calcularán los valores esperados E11, E12, E13, E21, E22 y E23.

    Como se necesitan los totales de renglón y columna se mostrarán en la tabla:

     

     

    Satisfacción en el

    trabajo

    Rango

     

    Instructor

    Profesor

    asistente

    Profesor

    asociado

    Profesor

    Total

    Mucha

    40

    60

    52

    63

    215

    Regular

    78

    87

    82

    88

    335

    Poca

    57

    63

    66

    64

    250

     

    Total

    175

    210

    200

    215

    800

    Rango

    Satisfacción

    Instructor

    Profesor

    asistente

    Profesor

    asociado

    Profesor

    Total

    Mucha

    40

    (47.03)

    60

    (56.44)

    52

    (53.75)

    63

    (57.78)

    215

    Regular

    78

    (73.28)

    87

    (87.94)

    82

    (83.75)

    88

    (90.03)

    335

    Poca

    57

    (54.69)

    63

    (65.62)

    66

    (62.50)

    64

    (67.19)

    250

    Total

    175

    210

    200

    215

    800

    Los valores entre paréntesis son los esperados, los que no se calcularon por fórmula se obtuvieron por diferencia con respecto a los totales.

    Decisión y justificación:
    Como el valor de 2.75 es menor que el de tabla 12.592, por lo tanto no se rechaza Ho y se concluye con un
    =0.05 que la satisfacción en el trabajo y el rango son independientes.

  3. En un estudio de un taller, se reúne un conjunto de datos para determinar si la proporción de defectuosos producida por los trabajadores es la misma para el turno matutino, vespertino o nocturno. Se reunieron los siguientes datos:

Turno

 

Matutino

Vespertino

Nocturno

Defectuosos

45

55

70

No defectuosos

905

890

870

Utilice un nivel de significancia de 0.025 para determinar si la proporción de defectuosos es la misma para los tres turnos.

Solución:

Ho; La proporción de artículos defectuosos es la misma para los tres turnos.

H1; La proporción de artículos defectuosos no es la misma para los tres turnos.

Grados de libertad: (r-1)(c-1) = (2-1)(3-1)=(1)(2) = 2

 

 

Regla de decisión:

Si X2R 7.378 no se rechaza Ho.

Si X2R > 7.378 se rechaza Ho.

Se procederá a calcular los valores esperados de cada celda. Como los grados de libertad son 2, esto quiere decir que necesitamos calcular únicamente 2 frecuencias esperadas, y las faltantes se encuentran por diferencia.

Se calcularán los valores esperados E11, y E22.

Como se necesitan los totales de renglón y columna se mostrarán en la tabla:

 

Matutino

Vespertino

Nocturno

Total

Defectuosos

45

55

70

170

No defectuosos

905

890

870

2665

Total

950

945

940

2835

 

Matutino

Vespertino

Nocturno

Total

Defectuosos

45

(57.0)

55

(56.7)

70

(56.3)

170

No defectuosos

905

(893.0)

890

(888.3)

870

(883.7)

2665

Total

950

945

940

2835

Decisión:

Si se busca este valor dentro de la tabla de ji-cuadrada con 2 grados de libertad nos dará un valor de P aproximado a 0.04. Si se observa el valor de la ji-cuadrada calculada de 6.29 con el valor de tabla de 7.378, se llega a la decisión de no rechazar Ho. Sin embargo sería riesgoso concluir que la proporción de defectuosos producidos es la misma para todos los turnos por tener un valor de P de 0.04.

Tablas de Contingencia para probar Homogeneidad

El uso de la tabla de contingencia de dos clasificaciones para probar independencia entre dos variables de clasificación en una muestra tomada de una población de interés, es sólo una de las aplicaciones de los métodos de tablas de contingencia. Otra situación común se presenta cuando existen r poblaciones de interés y cada una de ellas está dividida en las mismas c categorías. Luego se toma una muestra de la i-ésima población, y los conteos se introducen en las columnas apropiadas del i-ésimo renglón. En esta situación se desea investigar si las proporciones son o no las mimas en las c categorías de todas las poblaciones. La hipótesis nula de este problema establece que las poblaciones son homogéneas con respecto a las categorías (como el ejemplo pasado de los diferentes turnos), entonces la prueba de homogeneidad es en realidad una prueba sobre la igualdad de r parámetros binomiales. El cálculo de las frecuencias esperadas, la determinación de los grados de libertad y el cálculo de la estadística ji-cuadrada para la pruebe de homogeneidad son idénticos a los de la prueba de independencia.

ESTADISTICA NO PARAMETRICA

La mayor parte de los procedimientos de prueba de hipótesis que se presentan en las unidades anteriores se basan en la suposición de que las muestras aleatorias se seleccionan de poblaciones normales. Afortunadamente, la mayor parte de estas pruebas aún son confiables cuando experimentamos ligeras desviaciones de la normalidad, en particular cuando el tamaño de la muestra es grande. Tradicionalmente, estos procedimientos de prueba se denominan métodos paramétricos. En esta sección se consideran varios procedimientos de prueba alternativos, llamados no paramétricos ó métodos de distribución libre, que a menudo no suponen conocimiento de ninguna clase acerca de las distribuciones de las poblaciones fundamentales, excepto que éstas son continuas.

Los procedimientos no paramétricos o de distribución libre se usan con mayor frecuencia por los analistas de datos. Existen muchas aplicaciones en la ciencia y la ingeniería donde los datos se reportan no como valores de un continuo sino mas bien en una escala ordinal tal que es bastante natural asignar rangos a los datos.

Un ejemplo donde se aplica una prueba no paramétrica es el siguiente, dos jueces deben clasificar cinco marcas de cerveza de mucha demanda mediante la asignación de un grado de 1 a la marca que se considera que tiene la mejor calidad global, un grado 2 a la segunda mejor, etcétera. Se puede utilizar entonces una prueba no paramétrica para determinar donde existe algún acuerdo entre los dos jueces.

Se debe señalar que hay varias desventajas asociadas con las pruebas no paramétricas. En primer lugar, no utilizan la información que proporciona la muestra, y por ello una prueba no paramétrica será menos eficiente que el procedimiento paramétrico correspondiente, cuando se pueden aplicar ambos métodos. En consecuencia, para lograr la misma potencia, una prueba no paramétrica requerirá la correspondiente prueba no paramétrica.

Como se indicó antes, ligeras divergencias de la normalidad tienen como resultado desviaciones menores del ideal para las pruebas paramétricas estándar. Esto es cierto en particular para la prueba t y la prueba F. En el caso de la prueba t y la prueba F, el valor P citado puede ser ligeramente erróneo si existe una violación moderada de la suposición de normalidad.

En resumen, si se puede aplicar una prueba paramétrica y una no paramétrica al mismo conjunto de datos, debemos aplicar la técnica paramétrica más eficiente. Sin embargo, se debe reconocer que las suposiciones de normalidad a menudo no se pueden justificar, y que no siempre se tienen mediciones cuantitativas.

PRUEBA DEL SIGNO

La prueba del signo se utiliza para probar la hipótesis sobre la mediana de una distribución continua. La mediana de una distribución es un valor de la variable aleatoria X tal que la probabilidad de que un valor observado de X sea menor o igual, o mayor o igual, que la mediana es 0.5. Esto es, .

Puesto que la distribución normal es simétrica, la media de una distribución normal es igual a la mediana. Por consiguiente, la prueba del signo puede emplearse para probar hipótesis sobre la media de una población normal.

Suponga que las hipótesis son:

Supóngase que X1, X2, . . . , Xn es una muestra aleatoria tomada de la población de interés. Fórmense las diferencias

Ahora bien si la hipótesis nula es verdadera, cualquier diferencia tiene la misma probabilidad de ser negativa o positiva. Un estadístico de prueba apropiado es el número de estas diferencias que son positivas, por ejemplo R+. Por consiguiente, la prueba de la hipótesis nula es en realidad una prueba de que el número de signos positivos es un valor de una variable aleatoria binomial con parámetro P = . Puede calcularse un valor P para el número observado de signos positivos r+ directamente de la distribución binomial. Al probar la hipótesis que se muestra al principio, se rechaza H0 en favor de H1 sólo si la proporción de signos positivos es suficientemente menor que ( o de manera equivalente, cada vez que el número observado de signos positivos r+ es muy pequeño). Por tanto, si el valor P calculado

P = P(R+ r+ cuando p = 1/2)

es menor o igual que algún nivel de significancia seleccionado previamente, entonces se rechaza H0 y se concluye que H1 es verdadera.

Para probar la otra hipótesis unilateral

se rechaza H0 en favor de H1 sólo si el número observado de signos más, r+, es grande o, de manera equivalente, cada vez que la fracción observada de signos positivos es significativamente mayor que . En consecuencia, si el valor P calculado P = P(R+ r+ cuando p = 1/2) es menor que , entonces H0 se rechaza y se concluye que H1 es verdadera.

También puede probarse la alternativa bilateral. Si las hipótesis son:

 

se rechaza H0 si la proporción de signos positivos difiere de manera significativa de (ya se por encima o por debajo). Esto es equivalente a que el número observado de signos r+ sea suficientemente grande o suficientemente pequeño. Por tanto, si r+ >n/2 el valor P es

P=2P(R+ r+ cuando p = )

Y si r+ >n/2 el valor P es

P=2P(R+ r+ cuando p = )

Si el valor P es menor que algún nivel preseleccionado , entonces se rechaza H0 y se concluye que H1 es verdadera.

Ejemplos:

  1. Un artículo informa cerca de un estudio en el que se modela el motor de un cohete reuniendo el combustible y la mezcla de encendido dentro de un contenedor metálico. Una característica importante es la resistencia al esfuerzo cortante de la unión entre los dos tipos de sustancias. En la siguiente tabla se muestran los resultados obtenidos al probar 20 motores seleccionados al azar. Se desea probar la hipótesis de que la mediana de la resistencia al esfuerzo cortante es 2000 psi, utilizando
= 0.05.

Solución:

Se mostrará la tabla del ejercicio y es función del investigador poner los signos con respecto a la mediana.

Observación

Resistencia al esfuerzo cortante

xi

Signo de la diferencia

xi-2000

Observación

Resistencia al esfuerzo cortante

xi

Signo de la diferencia

xi-2000

1

2158.70

+

11

2165.20

+

2

1678.15

-

12

2399.55

+

3

2316.00

+

13

1779.80

-

4

2061.30

+

14

2336.75

+

5

2207.50

+

15

1765.30

-

6

1708.30

-

16

2053.50

+

7

1784.70

-

17

2414.40

+

8

2575.10

+

18

2200.50

+

9

2357.90

+

19

2654.20

+

10

2256.70

+

20

1753.70

-

De la tabla se puede observar que el estadístico de prueba r+ = 14.

Regla de decisión:

Si el valor de P correspondiente a r+=14 es menor o igual que =0.05 se rechaza H0.

Cálculos:

Puesto que r+=14 es mayor que n/2=20/2=10, el valor de P se calcula de

P=2P(R+ 14 cuando p = )

La P se calcula con la fórmula de la distribución binomial:

Conclusión:

Como P=0.1153 no es menor que =0.05, no es posible rechazar la hipótesis nula de que la mediana de la resistencia al esfuerzo constante es 2000 psi.

Otra manera de resolver el problema es con Aproximación normal:

Cuando p=0.5, la distribución binomial esta bien aproximada por la distribución normal cuando n es al menos 10. Por tanto, dado que la media de la distribución binomial es np y la varianza es npq, la distribución de R+ es aproximadamente normal con media 0.5n y varianza 0.25n, cada vez que n es moderadamente grande. Por consiguiente las hipótesis pueden probarse con el estadístico:

Las reglas de decisión se establecerán como cualquier ensayo en una distribución muestral en donde se utiliza la distribución normal.

Para resolver el problema anterior:

Como la es mayor que 10 se utilizará la aproximación normal.

Regla de Decisión:

Si 1.96 ZR 1.96 No se rechaza Ho

Si ZR < -1.96 ó si ZR > 1.96 Se rechaza Ho

Cálculos:

Decisión y Conclusión:

Como 1.789 esta entre 1.96 y 1.96, no se rechaza H0 y se concluye con un =0.05 que la mediana es de 2000 psi.