Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

ANOVA unidireccional

Introducción a ANOVA unidireccional

Puede utilizar la función para realizar un análisis unidireccional de la desviación (ANOVA).Statistics and Machine Learning Toolbox™anova1 El propósito de ANOVA unidireccional es determinar si los datos de varios grupos (niveles) de un factor tienen una media común. Es decir, ANOVA unidireccional le permite averiguar si los diferentes grupos de una variable independiente tienen diferentes efectos en la variable de respuesta.y Supongamos que un hospital quiere determinar si los dos nuevos métodos de programación propuestos reducen los tiempos de espera de los pacientes más que la antigua forma de programar citas. En este caso, la variable independiente es el método de programación, y la variable de respuesta es el tiempo de espera de los pacientes.

ANOVA unidireccional es un simple caso especial de la .modelo lineal La forma ANOVA unidireccional del modelo es

yij=αj+εij

con los siguientes supuestos:

  • yij es una observación, en la que representa el número de observación, y representa un grupo diferente (nivel) de la variable predictora.ijy todoyij son independientes.

  • αj representa la media de la población para el grupo (nivel o tratamiento).j

  • εij es el error aleatorio, independiente y distribuido normalmente, con cero media y varianza constante, es decir,εij N(0,σ2).

Este modelo también se llama el archivo .significa modelo El modelo supone que las columnas de son la constanteyαj más el componente de errorεij. ANOVA ayuda a determinar si las constantes son todas iguales.

ANOVA prueba la hipótesis de que todos los medios de grupo son iguales frente a la hipótesis alternativa de que al menos un grupo es diferente de los demás.

H0:α1=α2=...=αkH1:not all group means are equal

prueba la igualdad de los medios de columna para los datos en matriz, donde cada columna es un grupo diferente y tiene el mismo número de observaciones (es decir, un diseño equilibrado). prueba la igualdad de medios de grupo, especificada en , para los datos en vector o matriz .anova1(y)yanova1(y,group)groupy En este caso, cada grupo o columna puede tener un número diferente de observaciones (es decir, un diseño desequilibrado).

ANOVA se basa en la suposición de que todas las poblaciones de muestras se distribuyen normalmente. Se sabe que es sólido para las violaciones modestas de esta suposición. Puede comprobar visualmente la suposición de normalidad utilizando un trazado de normalidad ( ).normplot Alternativamente, puede utilizar una de las funciones que comprueba la normalidad: la prueba Anderson-Darling ( ), la prueba de bondad chi-cuadrada de la prueba de ajuste ( ), la prueba Jarque-Bera ( ), o la prueba Lilliefors ( ).Statistics and Machine Learning Toolboxadtestchi2gofjbtestlillietest

Preparar datos para ANOVA unidireccional

Puede proporcionar datos de ejemplo como un vector o una matriz.

  • Si los datos de muestra están en un vector, , debe proporcionar información de agrupación mediante la variable de entrada: .ygroupanova1(y,group)

    debe ser un vector numérico, vector lógico, vector categórico, matriz de caracteres, matriz de cadenas o matriz de celdas de vectores de caracteres, con un nombre para cada elemento de .groupy La función trata los valores correspondientes al mismo valor como parte del mismo grupo.anova1ygroup Por ejemplo,

    Utilice este diseño cuando los grupos tengan diferentes números de elementos (ANOVA desequilibrado).

  • Si los datos de ejemplo están en una matriz, , siempre que la información del grupo sea opcional.y

    • Si no especifica la variable de entrada , trata cada columna como un grupo independiente y evalúa si las medias de población de las columnas son iguales.groupanova1y Por ejemplo,

      Utilice esta forma de diseño cuando cada grupo tenga el mismo número de elementos (ANOVA equilibrado).

    • Si especifica la variable de entrada , cada elemento de la columna representa un nombre de grupo para la columna correspondiente en .groupgroupy La función trata las columnas con el mismo nombre de grupo como parte del mismo grupo.anova1 Por ejemplo,

ignora cualquier valor de .anova1NaNy Además, si contiene valores vacíos o, ignora las observaciones correspondientes en .groupNaNanova1y La función realiza ANOVA equilibrado si cada grupo tiene el mismo número de observaciones después de que la función no tenga vacío o valores.anova1NaN De lo contrario, realiza ANOVA desequilibrado.anova1

Realizar ANOVA unidireccional

En este ejemplo se muestra cómo realizar ANOVA unidireccional para determinar si los datos de varios grupos tienen un medio común.

Cargue y muestre los datos de ejemplo.

load hogg hogg
hogg = 6×5

    24    14    11     7    19
    15     7     9     7    24
    21    12     7     4    19
    27    17    13     7    15
    33    14    12    12    10
    23    16    18    18    20

Los datos provienen de un estudio de Hogg y Ledolter (1987) sobre el recuento de bacterias en los envíos de leche. Las columnas de la matriz representan envíos diferentes.hogg Las filas son bacterias cuenta de cajas de leche elegidas al azar de cada envío.

Compruebe si algunos envíos tienen cuentas más altas que otros. De forma predeterminada, devuelve dos cifras.anova1 Una es la tabla ANOVA estándar y la otra es la gráfica de caja de datos por grupo.

[p,tbl,stats] = anova1(hogg);

p
p = 1.1971e-04 

El pequeño valor de aproximadamente 0.0001 indica que los recuentos de bacterias de los diferentes envíos no son los mismos.p

Puede obtener alguna garantía gráfica de que los medios son diferentes mirando las gráficas de caja. Las muescas, sin embargo, comparan las medianas, no los medios. Para obtener más información sobre esta pantalla, consulte .boxplot

Vea la tabla ANOVA estándar. guarda la tabla ANOVA estándar como una matriz de celdas en el argumento de salida .anova1tbl

tbl
tbl=4×6 cell
  Columns 1 through 5

    {'Source' }    {'SS'        }    {'df'}    {'MS'      }    {'F'       }
    {'Columns'}    {[  803.0000]}    {[ 4]}    {[200.7500]}    {[  9.0076]}
    {'Error'  }    {[  557.1667]}    {[25]}    {[ 22.2867]}    {0x0 double}
    {'Total'  }    {[1.3602e+03]}    {[29]}    {0x0 double}    {0x0 double}

  Column 6

    {'Prob>F'    }
    {[1.1971e-04]}
    {0x0 double  }
    {0x0 double  }

Guarde el valor -statistic en la variable .FFstat

Fstat = tbl{2,5}
Fstat = 9.0076 

Vea las estadísticas necesarias para realizar una comparación múltiple por pares de los medios de grupo. guarda estas estadísticas en la estructura.anova1stats

stats
stats = struct with fields:
    gnames: [5x1 char]
         n: [6 6 6 6 6]
    source: 'anova1'
     means: [23.8333 13.3333 11.6667 9.1667 17.8333]
        df: 25
         s: 4.7209

ANOVA rechaza la hipótesis nula de que todos los medios de grupo son iguales, por lo que puede utilizar las comparaciones múltiples para determinar qué medios de grupo son diferentes de otros. Para realizar varias pruebas de comparación, utilice la función , que acepta como argumento de entrada.multcomparestats En este ejemplo, rechaza la hipótesis nula de que los recuentos medios de bacterias de los cuatro envíos son iguales entre sí, es decir,anova1

<math display="block">
<mrow>
<msub>
<mrow>
<mi>H</mi>
</mrow>
<mrow>
<mn>0</mn>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mrow>
<mi>μ</mi>
</mrow>
<mrow>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mrow>
<mi>μ</mi>
</mrow>
<mrow>
<mn>2</mn>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mrow>
<mi>μ</mi>
</mrow>
<mrow>
<mn>3</mn>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mrow>
<mi>μ</mi>
</mrow>
<mrow>
<mn>4</mn>
</mrow>
</msub>
</mrow>
</math>
.

Realice una prueba de comparación múltiple para determinar qué envíos son diferentes de los demás en términos de recuento medio de bacterias.

multcompare(stats)

ans = 10×6

    1.0000    2.0000    2.4953   10.5000   18.5047    0.0059
    1.0000    3.0000    4.1619   12.1667   20.1714    0.0013
    1.0000    4.0000    6.6619   14.6667   22.6714    0.0001
    1.0000    5.0000   -2.0047    6.0000   14.0047    0.2119
    2.0000    3.0000   -6.3381    1.6667    9.6714    0.9719
    2.0000    4.0000   -3.8381    4.1667   12.1714    0.5544
    2.0000    5.0000  -12.5047   -4.5000    3.5047    0.4806
    3.0000    4.0000   -5.5047    2.5000   10.5047    0.8876
    3.0000    5.0000  -14.1714   -6.1667    1.8381    0.1905
    4.0000    5.0000  -16.6714   -8.6667   -0.6619    0.0292

Las dos primeras columnas muestran qué medios de grupo se comparan entre sí. Por ejemplo, la primera fila compara los medios para los grupos 1 y 2. La última columna muestra los valores de las pruebas.p Los valores -0.0059, 0.0013 y 0.0001 indican que el recuento medio de bacterias en la leche del primer envío es diferente de los de los envíos segundo, tercero y cuarto.p El valor -de 0.0292 indica que el recuento medio de bacterias en la leche del cuarto envío es diferente de los del quinto.p El procedimiento no rechaza las hipótesis que significa el otro grupo son diferentes entre sí.

La figura también ilustra el mismo resultado. La barra azul muestra el intervalo de comparación para la media del primer grupo, que no se superpone con los intervalos de comparación para las medias del segundo, tercer y cuarto grupo, que se muestran en rojo. El intervalo de comparación para la media del quinto grupo, que se muestra en gris, se superpone con el intervalo de comparación para la media del primer grupo. Por lo tanto, los medios del grupo para el primer y quinto grupo no son significativamente diferentes entre sí.

Detalles matemáticos

ANOVA comprueba la diferencia en el grupo significa dividiendo la variación total de los datos en dos componentes:

  • Variación de los medios de grupo de la media general, es decir, y¯.jy¯.. (variación entre grupos), donde y¯.j es la media de muestra del grupo, yj y¯.. es la media general de la muestra.

  • Variación de las observaciones en cada grupo de las estimaciones medias de su grupo, yijy¯.j (variación dentro del grupo).

En otras palabras, ANOVA divide la suma total de cuadrados (SST) en suma de cuadrados debido al efecto entre grupos (SSR) y la suma de errores al cuadrado (SSE).

ij(yijy¯..)2SST=jnj(y¯.jy¯..)2SSR+ij(yijy¯.j)2SSE,

Dónde Nj es el tamaño de la muestra para el grupo ésimo, 1, 2, ..., .jjk

A continuación, ANOVA compara la variación entre los grupos con la variación dentro de los grupos. Si la relación entre la variación dentro del grupo y la variación entre grupos es significativamente alta, puede concluir que las medias del grupo son significativamente diferentes entre sí. Puede medir esto utilizando una estadística de prueba que tiene una -distribución con ( – 1, – ) grados de libertad:FkNk

F=SSRk1SSENk=MSRMSE~Fk1,Nk,

donde está el tratamiento cuadrado medio, es el error cuadrado medio, es el número de grupos, y es el número total de observaciones.MSRMSEkN Si el valor -para la -estadística es menor que el nivel de significancia, la prueba rechaza la hipótesis nula que todos los medios de grupo son iguales y concluye que al menos uno de los medios del grupo es diferente de los demás.pF Los niveles de significancia más comunes son 0.05 y 0.01.

Tabla ANOVA

La tabla ANOVA captura la variabilidad en el modelo por origen, la estadística para probar la importancia de esta variabilidad y el valor -para decidir sobre la importancia de esta variabilidad.Fp El valor devuelto por depende de suposiciones sobre las perturbaciones aleatoriaspanova1εij en la ecuación del modelo. Para que el valor -sea correcto, estas perturbaciones deben ser independientes, distribuirse normalmente y tener varianza constante.p La tabla ANOVA estándar tiene este formulario:

devuelve la tabla ANOVA estándar como una matriz de celdas con seis columnas.anova1

ColumnaDefinición
SourceFuente de la variabilidad.
SSSuma de cuadrados debido a cada fuente.
dfGrados de libertad asociados a cada fuente. Supongamos que es el número total de observaciones y es el número de grupos.Nk Entonces, – es los grados de libertad dentro de los grupos ( ), – 1 es el grado de libertad entre grupos ( ), y – 1 es el grado total de libertad: – 1 s ( – ) + ( – 1).NkErrorkColumnsNNNkk
MSCuadrados medios para cada fuente, que es la relación .SS/df
F-estadística, que es la relación de los cuadrados medios.F
Prob>F-value, que es la probabilidad de que -statistic pueda tomar un valor mayor que el valor calculado de la estadística de prueba. deriva esta probabilidad del cdf de la -distribution.pFanova1F

Las filas de la tabla ANOVA muestran la variabilidad en los datos, dividida según el origen.

Fila (Origen)Definición
OGroupsColumnsVariabilidad debida a las diferencias entre los medios del grupo (grupos de variabilidad)Entre
ErrorVariabilidad debida a las diferencias entre los datos de cada grupo y la media del grupo (grupos de variabilidad)Dentro
TotalVariabilidad total

Referencias

[1] Wu, C. F. J., and M. Hamada. Experiments: Planning, Analysis, and Parameter Design Optimization, 2000.

[2] Neter, J., M. H. Kutner, C. J. Nachtsheim, and W. Wasserman. 4th ed. Applied Linear Statistical Models. Irwin Press, 1996.

Consulte también

| |

Temas relacionados