Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

ANOVA de dos vías

Introducción a la ANOVA de dos vías

Puede utilizar la función para realizar un análisis equilibrado de varianza (ANOVA) de dos vías.Statistics and Machine Learning Toolbox™anova2 Para realizar un ANOVA de dos vías para un diseño desequilibrado, utilice.anovan Para ver un ejemplo, vea.ANOVA de dos vías para diseño desequilibrado

Como en ANOVA de un solo sentido, los datos de un estudio ANOVA de dos vías pueden ser experimentales u observacionales. La diferencia entre ANOVA unidireccional y de dos vías es que en ANOVA de dos vías, los efectos de dos factores en una variable de respuesta son de interés. Estos dos factores pueden ser independientes y no tienen ningún efecto de interacción, o el impacto de un factor en la variable de respuesta puede depender del grupo (nivel) del otro factor. Si los dos factores no tienen interacciones, el modelo se denomina modelo.additive

Supongamos que una empresa de automóviles tiene dos fábricas, y cada fábrica fabrica los mismos modelos de tres coches. El kilometraje de gas en los coches puede variar de fábrica a fábrica y de modelo a modelo. Estos dos factores, fábrica y modelo, explican las diferencias en el kilometraje, es decir, la respuesta. Una medida de interés es la diferencia en el kilometraje debido a los métodos de producción entre las fábricas. Otra medida de interés es la diferencia en el kilometraje de los modelos (independientemente de la fábrica) debido a las diferentes especificaciones de diseño. Los efectos de estas medidas de interés son Aditivo. Además, supongamos que sólo un modelo tiene un kilometraje de gas diferente entre las fábricas, mientras que el kilometraje de los otros dos modelos es el mismo entre las fábricas. Esto se llama un efectointeraction. Para medir un efecto de interacción, debe haber varias observaciones para una combinación de fábrica y modelo de coche. Estas múltiples observaciones son llamadas.replications

ANOVA de dos vías es un caso especial de la.modelo lineal La forma ANOVA de dos vías del modelo es

yijr=μ+αi+βj+(αβ)ij+εijr

Dónde

  • yijr es una observación de la variable de respuesta.

    • representa el grupo de factor de fila, = 1, 2,...,iiAiI

    • representa el grupo de factor de columna, = 1, 2,...,jjBjJ

    • representa el número de replicación, = 1, 2,...,rrR

    Hay un total de = * * observaciones.NIJR

  • es la media general.μ

  • Αi son las desviaciones de los grupos de factor de fila de la media general debida al factor de fila.AμB Los valores de Αi suma a 0.

    i=1Iαi=0.

  • Βj son las desviaciones de los grupos en el factor de columna de la media general debida al factor de fila.BμB Todos los valores de una columna determinada de Βj son idénticos y los valores de Βj suma a 0.

    j=1Jβj=0.

  • Αβij son las interacciones. Los valores de cada fila y de cada columna de Αβij suma a 0.

    i=1I(αβ)ij=j=1J(αβ)ij=0.

  • Εijr son las perturbaciones aleatorias. Se supone que son independientes, normalmente distribuidas y tienen una varianza constante.

En el ejemplo de millaje:

  • yijr son las observaciones de kilometraje de gas, es el kilometraje medio de gas total.μ

  • Αi son las desviaciones del kilometraje de gasolina de cada coche desde el kilometraje medio de gas debido a la del automóvil.μmodel

  • Βj son las desviaciones del kilometraje de gasolina de cada coche desde el kilometraje medio de gas debido a la del automóvil.μfactory

requiere que los datos se equilibren, por lo que cada combinación de modelo y fábrica debe tener el mismo número de automóviles.anova2

El ANOVA de dos vías prueba las hipótesis sobre los efectos de los factores y su interacción en la variable de respuesta.ABy Las hipótesis sobre la igualdad de la respuesta media para grupos de factor de fila sonA

H0:α1=α2=αIH1: at least one αi is different, i=1, 2, ..., I.

Las hipótesis sobre la igualdad de la respuesta media para los grupos de factor de columna sonB

H0:β1=β2==βJH1: at least one βj is different,  j=1, 2, ..., J.

Las hipótesis sobre la interacción de los factores de columna y de fila son

H0:(αβ)ij=0H1:at least one (αβ)ij0

Prepare datos para ANOVA de dos vías balanceada

Para realizar un ANOVA de dos vías equilibrado, debe organizar los datos en una forma de matriz específica.anova2 Las columnas de la matriz deben corresponder a grupos del factor de columna,.B Las filas deben corresponder a los grupos del factor de fila, con el mismo número de replicaciones para cada combinación de los grupos de factores y.AAB

Supongamos que el factor de fila tiene tres grupos y el factor de columna tiene dos grupos (niveles).AB También Supongamos que cada combinación de factores y tiene dos mediciones u observaciones ().ABreps = 2 A continuación, cada grupo de factores tiene seis observaciones y cada grupo de factor cuatro observaciones.AB

B=1B=2[y111y121y112y122y211y221y212y222y311y321y312y322]}A=1}A=2}A=3

Los subsubgrupos indican fila, columna y replicación, respectivamente. Por ejemplo,y221 corresponde a la medición para el segundo grupo de factores, el segundo grupo de factores y la primera replicación para esta combinación.AB

Realizar ANOVA de dos vías

Este ejemplo muestra cómo realizar ANOVA de dos vías para determinar el efecto del modelo de coche y la fábrica en la calificación de kilometraje de los coches.

Cargue y visualice los datos de ejemplo.

load mileage mileage
mileage = 6×3

   33.3000   34.5000   37.4000
   33.4000   34.8000   36.8000
   32.9000   33.8000   37.6000
   32.6000   33.4000   36.6000
   32.5000   33.7000   37.0000
   33.0000   33.9000   36.7000

Hay tres modelos de coches (columnas) y dos fábricas (filas). Los datos tienen seis filas de kilometraje porque cada fábrica proporcionó tres coches de cada modelo para el estudio (es decir, el número de replicación es tres). Los datos de la primera fábrica se encuentran en las tres primeras filas y los datos de la segunda fábrica se encuentran en las tres últimas filas.

Realizar ANOVA de dos vías. Devolver la estructura de las estadísticas, para usarlas en comparaciones múltiples.stats

nmbcars = 3; % Number of cars from each model, i.e., number of replications [~,~,stats] = anova2(mileage,nmbcars);

Puede utilizar las-estadísticas para realizar pruebas de hipótesis para averiguar si el kilometraje es el mismo entre modelos, fábricas y pares de fábrica de modelo.F Antes de realizar estas pruebas, debe ajustar los efectos aditivos. Devuelve el valor-Value de estas pruebas.anova2p

El-valor para el efecto del modelo () es de cero a cuatro posiciones decimales.pColumns Este resultado es una fuerte indicación de que el kilometraje varía de un modelo a otro.

El-valor para el efecto de fábrica () es 0,0039, que también es muy significativo.pRows Este valor indica que una fábrica está fuera de rendimiento de la otra en el kilometraje de gas de los coches que produce. El valor observado indica que una estadística tan extrema como la observada ocurre por casualidad alrededor de cuatro de 1000 veces, si el kilometraje del gas era realmente igual de fábrica a fábrica.pFF

Las fábricas y modelos parecen no tener interacción. El-valor, 0,8411, significa que el resultado observado es probable (84 de 100 veces), dado que no hay interacción.p

Realizar para averiguar qué par de los modelos de tres coches es significativamente diferente.Comparaciones múltiples

c = multcompare(stats)
Note: Your model includes an interaction term.  A test of main effects can be  difficult to interpret when the model includes interactions. 

c = 3×6

    1.0000    2.0000   -1.5865   -1.0667   -0.5469    0.0004
    1.0000    3.0000   -4.5865   -4.0667   -3.5469    0.0000
    2.0000    3.0000   -3.5198   -3.0000   -2.4802    0.0000

En la matriz, las dos primeras columnas muestran los pares de modelos de coche que se comparan.c La última columna muestra los-valores para la prueba.p Todos los valores son pequeños (0,0004, 0 y 0), lo que indica que el kilometraje medio de todos los modelos de automóviles es significativamente diferente entre sí.p

En la figura, la barra azul es el intervalo de comparación para el kilometraje medio del primer modelo de coche. Las barras rojas son los intervalos de comparación para el kilometraje medio de los modelos de segundo y tercer coche. Ninguno de los intervalos de comparación segundo y tercero se superponen con el primer intervalo de comparación, lo que indica que el kilometraje medio del primer modelo de coche es diferente del kilometraje medio de los modelos de segundo y tercer coche. Si hace clic en una de las otras barras, puede probar los otros modelos de coche. Ninguno de los intervalos de comparación se superponen, lo que indica que el kilometraje medio de cada modelo de coche es significativamente diferente de los otros dos.

Detalles matemáticos

El ANOVA de dos factores divide la variación total en los siguientes componentes:

  • La variación del grupo de factores de fila significa desde la media general, y¯i..y¯...

  • La variación del grupo de factores de columna significa desde la media general, y¯.j.y¯...

  • Variación de la media general más la media de la replicación de la media del grupo del factor de columna más media del grupo del factor de fila, y¯ij.y¯i..y¯.j.+y¯...

  • La variación de las observaciones de la replicación significa, yijky¯ij.

El ANOVA divide la suma total de los cuadrados (SST) en la suma de los cuadrados debido al factor de fila (SSAA), la suma de los cuadrados debido al factor de columna (SSBB), la suma de los cuadrados debido a la interacción entre y (SSABAB) y el error de suma de cuadrados (SSE).

i=1mj=1kr=1R(yijky¯...)2SST=kRi=1m(y¯i..y¯...)2SSB+mRj=1k(y¯.j.y¯...)2SSA+Ri=1mj=1k(y¯ij.y¯i..y¯.j.+y¯...)2SSAB+i=1mj=1kr=1R(yijky¯ij.)2SSE

ANOVA toma la variación debido al factor o la interacción y la compara con la variación debido al error. Si la proporción de las dos variaciones es alta, entonces el efecto del factor o el efecto de interacción es estadísticamente significativo. Puede medir la significancia estadística utilizando un estadístico de prueba que tiene una distribución.F

Para la hipótesis nula de que la respuesta media para los grupos del factor de fila es igual, la estadística de prueba esA

F=SSBm1SSEmk(R1)Fm1,mk(R1).

Para la hipótesis nula de que la respuesta media para los grupos del factor de columna es igual, la estadística de prueba esB

F=SSAk1SSEmk(R1)Fk1,mk(R1).

Para la hipótesis nula de que la interacción de los factores de columna y de fila es igual a cero, la estadística de prueba se

F=SSAB(m1)(k1)SSEmk(R1)F(m1)(k1),mk(R1).

Si el valor-Value para la-estadística es menor que el nivel de significancia, entonces ANOVA rechaza la hipótesis nula.pF Los niveles de significancia más comunes son 0,01 y 0,05.

Tabla ANOVA

La tabla ANOVA captura la variabilidad en el modelo por la fuente, la estadística para probar la importancia de esta variabilidad y el valor para decidir sobre la importancia de esta variabilidad.Fp El-valor devuelto depende de suposiciones sobre las perturbaciones aleatorias,panova2εij, en la ecuación del modelo. Para que el valor sea correcto, estas perturbaciones deben ser independientes, normalmente distribuidas y tener una varianza constante.p La tabla ANOVA estándar tiene esta forma:

Devuelve la tabla ANOVA estándar como una matriz de celdas con seis columnas.anova2

ColumnaDefinición
SourceLa fuente de la variabilidad.
SSLa suma de los cuadrados debido a cada fuente.
dfLos grados de libertad asociados a cada fuente. Supongamos que es el número de grupos en el factor de columna, es el número de grupos en el factor de fila y es el número de replicaciones.JIR Entonces, el número total de observaciones es y el total de grados de libertad es – 1. – 1 son los grados de libertad para el factor de fila, – 1 es los grados de libertad para el factor de columna, (– 1) (– 1) son los grados de interacción de la libertad, y (– 1) son los grados de error de libertad.IJRIJRIJIJIJR
MSLos cuadrados de la media para cada fuente, que es la relación.SS/df
F-Estadística, que es la relación de los cuadrados medio.F
Prob>FEl-Value, que es la probabilidad de que la-estadística puede tomar un valor mayor que el valor de la estadística de prueba calculada. deriva esta probabilidad de la CDF de la distribución.pFanova2F

Las filas de la tabla ANOVA muestran la variabilidad en los datos que se dividen por el origen.

Fila (origen)Definición
ColumnsVariabilidad debido al factor de columna
RowsVariabilidad debido al factor de fila
InteractionVariabilidad debido a la interacción de los factores de fila y columna
ErrorVariabilidad debido a las diferencias entre los datos de cada grupo y la media del grupo (grupos de variabilidad)within
TotalLa variabilidad total

Referencias

[1] Wu, C. F. J., and M. Hamada. Experiments: Planning, Analysis, and Parameter Design Optimization, 2000.

[2] Neter, J., M. H. Kutner, C. J. Nachtsheim, and W. Wasserman. 4th ed. Applied Linear Statistical Models. Irwin Press, 1996.

Consulte también

| | |

Ejemplos relacionados

Más acerca de