Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

ANOVA de un solo sentido

Introducción a ANOVA de un solo sentido

Puede utilizar la función para realizar un análisis unidireccional de varianza (ANOVA).Statistics and Machine Learning Toolbox™anova1 El propósito de ANOVA unidireccional es determinar si los datos de varios grupos (niveles) de un factor tienen una media común. Es decir, ANOVA unidireccional le permite averiguar si diferentes grupos de una variable independiente tienen diferentes efectos en la variable de respuesta.y Supongamos que un hospital quiere determinar si los dos nuevos métodos de programación propuestos reducen los tiempos de espera del paciente más que la forma antigua de programar citas. En este caso, la variable independiente es el método de programación y la variable de respuesta es el tiempo de espera de los pacientes.

ANOVA de un solo sentido es un caso especial simple de la.modelo lineal La forma ANOVA de un solo sentido del modelo es

yij=αj+εij

con los siguientes supuestos:

  • yij es una observación, en la que representa el número de observación, y representa un grupo diferente (nivel) de la variable predictora.ijy todoyij son independientes.

  • αj representa la media de la población para el grupo TH (nivel o tratamiento).j

  • εij es el error aleatorio, independiente y normalmente distribuido, con cero media y varianza constante, es decir,εij ~ N (0,σ2).

Este modelo también se llama el.means model El modelo asume que las columnas de son la constanteyαj más el componente de errorεij. ANOVA ayuda a determinar si las constantes son todas iguales.

ANOVA prueba la hipótesis de que todos los medios de grupo son iguales frente a la hipótesis alternativa de que al menos un grupo es diferente de los demás.

H0:α1=α2=...=αkH1:not all group means are equal

prueba la igualdad de los medios de columna para los datos en la matriz, donde cada columna es un grupo diferente y tiene el mismo número de observaciones (es decir, un diseño equilibrado). prueba la igualdad de los medios de grupo, especificados en, para los datos en Vector o matriz.anova1(y)yanova1(y,group)groupy En este caso, cada grupo o columna puede tener un número diferente de observaciones (es decir, un diseño desequilibrado).

ANOVA se basa en la suposición de que todas las poblaciones de muestras se distribuyen normalmente. Se sabe que es robusto a las violaciones modestas de esta suposición. Puede comprobar visualmente la suposición de normalidad mediante un trazado de normalidad ().normplot Alternativamente, puede utilizar una de las funciones que comprueba la normalidad: la prueba de Anderson-Darling (), la prueba de bondad de ajuste de Chi-cuadrada (), la prueba de Jarque-Bera () o la prueba de Lilliefors ().Statistics and Machine Learning Toolboxadtestchi2gofjbtestlillietest

Prepare los datos para ANOVA de un solo sentido

Puede proporcionar datos de ejemplo como un vector o una matriz.

  • Si los datos de ejemplo están en un vector, debe proporcionar información de agrupamiento utilizando la variable de entrada:.ygroupanova1(y,group)

    debe ser una variable categórica, un vector numérico, un vector lógico, una matriz de caracteres, una matriz de cadenas o una matriz de vectores de caracteres, con un nombre para cada elemento de.groupy La función trata los valores correspondientes al mismo valor de como parte del mismo grupo.anova1ygroup Por ejemplo,

    Utilice este diseño cuando los grupos tengan diferentes números de elementos (ANOVA no balanceado).

  • Si los datos de ejemplo están en una matriz, proporcionar la información del grupo es opcional.y

    • Si no especifica la variable de entrada, trata cada columna como un grupo independiente y evalúa si los medios de población de las columnas son iguales.groupanova1y Por ejemplo,

      Utilice esta forma de diseño cuando cada grupo tenga el mismo número de elementos (ANOVA equilibrado).

    • Si especifica la variable de entrada, debe ser una matriz de caracteres, matriz de cadenas o matriz de celdas de vectores de caracteres, con un nombre para cada columna de.groupgroupy La función trata las columnas con el mismo nombre de grupo como parte del mismo grupo.anova1 Por ejemplo,

Si contiene elementos vacíos o valorados, ignora las observaciones correspondientes.groupNaNanova1y

Realizar ANOVA de un solo sentido

En este ejemplo se muestra cómo realizar un ANOVA unidireccional para determinar si los datos de varios grupos tienen una media común.

Cargue y visualice los datos de ejemplo.

load hogg hogg
hogg = 6×5

    24    14    11     7    19
    15     7     9     7    24
    21    12     7     4    19
    27    17    13     7    15
    33    14    12    12    10
    23    16    18    18    20

Los datos provienen de un estudio de Hogg y Ledolter (1987) sobre los recuentos de bacterias en los envíos de leche. Las columnas de la matriz representan diferentes envíos.hogg Las filas son recuentos de bacterias de los envases de leche elegidos aleatoriamente de cada envío.

Pruebe si algunos envíos tienen recuentos más altos que otros. De forma predeterminada, devuelve dos figuras.anova1 Una es la tabla estándar de ANOVA y la otra es la caja de gráficos de datos por grupo.

[p,tbl,stats] = anova1(hogg);

p
p = 1.1971e-04 

El pequeño valor de alrededor de 0,0001 indica que la bacteria cuenta de los diferentes envíos no son los mismos.p

Puede obtener alguna garantía gráfica de que los medios son diferentes al mirar las parcelas de la caja. Las muescas, sin embargo, comparan las medianas, no los medios. Para obtener más información sobre esta pantalla, consulte.boxplot

Vea la tabla ANOVA estándar. guarda la tabla ANOVA estándar como una matriz de celdas en el argumento de salida.anova1tbl

tbl
tbl = 4x6 cell array
  Columns 1 through 5

    {'Source' }    {'SS'        }    {'df'}    {'MS'      }    {'F'       }
    {'Columns'}    {[  803.0000]}    {[ 4]}    {[200.7500]}    {[  9.0076]}
    {'Error'  }    {[  557.1667]}    {[25]}    {[ 22.2867]}    {0x0 double}
    {'Total'  }    {[1.3602e+03]}    {[29]}    {0x0 double}    {0x0 double}

  Column 6

    {'Prob>F'    }
    {[1.1971e-04]}
    {0x0 double  }
    {0x0 double  }

Guarde el valor-statistic en la variable.FFstat

Fstat = tbl{2,5}
Fstat = 9.0076 

Ver las estadísticas necesarias para hacer una comparación múltiple en parejas de medios de grupo. guarda estas estadísticas en la estructura.anova1stats

stats
stats = struct with fields:
    gnames: [5x1 char]
         n: [6 6 6 6 6]
    source: 'anova1'
     means: [23.8333 13.3333 11.6667 9.1667 17.8333]
        df: 25
         s: 4.7209

ANOVA rechaza la hipótesis nula de que todos los medios de grupo son iguales, por lo que puede utilizar las comparaciones múltiples para determinar qué medios de grupo son diferentes de otros. Para realizar varias pruebas de comparación, utilice la función, que acepta como argumento de entrada.multcomparestats En este ejemplo, rechaza la hipótesis nula de que la bacteria media cuenta de los cuatro envíos son iguales entre sí, es decir,anova1

<math display="block">
<mrow>
<msub>
<mrow>
<mi>H</mi>
</mrow>
<mrow>
<mn>0</mn>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mrow>
<mi>μ</mi>
</mrow>
<mrow>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mrow>
<mi>μ</mi>
</mrow>
<mrow>
<mn>2</mn>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mrow>
<mi>μ</mi>
</mrow>
<mrow>
<mn>3</mn>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mrow>
<mi>μ</mi>
</mrow>
<mrow>
<mn>4</mn>
</mrow>
</msub>
</mrow>
</math>
.

Realice una prueba de comparación múltiple para determinar qué envíos son diferentes a los otros en términos de conteo medio de bacterias.

multcompare(stats)

ans = 10×6

    1.0000    2.0000    2.4953   10.5000   18.5047    0.0059
    1.0000    3.0000    4.1619   12.1667   20.1714    0.0013
    1.0000    4.0000    6.6619   14.6667   22.6714    0.0001
    1.0000    5.0000   -2.0047    6.0000   14.0047    0.2119
    2.0000    3.0000   -6.3381    1.6667    9.6714    0.9719
    2.0000    4.0000   -3.8381    4.1667   12.1714    0.5544
    2.0000    5.0000  -12.5047   -4.5000    3.5047    0.4806
    3.0000    4.0000   -5.5047    2.5000   10.5047    0.8876
    3.0000    5.0000  -14.1714   -6.1667    1.8381    0.1905
    4.0000    5.0000  -16.6714   -8.6667   -0.6619    0.0292

Las dos primeras columnas muestran qué medios de grupo se comparan entre sí. Por ejemplo, la primera fila compara los medios para los grupos 1 y 2. La última columna muestra los-valores para las pruebas.p Los-valores 0,0059, 0,0013, y 0,0001 indican que la bacteria media que cuenta en la leche del primer envío es diferente de la de los envíos segundo, tercero y cuarto.p El-valor de 0,0292 indica que la bacteria media cuenta en la leche del cuarto envío es diferente de las de la quinta.p El procedimiento no puede rechazar las hipótesis que los otros medios del grupo son diferentes entre sí.

La figura también ilustra el mismo resultado. La barra azul muestra el intervalo de comparación para la media del primer grupo, que no se solapa con los intervalos de comparación para el segundo, tercer y cuarto grupo significa, mostrado en rojo. El intervalo de comparación para la media del quinto grupo, que se muestra en gris, se solapa con el intervalo de comparación para la media del primer grupo. Por lo tanto, el grupo significa que para los grupos primero y quinto no son significativamente diferentes entre sí.

Detalles matemáticos

ANOVA comprueba la diferencia en el grupo significa dividir la variación total en los datos en dos componentes:

  • Variación de los medios de grupo de la media general, es decir, y¯.jy¯.. (variación entre grupos), donde y¯.j es la media de muestra del grupo yj y¯.. es la media general de la muestra.

  • Variación de las observaciones en cada grupo de sus estimaciones de grupo, yijy¯.j (variación dentro del grupo).

En otras palabras, ANOVA divide la suma total de los cuadrados (SST) en la suma de los cuadrados debido al efecto entre grupos (SSR) y la suma de los errores al cuadrado (SSE).

ij(yijy¯..)2SST=jnj(y¯.jy¯..)2SSR+ij(yijy¯.j)2SSE,

Dónde Nj es el tamaño de la muestra para el grupo TH, = 1, 2,...,.jjk

A continuación, ANOVA compara la variación entre los grupos con la variación dentro de los grupos. Si la relación entre la variación dentro del grupo y la variación entre grupos es significativamente alta, entonces usted puede concluir que los medios del grupo son significativamente diferentes entre sí. Puede medir esto utilizando un estadístico de prueba que tenga una distribución con (– 1, –) grados de libertad:FkNk

F=SSRk1SSENk=MSRMSE~Fk1,Nk,

donde está el tratamiento medio cuadrado, es el error cuadrado medio, es el número de grupos, y es el número total de observaciones.MSRMSEkN Si el-valor de la-estadística es menor que el nivel de significancia, entonces la prueba rechaza la hipótesis nula de que todos los medios del grupo son iguales y concluye que al menos uno de los medios del grupo es diferente de los otros.pF Los niveles de significancia más comunes son 0,05 y 0,01.

Tabla ANOVA

La tabla ANOVA captura la variabilidad en el modelo por origen, la estadística para probar la importancia de esta variabilidad y el valor para decidir sobre la importancia de esta variabilidad.Fp El valor devuelto depende de supuestos sobre las perturbaciones aleatoriaspanova1εij en la ecuación del modelo. Para que el valor sea correcto, estas perturbaciones deben ser independientes, normalmente distribuidas y tener una varianza constante.p La tabla ANOVA estándar tiene esta forma:

Devuelve la tabla ANOVA estándar como una matriz de celdas con seis columnas.anova1

ColumnaDefinición
SourceFuente de la variabilidad.
SSSuma de los cuadrados debidos a cada fuente.
dfGrados de libertad asociados a cada fuente. Supongamos que es el número total de observaciones y es el número de grupos.Nk Entonces, – es los grados de libertad dentro de los grupos (), – 1 es el entre-grupos grados de libertad (), y – 1 es el total de grados de libertad: – 1 = (–) + (– 1).NkErrorkColumnsNNNkk
MSCuadrados de media para cada fuente, que es la relación.SS/df
F-Estadística, que es la relación de los cuadrados medio.F
Prob>F-Value, que es la probabilidad de que la-estadística puede tomar un valor mayor que el valor de la estadística de prueba calculada. deriva esta probabilidad de la CDF de la distribución.pFanova1F

Las filas de la tabla ANOVA muestran la variabilidad en los datos, dividida por la fuente.

Fila (origen)Definición
OGroupsColumnsVariabilidad debido a las diferencias entre los medios del grupo (grupos de variabilidad)between
ErrorVariabilidad debido a las diferencias entre los datos de cada grupo y la media del grupo (grupos de variabilidad)within
TotalLa variabilidad total

Referencias

[1] Wu, C. F. J., and M. Hamada. Experiments: Planning, Analysis, and Parameter Design Optimization, 2000.

[2] Neter, J., M. H. Kutner, C. J. Nachtsheim, and W. Wasserman. 4th ed. Applied Linear Statistical Models. Irwin Press, 1996.

Consulte también

| |

Temas relacionados