Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

anovan

Análisis de vía N de la varianza

Descripción

ejemplo

p = anovan(y,group) devuelve un vector de -values, uno por término, para el análisis multivía (-way) de varianza (ANOVA) para probar los efectos de múltiples factores en la media del vector.pny

también muestra una figura que muestra la tabla ANOVA estándar.anovan

ejemplo

p = anovan(y,group,Name,Value) devuelve un vector de -values para ANOVA multivía (-way) utilizando opciones adicionales especificadas por uno o más argumentos de par.pnName,Value

Por ejemplo, puede especificar qué variable predictora es continua, si existe, o el tipo de suma de cuadrados que se va a utilizar.

[p,tbl] = anovan(___) devuelve la tabla ANOVA (incluidas las etiquetas de factor) en la matriz de celdas para cualquiera de los argumentos de entrada especificados en las sintaxis anteriores.tbl Copie una versión de texto de la tabla ANOVA en el portapapeles mediante el Copy Text elemento en el menú.Edit

ejemplo

[p,tbl,stats] = anovan(___) devuelve una estructura que puede utilizar para realizar un , lo que le permite determinar qué pares de medios de grupo son significativamente diferentes.statsprueba de comparación múltiple Puede realizar una prueba de este tipo utilizando la función proporcionando la estructura como entrada.multcomparestats

[p,tbl,stats,terms] = anovan(___) devuelve los términos principales y de interacción utilizados en los cálculos de ANOVA en .terms

Ejemplos

contraer todo

Cargue los datos de ejemplo.

y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]'; g1 = [1 2 1 2 1 2 1 2];  g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'};  g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};

es el vector de respuesta y , , y son las variables de agrupación (factores).yg1g2g3 Cada factor tiene dos niveles, y cada observación se identifica mediante una combinación de niveles de factor.y Por ejemplo, la observación está asociada con el nivel 1 del factor, el nivel de factor y el nivel de factor .y(1)g1'hi'g2'may'g3 Del mismo modo, la observación se asocia con el nivel 2 del factor, el nivel de factor y el nivel de factor.y(6)g1'hi'g2'june'g3

Compruebe si la respuesta es la misma para todos los niveles de factor.

p = anovan(y,{g1,g2,g3})

p = 3×1

    0.4174
    0.0028
    0.9140

En la tabla ANOVA, , , y corresponden a los factores , , y , respectivamente.X1X2X3g1g2g3 El valor -0.4174 indica que las respuestas medias para los niveles 1 y 2 del factor no son significativamente diferentes.pg1 Del mismo modo, el valor -0.914 indica que las respuestas medias para los niveles y , del factor no son significativamente diferentes.p'may''june'g3 Sin embargo, el valor -0.0028 es lo suficientemente pequeño como para concluir que las respuestas medias son significativamente diferentes para los dos niveles, y del factor .p'hi''lo'g2 De forma predeterminada, calcula -values solo para los tres efectos principales.anovanp

Pruebe las interacciones de dos factores. Esta vez especifique los nombres de las variables.

p = anovan(y,{g1 g2 g3},'model','interaction','varnames',{'g1','g2','g3'})

p = 6×1

    0.0347
    0.0048
    0.2578
    0.0158
    0.1444
    0.5000

Los términos de interacción se representan mediante , , y en la tabla ANOVA.g1*g2g1*g3g2*g3 Las tres primeras entradas son los -valores para los efectos principales.pp Las tres últimas entradas son los valores -para las interacciones bidireccionales.p El valor -value de 0.0158 indica que la interacción entre y es significativa.pg1g2 Los valores -de 0.1444 y 0.5 indican que las interacciones correspondientes no son significativas.p

Cargue los datos de ejemplo.

load carbig

Los datos tienen mediciones en 406 coches. La variable muestra dónde se fabricaron los coches y muestra cuándo en el año se fabricaron los coches.orgwhen

Estudie cómo depende el kilometraje de cuándo y dónde se hicieron los coches. Incluya también las interacciones bidireccionales en el modelo.

p = anovan(MPG,{org when},'model',2,'varnames',{'origin','mfg date'})

p = 3×1

    0.0000
    0.0000
    0.3059

El argumento de par nombre-valor representa las interacciones bidireccionales.'model',2 El valor del término de interacción, 0.3059, no es pequeño, lo que indica poca evidencia de que el efecto del tiempo de fabricación ( ) depende de dónde se hizo el automóvil ( ).pmfg dateorigin Los principales efectos de origen y fecha de fabricación, sin embargo, son significativos, ambos -valores son 0.p

Cargue los datos de ejemplo.

y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]'; g1 = [1 2 1 2 1 2 1 2]; g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'}; g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};

es el vector de respuesta y , , y son las variables de agrupación (factores).yg1g2g3 Cada factor tiene dos niveles, y cada observación se identifica mediante una combinación de niveles de factor.y Por ejemplo, la observación está asociada con el nivel 1 del factor, el nivel de factor y el nivel de factor .y(1)g1'hi'g2'may'g3 Del mismo modo, la observación se asocia con el nivel 2 del factor, el nivel de factor y el nivel de factor.y(6)g1'hi'g2'june'g3

Compruebe si la respuesta es la misma para todos los niveles de factor. También calcule las estadísticas necesarias para varias pruebas de comparación.

[~,~,stats] = anovan(y,{g1 g2 g3},'model','interaction',...     'varnames',{'g1','g2','g3'});

El valor -valor de 0.2578 indica que las respuestas medias para los niveles y de factor no son significativamente diferentes.p'may''june'g3 El valor -valor de 0.0347 indica que las respuestas medias para los niveles y de factor son significativamente diferentes.p12g1 Del mismo modo, el valor -de 0.0048 indica que las respuestas medias para los niveles y de factor son significativamente diferentes.p'hi''lo'g2

Realice varias pruebas de comparación para averiguar qué grupos de los factores y son significativamente diferentes.g1g2

results = multcompare(stats,'Dimension',[1 2])

results = 6×6

    1.0000    2.0000   -6.8604   -4.4000   -1.9396    0.0280
    1.0000    3.0000    4.4896    6.9500    9.4104    0.0177
    1.0000    4.0000    6.1396    8.6000   11.0604    0.0143
    2.0000    3.0000    8.8896   11.3500   13.8104    0.0108
    2.0000    4.0000   10.5396   13.0000   15.4604    0.0095
    3.0000    4.0000   -0.8104    1.6500    4.1104    0.0745

compara las combinaciones de grupos (niveles) de las dos variables de agrupación y .multcompareg1g2 En la matriz, el número 1 corresponde a la combinación de nivel y nivel de , el número 2 corresponde a la combinación de nivel y nivel de .results1g1hig22g1hig2 Del mismo modo, el número 3 corresponde a la combinación de nivel y nivel de , y el número 4 corresponde a la combinación de nivel y nivel de .1g1log22g1log2 La última columna de la matriz contiene los valores.p

Por ejemplo, la primera fila de la matriz muestra que la combinación de nivel y nivel de tiene los mismos valores de respuesta media que la combinación de nivel y nivel de .1g1hig22g1hig2 El valor correspondiente a esta prueba es 0.0280, lo que indica que las respuestas medias son significativamente diferentes.p También puede ver este resultado en la figura. La barra azul muestra el intervalo de comparación para la respuesta media para la combinación de nivel y nivel de .1g1hig2 Las barras rojas son los intervalos de comparación para la respuesta media para otras combinaciones de grupos. Ninguna de las barras rojas se superpone con la barra azul, lo que significa que la respuesta media para la combinación de nivel y nivel de es significativamente diferente de la respuesta media para otras combinaciones de grupos.1g1hig2

Puede probar los otros grupos haciendo clic en el intervalo de comparación correspondiente para el grupo. La barra en la que haces clic se convierte en azul. Las barras para los grupos que son significativamente diferentes son rojas. Las barras de los grupos que no son significativamente diferentes son grises. Por ejemplo, si hace clic en el intervalo de comparación para la combinación de nivel y nivel de , el intervalo de comparación para la combinación de nivel y nivel de superposiciones y, por lo tanto, es gris.1g1log22g1log2 Por el contrario, los otros intervalos de comparación son rojos, lo que indica una diferencia significativa.

Argumentos de entrada

contraer todo

Datos de muestra, especificados como vector numérico.

Tipos de datos: single | double

Variables de agrupación, es decir, los factores y los niveles de factores de las observaciones en , especificados como una matriz de celdas.y Cada una de las celdas de contiene una lista de niveles de factores que identifican las observaciones con respecto a uno de los factores.groupy La lista dentro de cada celda puede ser una matriz categórica, un vector numérico, una matriz de caracteres, una matriz de cadenas o una matriz de celdas de una sola columna de vectores de caracteres, y debe tener el mismo número de elementos que .y

y=[y1,y2,y3,y4,y5,,yN]g1={'A','A','C','B','B',,'D'}g2=[12131,2]g3={'hi','mid','low','mid','hi',,'low'}

De forma predeterminada, trata todas las variables de agrupación como efectos fijos.anovan

Por ejemplo, en un estudio que desea investigar los efectos del género, la escuela y el método educativo sobre el éxito académico de los estudiantes de primaria, puede especificar las variables de agrupación de la siguiente manera.

Ejemplo: {'Gender','School','Method'}

Tipos de datos: cell

Argumentos de par nombre-valor

Especifique pares opcionales separados por comas de argumentos. es el nombre del argumento y es el valor correspondiente. deben aparecer entre comillas.Name,ValueNameValueName Puede especificar varios argumentos de par de nombre y valor en cualquier orden como .Name1,Value1,...,NameN,ValueN

Ejemplo: especifica calcular los límites de confianza del 99% y los valores p para los efectos principales y las interacciones bidireccionales utilizando la suma de cuadrados de tipo II.'alpha',0.01,'model','interaction','sstype',2anovan

Nivel de significancia para los límites de confianza, especificado como el par separado por comas que consta de y un valor escalar en el intervalo 0 a 1.'alpha' Para un valor, el nivel de confianza es 100*(1–)%.

Ejemplo: corresponde a intervalos de confianza del 99%'alpha',0.01

Tipos de datos: single | double

Indicador para predictores continuos, que representan qué variables de agrupación deben tratarse como predictores continuos en lugar de como predictores categóricos, especificados como el par separado por comas que consta de y un vector de índices.'continuous'

Por ejemplo, si hay tres variables de agrupación y la segunda es continua, puede especificar lo siguiente.

Ejemplo: 'continuous',[2]

Tipos de datos: single | double

Indicador para mostrar la tabla ANOVA, especificado como el par separado por comas que consta de y o .'display''on''off' Cuando es , solo devuelve los argumentos de salida y no muestra la tabla ANOVA estándar como una figura.displayopt'off'anovan

Ejemplo: 'display','off'

Tipo del modelo, especificado como el par separado por comas que consta de y uno de los siguientes:'model'

  • — El modelo predeterminado calcula únicamente los valores de las hipótesis nulas en los efectos principales.'linear''linear'pN

  • — El modelo calcula los valores de las hipótesis nulas sobre los efectos principales y el'interaction''interaction'pN (N2) interacciones de dos factores.

  • — El modelo calcula los valores -valores de hipótesis nulas sobre los principales efectos e interacciones en todos los niveles.'full''full'pN

  • Un entero: para un valor entero de , ( ) para el tipo de modelo, calcula todos los niveles de interacción a través del nivel th.kkNanovank Por ejemplo, el valor 3 significa efectos principales más interacciones de dos y tres factores. Los valores 1 y 2 son equivalentes a las especificaciones y, respectivamente.kk'linear''interaction' El valor es equivalente a la especificación.kN'full'

  • Matriz de términos — Matriz de definiciones de términos que tiene la misma forma que la entrada a la función.x2fx Todas las entradas deben ser o (sin poderes superiores).01

    Para un control más preciso sobre los términos principales y de interacción que calcula, puede especificar una matriz que contenga una fila para cada término principal o de interacción que se incluirá en el modelo ANOVA.anovan Cada fila define un término utilizando un vector de ceros y unos.N La siguiente tabla ilustra la codificación de un ANOVA de 3 factores para factores , , y .ABC

    Fila De matrizTérmino ANOVA

    [1 0 0]

    Término principalA

    [0 1 0]

    Término principalB

    [0 0 1]

    Término principalC

    [1 1 0]

    Término de interacciónAB

    [1 0 1]

    Término de interacciónAC

    [0 1 1]

    Término de interacciónBC

    [1 1 1]

    Término de interacciónABC

    Por ejemplo, si hay tres factores , , y , , a continuación, comprueba los efectos principales y , y el efecto de interacción , respectivamente.ABC'model',[0 1 0;0 0 1;0 1 1]anovanBCBC

    Una forma sencilla de generar la matriz de términos es modificar la salida, que codifica los términos en el modelo actual utilizando el formato descrito anteriormente.terms Si devuelve , por ejemplo, y no hay ninguna interacción significativa, puede volver a calcular ANOVA solo en los efectos principales y especificando para .anovan[0 1 0;0 0 1;0 1 1]termsBCBC[0 1 0;0 0 1]model

Ejemplo: 'model',[0 1 0;0 0 1;0 1 1]

Ejemplo: 'model','interaction'

Tipos de datos: char | string | single | double

Anidar las relaciones entre las variables de agrupación, especificadas como el par separado por comas que consta de y una matriz de 0 y 1, es decir, ( , ) a 1 si la variable está anidada en la variable .'nested'MMijij

No se puede especificar el anidamiento en una variable continua.

Por ejemplo, si hay dos variables de agrupación Distrito y Escuela, donde Escuela está anidada en Distrito, puede expresar esta relación de la siguiente manera.

Ejemplo: 'nested',[0 0;1 0]

Tipos de datos: single | double

Indicador de variables aleatorias, que representa qué variables de agrupación son aleatorias, especificado como el par separado por comas que consta de y un vector de índices.'random' De forma predeterminada, trata todas las variables de agrupación como fijas.anovan

trata un término de interacción como aleatorio si alguna de las variables del término de interacción es aleatoria.anovan

Ejemplo: 'random',[3]

Tipos de datos: single | double

Tipo de cuadrados de suma, especificado como el par separado por comas que consta de y el siguiente:'sstype'

  • 1 — Tipo I suma de cuadrados. La reducción de la suma residual de los cuadrados obtenidos añadiendo ese término a un ajuste que ya incluye los términos enumerados antes de él.

  • 2 — Suma de cuadrados de tipo II. La reducción de la suma residual de los cuadrados obtenidos añadiendo ese término a un modelo que consta de todos los demás términos que no contienen el término en cuestión.

  • 3 — Suma de cuadrados de tipo III. La reducción de la suma residual de cuadrados obtenida al añadir ese término a un modelo que contiene todos los demás términos, pero con sus efectos limitados a obedecer las habituales "restricciones sigma" que hacen que los modelos sean estimables.

  • — Modelo jerárquico.'h' Similar al tipo 2, pero con factores continuos y categóricos utilizados para determinar la jerarquía de términos.

La suma de cuadrados para cualquier término se determina comparando dos modelos. Para un modelo que contiene efectos principales pero no interacciones, el valor influye en los cálculos solo en datos desequilibrados.sstype

Supongamos que está ajustando un modelo con dos factores y su interacción, y los términos aparecen en el orden , , .ABAB Deje que el modelo represente la suma residual de cuadrados.R Por lo tanto, ( , , ) es la suma residual de cuadrados que se ajusta a todo el modelo, ( ) es la suma residual de cuadrados que se ajustan al efecto principal de sólo, y (1) es la suma residual de cuadrados que se ajustan únicamente a la media.RA B ABRAAR La suma de tres tipos de cuadrados es la siguiente:

TérminoTipo 1 Suma de cuadradosTipo 2 Suma de cuadradosTipo 3 Suma de cuadrados

A

R(1) – R(A)

R(B) – R(A, B)

R(B, AB) – R(A, B, AB)

B

R(A) – R(A, B)

R(A) – R(A, B)

R(A, AB) – R(A, B, AB)

AB

R(A, B) – R(A, B, AB)

R(A, B) – R(A, B, AB)

R(A, B) – R(A, B, AB)

Los modelos para la suma de cuadrados tipo 3 tienen restricciones sigma impuestas. Esto significa, por ejemplo, que en el ajuste ( , ), la matriz de efectos está restringida a sumar a 0 sobre para cada valor de , y sobre para cada valor de .RB ABABABBA

Ejemplo: 'sstype','h'

Tipos de datos: single | double | char | string

Nombres de variables de agrupación, especificados como el par de separación de comas que consta de y una matriz de caracteres, una matriz de cadenas o una matriz de celdas de vectores de caracteres.'varnames'

Ejemplo: 'varnames',{'Gender','City'}

Tipos de datos: char | string | cell

Argumentos de salida

contraer todo

-values, devuelto como vector.p

El vector de salida contiene -valores para las hipótesis nulas en los efectos principales y los términos de interacción especificados.ppN Elemento contiene el -value para las hipótesis nulas que las muestras en todos los niveles de factor se extraen de la misma población; elemento contiene el -value para las hipótesis nulas que las muestras en todos los niveles de factor se extraen de la misma población; y así sucesivamente.p(1)pAp(2)pB

Por ejemplo, si hay tres factores , , y , , a continuación, el vector de salida contiene los -valores para las hipótesis nulas en los efectos principales y el efecto de interacción , respectivamente.ABC'model',[0 1 0;0 0 1;0 1 1]ppBCBC

Un valor suficientemente pequeño correspondiente a un factor sugiere que al menos una media de grupo es significativamente diferente de los medios del otro grupo; es decir, hay un efecto principal debido a ese factor.p Es común declarar un resultado significativo si el valor -es menor que 0,05 o 0,01.p

Tabla ANOVA, devuelta como una matriz de celdas. La tabla ANOVA tiene siete columnas:

Nombre de la columnaDefinición
sourceFuente de la variabilidad.
SSSuma de cuadrados debido a cada fuente.
dfGrados de libertad asociados a cada fuente.
MSCuadrados medios para cada fuente, que es la relación .SS/df
Singular?Indicación de si el término es singular.
F-estadística, que es la relación de los cuadrados medios.F
Prob>FLos valores -, que es la probabilidad de que -statistic pueda tomar un valor mayor que un valor de estadística de prueba calculado. deriva estas probabilidades del cdf de -distribution.pFanovanF

La tabla ANOVA también contiene las siguientes columnas si al menos una de las variables de agrupación se especifica como aleatoria mediante el argumento de par nombre-valor:random

Nombre de la columnaDefinición
TypeTipo de cada fuente; para un efecto fijo o para un efecto aleatorio.'fixed''random'
Expected MSRepresentación de texto del valor esperado para el cuadrado medio. representa una función cuadrática de y representa la varianza de .Q(source)sourceV(source)source
MS denomDenominador de la estadística.F
d.f. denomGrados de libertad para el denominador de la estadística.F
Denom. defn.Representación de texto del denominador de la estadística. representa el cuadrado medio de .FMS(source)source
Var. est.Estimación del componente de varianza.
Var. lower bndLímite inferior del intervalo de confianza del 95% para la estimación del componente de varianza.
Var. upper bndLímite superior del intervalo de confianza del 95% para la estimación del componente de varianza.

Estadísticas para usar en un using la función, devuelto como una estructura.prueba de comparación múltiplemultcompare

evalúa la hipótesis de que los diferentes grupos (niveles) de un factor (o más generalmente, un término) tienen el mismo efecto, en contra de la alternativa de que no todos tienen el mismo efecto.anovan A veces es preferible realizar una prueba para determinar qué pares de niveles son significativamente diferentes, y cuáles no. Utilice la función para realizar estas pruebas proporcionando la estructura como entrada.multcomparestats

La estructura contiene los campos enumerados a continuación, además de una serie de otros campos necesarios para realizar comparaciones múltiples utilizando la función:statsmultcompare

CampoDescripción

coeffs

Coeficientes estimados

coeffnames

Nombre del término para cada coeficiente

vars

Matriz de valores variables de agrupación para cada término

resid

Residuos del modelo ajustado

La estructura también contiene los siguientes campos si al menos una de las variables de agrupación se especifica como aleatoria utilizando el argumento de par nombre-valor:statsrandom

CampoDescripción

ems

Cuadrados medios esperados

denom

Definición del denominador

rtnames

Nombres de términos aleatorios

varest

Estimaciones de componentes de varianza (una por término aleatorio)

varci

Intervalos de confianza para componentes de varianza

Términos principales y de interacción, devueltos como una matriz. Los términos se codifican en la matriz de salida utilizando el mismo formato descrito anteriormente para la entrada.termsmodel Cuando se especifica en este formato, la matriz devuelta es idéntica.modelterms

Referencias

[1] Dunn, O.J., and V.A. Clark. Applied Statistics: Analysis of Variance and Regression. New York: Wiley, 1974.

[2] Goodnight, J.H., and F.M. Speed. Computing Expected Mean Squares. Cary, NC: SAS Institute, 1978.

[3] Seber, G. A. F., and A. J. Lee. Linear Regression Analysis. 2nd ed. Hoboken, NJ: Wiley-Interscience, 2003.

Introducido antes de R2006a