Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

anovan

El análisis de varianza de N-Way

Descripción

ejemplo

p = anovan(y,group) Devuelve un vector de valores, uno por término, para el análisis de varianza (ANOVA) de múltiples vías para probar los efectos de varios factores en la media del vector.pny

también muestra una figura que muestra la tabla ANOVA estándar.anovan

ejemplo

p = anovan(y,group,Name,Value) Devuelve un vector de valores para el ANOVA multivía (-Way) utilizando opciones adicionales especificadas por uno o más argumentos de par.pnName,Value

Por ejemplo, puede especificar qué variable predictora es continua, si la hay, o el tipo de suma de cuadrados que se va a utilizar.

[p,tbl] = anovan(___) Devuelve la tabla ANOVA (incluidas las etiquetas de factor) en la matriz de celdas para cualquiera de los argumentos de entrada especificados en las sintaxis anteriores.tbl Copie una versión de texto de la tabla ANOVA en el portapapeles mediante el Copy Text elemento del menú.Edit

ejemplo

[p,tbl,stats] = anovan(___) Devuelve una estructura que puede utilizar para realizar una, lo que le permite determinar qué pares de medios de grupo son significativamente diferentes.statsprueba de comparación múltiple Puede realizar una prueba de este tipo utilizando la función proporcionando la estructura como entrada.multcomparestats

[p,tbl,stats,terms] = anovan(___) Devuelve los términos principales y de interacción utilizados en los cálculos de ANOVA.terms

Ejemplos

contraer todo

Cargue los datos de ejemplo.

y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]'; g1 = [1 2 1 2 1 2 1 2];  g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'};  g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};

es el vector de respuesta y, y son las variables de agrupamiento (factores).yg1g2g3 Cada factor tiene dos niveles, y cada observación en se identifica por una combinación de niveles de factores.y Por ejemplo, la observación está asociada con el nivel 1 del factor, el nivel de factor y el nivel de factor.y(1)g1'hi'g2'may'g3 Del mismo modo, la observación se asocia con el nivel 2 del factor, el nivel de factor y el nivel de factor.y(6)g1'hi'g2'june'g3

Pruebe si la respuesta es la misma para todos los niveles de factor.

p = anovan(y,{g1,g2,g3})

p = 3×1

    0.4174
    0.0028
    0.9140

En la tabla ANOVA,, y corresponden a los factores, y, respectivamente.X1X2X3g1g2g3 El valor-0,4174 indica que las respuestas medias para los niveles 1 y 2 del factor no son significativamente diferentes.pg1 Del mismo modo, el valor-0,914 indica que las respuestas medias para los niveles y, del factor no son significativamente diferentes.p'may''june'g3 Sin embargo, el valor de 0,0028 es lo suficientemente pequeño como para concluir que las respuestas medias son significativamente diferentes para los dos niveles, y del factor.p'hi''lo'g2 De forma predeterminada, calcula-valores solo para los tres efectos principales.anovanp

Pruebe las interacciones de dos factores. Esta vez especifique los nombres de las variables.

p = anovan(y,{g1 g2 g3},'model','interaction','varnames',{'g1','g2','g3'})

p = 6×1

    0.0347
    0.0048
    0.2578
    0.0158
    0.1444
    0.5000

Los términos de interacción están representados por, y en la tabla ANOVA.g1*g2g1*g3g2*g3 Las tres primeras entradas de son los-valores para los efectos principales.pp Las tres últimas entradas son los-valores para las interacciones bidireccionales.p El-valor de 0,0158 indica que la interacción entre y es significativa.pg1g2 Los-valores de 0,1444 y 0,5 indican que las interacciones correspondientes no son significativas.p

Cargue los datos de ejemplo.

load carbig

Los datos tienen mediciones en 406 coches. La variable muestra dónde se fabricaron los coches y muestra Cuándo se fabricaron los coches en el año.orgwhen

Estudie cómo el kilometraje depende de Cuándo y dónde se realizaron los coches. También incluye las interacciones de dos vías en el modelo.

p = anovan(MPG,{org when},'model',2,'varnames',{'origin','mfg date'})

p = 3×1

    0.0000
    0.0000
    0.3059

El argumento de par nombre-valor representa las interacciones bidireccionales.'model',2 El-valor para el término de interacción, 0,3059, no es pequeño, indicando poca evidencia de que el efecto del tiempo de fabricación () depende de dónde se hizo el coche ().pmfg dateorigin Los principales efectos del origen y la fecha de fabricación, sin embargo, son significativos, ambos-valores son 0.p

Cargue los datos de ejemplo.

y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]'; g1 = [1 2 1 2 1 2 1 2]; g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'}; g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};

es el vector de respuesta y, y son las variables de agrupamiento (factores).yg1g2g3 Cada factor tiene dos niveles, y cada observación en se identifica por una combinación de niveles de factores.y Por ejemplo, la observación está asociada con el nivel 1 del factor, el nivel de factor y el nivel de factor.y(1)g1'hi'g2'may'g3 Del mismo modo, la observación se asocia con el nivel 2 del factor, el nivel de factor y el nivel de factor.y(6)g1'hi'g2'june'g3

Pruebe si la respuesta es la misma para todos los niveles de factor. Calcule también las estadísticas necesarias para varias pruebas de comparación.

[~,~,stats] = anovan(y,{g1 g2 g3},'model','interaction',...     'varnames',{'g1','g2','g3'});

El-valor de 0,2578 indica que las respuestas medias de los niveles y del factor no son significativamente diferentes.p'may''june'g3 El-valor de 0,0347 indica que las respuestas medias de los niveles y del factor son significativamente diferentes.p12g1 Del mismo modo, el-valor de 0,0048 indica que las respuestas medias para los niveles y de factor son significativamente diferentes.p'hi''lo'g2

Realizar varias pruebas de comparación para averiguar qué grupos de los factores y son significativamente diferentes.g1g2

results = multcompare(stats,'Dimension',[1 2])

results = 6×6

    1.0000    2.0000   -6.8604   -4.4000   -1.9396    0.0280
    1.0000    3.0000    4.4896    6.9500    9.4104    0.0177
    1.0000    4.0000    6.1396    8.6000   11.0604    0.0143
    2.0000    3.0000    8.8896   11.3500   13.8104    0.0108
    2.0000    4.0000   10.5396   13.0000   15.4604    0.0095
    3.0000    4.0000   -0.8104    1.6500    4.1104    0.0745

compara las combinaciones de grupos (niveles) de las dos variables de agrupamiento y.multcompareg1g2 En la matriz, el número 1 corresponde a la combinación de nivel de y nivel de, el número 2 corresponde a la combinación de nivel de y nivel de.results1g1hig22g1hig2 Del mismo modo, el número 3 corresponde a la combinación de nivel y nivel de, y el número 4 corresponde a la combinación de nivel de y nivel de.1g1log22g1log2 La última columna de la matriz contiene los valores-.p

Por ejemplo, la primera fila de la matriz muestra que la combinación de nivel y nivel de tiene los mismos valores de respuesta media que la combinación de nivel de y nivel de.1g1hig22g1hig2 El-valor correspondiente a esta prueba es 0,0280, que indica que las respuestas de la media son significativamente diferentes.p También puede ver este resultado en la figura. La barra azul muestra el intervalo de comparación para la respuesta media para la combinación de nivel y nivel de.1g1hig2 Las barras rojas son los intervalos de comparación para la respuesta media para otras combinaciones de grupos. Ninguna de las barras rojas se superponen con la barra azul, lo que significa que la respuesta media para la combinación de nivel y nivel de es significativamente diferente de la respuesta media para otras combinaciones de grupos.1g1hig2

Puede probar los otros grupos haciendo clic en el intervalo de comparación correspondiente para el grupo. La barra en la que haces clic se vuelve azul. Las barras para los grupos que son significativamente diferentes son de color rojo. Las barras para los grupos que no son significativamente diferentes son grises. Por ejemplo, si hace clic en el intervalo de comparación para la combinación de nivel de y nivel de, el intervalo de comparación para la combinación de nivel de y nivel de solapamientos, y por lo tanto es gris.1g1log22g1log2 Por el contrario, los otros intervalos de comparación son rojos, lo que indica una diferencia significativa.

Argumentos de entrada

contraer todo

Datos de ejemplo, especificados como un vector numérico.

Tipos de datos: single | double

Agrupar variables, es decir, los factores y los niveles de factor de las observaciones en, especificadas como una matriz de celdas.y Cada una de las células contiene una lista de los niveles de los factores que identifican las observaciones con respecto a uno de los elementos.groupy La lista dentro de cada celda puede ser una matriz categórica, un vector numérico, una matriz de caracteres, una matriz de cadenas o una matriz de celdas de una sola columna de vectores de caracteres, y debe tener el mismo número de elementos que.y

y=[y1,y2,y3,y4,y5,,yN]g1={'A','A','C','B','B',,'D'}g2=[12131,2]g3={'hi','mid','low','mid','hi',,'low'}

De forma predeterminada, trata todas las variables de agrupamiento como efectos fijos.anovan

Por ejemplo, en un estudio que desea investigar los efectos del género, la escuela y el método educativo sobre el éxito académico de los estudiantes de la escuela primaria, puede especificar las variables de agrupamiento de la siguiente manera.

Ejemplo: {'Gender','School','Method'}

Tipos de datos: cell

Argumentos de par nombre-valor

Especifique pares de argumentos separados por comas opcionales. es el nombre del argumento y es el valor correspondiente. deben aparecer dentro de las cotizaciones.Name,ValueNameValueName Puede especificar varios argumentos de par de nombre y valor en cualquier orden como.Name1,Value1,...,NameN,ValueN

Ejemplo: especifica para calcular los límites de confianza del 99% y los valores p para los efectos principales y las interacciones bidireccionales mediante la suma de cuadrados de tipo II.'alpha',0.01,'model','interaction','sstype',2anovan

Nivel de significancia para los límites de confianza, especificado como el par separado por comas que consta de y un valor escalar en el rango de 0 a 1.'alpha' Para un valor α, el nivel de confianza es 100 * (1 – α)%.

Ejemplo: corresponde a intervalos de confianza del 99%'alpha',0.01

Tipos de datos: single | double

Indicador de predictores continuos, que representan las variables de agrupamiento que deben tratarse como predictores continuos en lugar de como predictores categóricos, especificados como el par separado por comas que consta de y un vector de índices.'continuous'

Por ejemplo, si hay tres variables de agrupamiento y la segunda es continua, puede especificar lo siguiente.

Ejemplo: 'continuous',[2]

Tipos de datos: single | double

Indicador para mostrar la tabla ANOVA, especificada como el par separado por comas que consta de y o.'display''on''off' Cuando es, solo devuelve los argumentos de salida y no muestra la tabla ANOVA estándar como una figura.displayopt'off'anovan

Ejemplo: 'display','off'

Tipo del modelo, especificado como el par separado por comas que consta de uno de los siguientes:'model'

  • — El modelo predeterminado calcula sólo los-valores para las hipótesis nulas en los efectos principales.'linear''linear'pN

  • — El modelo calcula los-valores para hipótesis nulas sobre los efectos principales y el'interaction''interaction'pN (N2) interacciones de dos factores.

  • — El modelo calcula los-valores para hipótesis nulas sobre los efectos principales y las interacciones en todos los niveles.'full''full'pN

  • Un entero: para un valor entero de, (≤) para el tipo de modelo, calcula todos los niveles de interacción a través del nivel TH.kkNanovank Por ejemplo, el valor 3 significa efectos principales más interacciones de dos y tres factores. Los valores = 1 y = 2 son equivalentes a las especificaciones y, respectivamente.kk'linear''interaction' El valor = equivale a la especificación.kN'full'

  • Matriz de términos: una matriz de definiciones de término que tiene la misma forma que la entrada a la función.x2fx Todas las entradas deben ser o (sin poderes superiores).01

    Para un control más preciso sobre los términos principales e interacción que calcula, puede especificar una matriz que contenga una fila para cada término principal o de interacción que se incluirá en el modelo ANOVA.anovan Cada fila define un término usando un vector de ceros y unos.N En la siguiente tabla se ilustra la codificación de un ANOVA de 3 factores, y.ABC

    Matrix RowANOVA term

    [1 0 0]

    Término principalA

    [0 1 0]

    Término principalB

    [0 0 1]

    Término principalC

    [1 1 0]

    Término de interacciónAB

    [1 0 1]

    Término de interacciónAC

    [0 1 1]

    Término de interacciónBC

    [1 1 1]

    Término de interacciónABC

    Por ejemplo, si hay tres factores, y, y, a continuación, pruebas para los efectos principales y, y el efecto de interacción, respectivamente.ABC'model',[0 1 0;0 0 1;0 1 1]anovanBCBC

    Una forma sencilla de generar la matriz de términos es modificar la salida, que codifica los términos del modelo actual con el formato descrito anteriormente.terms Si las devoluciones para, por ejemplo, y no hay ninguna interacción significativa, a continuación, puede volver a calcular ANOVA en sólo los efectos principales y especificando para.anovan[0 1 0;0 0 1;0 1 1]termsBCBC[0 1 0;0 0 1]model

Ejemplo: 'model',[0 1 0;0 0 1;0 1 1]

Ejemplo: 'model','interaction'

Tipos de datos: char | string | single | double

Anidar las relaciones entre las variables de agrupamiento, especificadas como el par separado por comas que consta de una matriz de 0 y 1, es decir, (,) = 1 si la variable está anidada en variable.'nested'MMijij

No se puede especificar el anidamiento en una variable continua.

Por ejemplo, si hay dos variables de agrupamiento distrito y escuela, donde la escuela está anidada en District, puede expresar esta relación de la siguiente manera.

Ejemplo: 'nested',[0 0;1 0]

Tipos de datos: single | double

Indicador de variables aleatorias, que representa las variables de agrupamiento que son aleatorias, especificadas como el par separado por comas que consta de un vector de índices.'random' De forma predeterminada, trata todas las variables de agrupación como fijas.anovan

trata un término de interacción como aleatorio si cualquiera de las variables en el término de interacción es aleatorio.anovan

Ejemplo: 'random',[3]

Tipos de datos: single | double

Tipo de cuadrados de suma, especificados como el par separado por comas que consta de lo siguiente:'sstype'

  • 1 — tipo I suma de cuadrados. La reducción de la suma residual de los cuadrados obtenida añadiendo ese término a un ajuste que ya incluye los términos enumerados anteriormente.

  • 2 — tipo II suma de cuadrados. La reducción de la suma residual de los cuadrados obtenida añadiendo dicho término a un modelo consistente en todos los demás términos que no contengan el término en cuestión.

  • 3 — suma de cuadrados tipo III. La reducción de la suma residual de los cuadrados obtenida añadiendo ese término a un modelo que contiene todos los demás términos, pero con sus efectos limitados a obedecer las habituales "restricciones Sigma" que hacen que los modelos sean estimable.

  • — Modelo jerárquico.'h' Similar al tipo 2, pero con los factores continuos y categóricos utilizados para determinar la jerarquía de términos.

La suma de los cuadrados para cualquier término se determina comparando dos modelos. Para un modelo que contiene efectos principales pero no interacciones, el valor de influye en los cálculos solo en datos desequilibrados.sstype

Supongamos que está encajando un modelo con dos factores y su interacción, y los términos aparecen en el orden,,.ABAB Supongamos que (·) representa la suma residual de los cuadrados para el modelo.R Por lo tanto, (,,) es la suma residual de los cuadrados que se ajusta a todo el modelo, () es la suma residual de los cuadrados que encaja el efecto principal de sólo, y (1) es la suma residual de los cuadrados que se ajusta a la media solamente.RA B ABRAAR Los tres tipos de suma de cuadrados son los siguientes:

TérminoTipo 1 suma de cuadradosTipo 2 suma de cuadradosTipo 3 suma de cuadrados

A

R(1) – R(A)

R(B) – R(A, B)

R(B, AB) – R(A, B, AB)

B

R(A) – R(A, B)

R(A) – R(A, B)

R(A, AB) – R(A, B, AB)

AB

R(A, B) – R(A, B, AB)

R(A, B) – R(A, B, AB)

R(A, B) – R(A, B, AB)

Los modelos para la suma de cuadrados tipo 3 tienen restricciones Sigma impuestas. Esto significa, por ejemplo, que en el ajuste (,), la matriz de efectos está restringida para sumar a 0 para cada valor de, y encima para cada valor de.RB ABABABBA

Ejemplo: 'sstype','h'

Tipos de datos: single | double | char | string

Nombres de las variables de agrupación, especificadas como el par de separación de comas que consta de una matriz de caracteres, una matriz de cadenas o una matriz de celdas de vectores de caracteres.'varnames'

Ejemplo: 'varnames',{'Gender','City'}

Tipos de datos: char | string | cell

Argumentos de salida

contraer todo

-valores, devueltos como un vector.p

El vector de salida contiene-valores para las hipótesis nulas sobre los efectos principales y los términos de interacción especificados.ppN Elemento contiene el-valor de las hipótesis nulas que las muestras en todos los niveles de factor se dibujan de la misma población; elemento contiene el-valor de las hipótesis nulas que las muestras en todos los niveles de factor se dibujan de la misma población; y así sucesivamente.p(1)pAp(2)pB

Por ejemplo, si hay tres factores y, y, a continuación, el vector de salida contiene los-valores para las hipótesis nulas en los efectos principales y el efecto de interacción, respectivamente.ABC'model',[0 1 0;0 0 1;0 1 1]ppBCBC

Un valor suficientemente pequeño que corresponde a un factor sugiere que al menos una media de grupo es significativamente diferente de los otros medios del grupo; es decir, hay un efecto principal debido a ese factor.p Es común declarar un resultado significativo si el-valor es menor que 0,05 o 0,01.p

Tabla ANOVA, devuelta como una matriz de celdas. La tabla ANOVA tiene siete columnas:

Nombre de columnaDefinición
sourceFuente de la variabilidad.
SSSuma de los cuadrados debidos a cada fuente.
dfGrados de libertad asociados a cada fuente.
MSCuadrados de media para cada fuente, que es la relación.SS/df
Singular?Indicación de si el término es singular.
F-Estadística, que es la relación de los cuadrados medio.F
Prob>FLos-Values, que es la probabilidad de que la-estadística puede tomar un valor mayor que un valor de estadístico de prueba calculado. deriva estas probabilidades de la CDF de distribución.pFanovanF

La tabla ANOVA también contiene las siguientes columnas si al menos una de las variables de agrupamiento se especifica como aleatoria utilizando el argumento de par nombre-valor:Aleatorio

Nombre de columnaDefinición
TypeTipo de cada fuente; para un efecto fijo o para un efecto aleatorio.'fixed''random'
Expected MSRepresentación de texto del valor esperado para el cuadrado medio. representa una función cuadrática de y representa la varianza de.Q(source)sourceV(source)source
MS denomDenominador de la-estadística.F
d.f. denomGrados de libertad para el denominador de la-estadística.F
Denom. defn.Representación de texto del denominador de la-estadística. representa el cuadrado medio de.FMS(source)source
Var. est.Estimación del componente de desviación.
Var. lower bndLímite inferior del intervalo de confianza del 95% para la estimación del componente de desviación.
Var. upper bndLímite superior del intervalo de confianza del 95% para la estimación del componente de desviación.

Estadísticas para usar en un uso de la función, devuelto como una estructura.prueba de comparación múltiplemultcompare

evalúa la hipótesis de que los diferentes grupos (niveles) de un factor (o más generalmente, un término) tienen el mismo efecto, frente a la alternativa de que no todos tienen el mismo efecto.anovan A veces es preferible realizar una prueba para determinar qué pares de niveles son significativamente diferentes, y cuáles no. Utilice la función para realizar dichas pruebas suministrando la estructura como entrada.multcomparestats

La estructura contiene los campos enumerados a continuación, además de un número de otros campos necesarios para realizar comparaciones múltiples utilizando la función:statsmultcompare

CampoDescripción

coeffs

Los coeficientes estimados

coeffnames

Nombre del término para cada coeficiente

vars

Matriz de valores de variable de agrupamiento para cada término

resid

Los residuos del modelo ajustado

La estructura también contiene los siguientes campos si al menos una de las variables de agrupamiento se especifica como aleatoria utilizando el argumento de par nombre-valor:statsAleatorio

CampoDescripción

ems

Los cuadrados media esperados

denom

Definición del denominador

rtnames

Los nombres de términos aleatorios

varest

Estimaciones de componentes de desviación (una por término aleatorio)

varci

Los intervalos de confianza para los componentes de varianza

Términos principales y de interacción, devueltos como una matriz. Los términos se codifican en la matriz de salida utilizando el mismo formato descrito anteriormente para la entrada.termsmodel Cuando se especifica en este formato, la matriz devuelta es idéntica.modelterms

Referencias

[1] Dunn, O.J., and V.A. Clark. Applied Statistics: Analysis of Variance and Regression. New York: Wiley, 1974.

[2] Goodnight, J.H., and F.M. Speed. Computing Expected Mean Squares. Cary, NC: SAS Institute, 1978.

[3] Seber, G. A. F., and A. J. Lee. Linear Regression Analysis. 2nd ed. Hoboken, NJ: Wiley-Interscience, 2003.

Introducido antes de R2006a