Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Manova

Introducción a MANOVA

El análisis de la técnica de varianza en toma un conjunto de datos agrupados y determinar si la media de una variable difiere significativamente entre los grupos.Realizar ANOVA de un solo sentido A menudo hay varias variables de respuesta, y usted está interesado en determinar si todo el conjunto de medios es diferente de un grupo a otro. Hay una versión multivariada de análisis de varianza que puede abordar el problema.

ANOVA con múltiples respuestas

El conjunto de datos tiene mediciones en una variedad de modelos de automóviles de los años 1970, 1976 y 1982.carsmall Supongamos que usted está interesado en si las características de los coches han cambiado con el tiempo.

Cargue los datos de ejemplo.

load carsmall whos
  Name                Size            Bytes  Class     Attributes    Acceleration      100x1               800  double                 Cylinders         100x1               800  double                 Displacement      100x1               800  double                 Horsepower        100x1               800  double                 MPG               100x1               800  double                 Mfg               100x13             2600  char                   Model             100x33             6600  char                   Model_Year        100x1               800  double                 Origin            100x7              1400  char                   Weight            100x1               800  double               

Cuatro de estas variables (,,, y) son mediciones continuas en modelos de coche individuales.AccelerationDisplacementHorsepowerMPG La variable indica el año en que se realizó el coche.Model_Year Puede crear un matriz de parcela agrupada de estas variables utilizando la función.gplotmatrix

Cree una matriz de trazado agrupada de estas variables utilizando la función gplotmatrix.

x = [MPG Horsepower Displacement Weight]; gplotmatrix(x,[],Model_Year,[],'+xo')

(Cuando el segundo argumento está vacío, la función grafica las columnas del argumento entre sí, y coloca histogramas a lo largo de las diagonales.gplotmatrixx El cuarto argumento vacío genera un gráfico con los colores predeterminados. El quinto argumento controla los símbolos utilizados para distinguir entre los grupos.)

Parece que los coches difieren de año en año. La gráfica superior derecha, por ejemplo, es un gráfico de versus.MPGWeight Los 1982 coches parecen tener un kilometraje más alto que los coches más viejos, y parecen pesar menos en promedio. Pero como grupo, ¿los tres años son significativamente diferentes unos de otros? La función puede responder a esa pregunta.manova1

[d,p,stats] = manova1(x,Model_Year)
d = 2 
p = 2×1
10-6 ×

    0.0000
    0.1141

stats = struct with fields:
           W: [4x4 double]
           B: [4x4 double]
           T: [4x4 double]
         dfW: 90
         dfB: 2
         dfT: 92
      lambda: [2x1 double]
       chisq: [2x1 double]
     chisqdf: [2x1 double]
    eigenval: [4x1 double]
    eigenvec: [4x4 double]
       canon: [100x4 double]
       mdist: [1x100 double]
      gmdist: [3x3 double]
      gnames: {3x1 cell}

La función produce tres salidas:manova1

  • La primera salida, es una estimación de la dimensión de los medios del grupo.d Si los medios eran todos iguales, la dimensión sería 0, indicando que los medios están en el mismo punto. Si los medios diferían pero cayeron a lo largo de una línea, la dimensión sería 1. En el ejemplo, la cota es 2, lo que indica que el grupo significa caer en un plano pero no a lo largo de una línea. Esta es la dimensión más grande posible para los medios de tres grupos.

  • La segunda salida,, es un vector de-valores para una secuencia de pruebas.pp El primer valor comprueba si la cota es 0, la siguiente si la cota es 1, y así sucesivamente.p En este caso ambos-valores son pequeños.p Es por eso que la dimensión estimada es 2.

  • La tercera salida, es una estructura que contiene varios campos, descritos en la siguiente sección.stats

Los campos de la estructura stats

Los campos, y son análogos de matriz al interior, entre y sumas totales de cuadrados en el análisis unidireccional ordinario de varianza.WBT Los tres campos siguientes son los grados de libertad para estas matrices. Los campos, y son los ingredientes de la prueba para la dimensionalidad de los medios del grupo.lambdachisqchisqdf (Los-valores para estas pruebas son el primer argumento de salida de.)pmanova1

Los tres campos siguientes se utilizan para realizar un análisis canónico. Recuerde que in () busca la combinación de las variables originales que tiene la mayor variación posible.Análisis de componentes principalesAnálisis de componentes principales (PCA) En el análisis multivariado de varianza, en su lugar, busca la combinación lineal de las variables originales que tiene la mayor separación entre los grupos. Es la única variable que daría el resultado más significativo en un análisis univariado unidireccional de la varianza. Habiendo encontrado esa combinación, usted siguiente busca la combinación con la segunda separación más alta, y así sucesivamente.

El campo es una matriz que define los coeficientes de las combinaciones lineales de las variables originales.eigenvec El campo es un vector que mide la relación entre la varianza entre grupos y la varianza dentro del grupo para la combinación lineal correspondiente.eigenval El campo es una matriz de los valores de las variables canónicas.canon Cada columna es una combinación lineal de las variables originales centradas en el medio, utilizando coeficientes de la matriz.eigenvec

c1 = stats.canon(:,1); c2 = stats.canon(:,2);

Trace el gráfico de dispersión agrupado de las dos primeras variables canónicas.

figure() gscatter(c2,c1,Model_Year,[],'oxs')

Un gráfico de dispersión agrupado de las dos primeras variables canónicas muestra una mayor separación entre los grupos, a continuación, un diagrama de dispersión agrupado de cualquier par de variables originales. En este ejemplo, muestra tres nubes de puntos, superpuestas pero con centros distintos. Un punto en la parte inferior derecha se encuentra aparte de los demás. Puede marcar este punto en el trazado utilizando la función.gname

En términos generales, la primera variable canónica,, separa los 1982 coches (que tienen valores altos de) de los coches más antiguos.c1c1 La segunda variable canónica, revela cierta separación entre los coches 1970 y 1976.c2

Los dos últimos campos de la estructura son las distancias de Mahalanobis.stats El campo mide la distancia desde cada punto hasta su media de grupo.mdist Los puntos con valores grandes pueden ser Outliers. En este conjunto de datos, el valor atípico más grande es el del diagrama de dispersión, el vagón de la estación de Buick Estate. (Tenga en cuenta que podría haber suministrado el nombre del modelo a la función anterior si deseaba etiquetar el punto con su nombre de modelo en lugar de su número de fila.)gname

Encuentra la distancia más grande de la media grupal.

max(stats.mdist)
ans = 31.5273 

Encuentre el punto que tiene la distancia más grande de la media del grupo.

find(stats.mdist == ans)
ans = 20 

Encuentra el modelo de coche que corresponde a la distancia más grande de la media del grupo.

Model(20,:)
ans =  'buick estate wagon (sw)          ' 

El campo mide las distancias entre cada par de medias de grupo.gmdist Examine el grupo significa usar.grpstats

grpstats(x, Model_Year)
ans = 3×4
103 ×

    0.0177    0.1489    0.2869    3.4413
    0.0216    0.1011    0.1978    3.0787
    0.0317    0.0815    0.1289    2.4535

Encuentra las distancias entre cada par de medias de grupo.

stats.gmdist
ans = 3×3

         0    3.8277   11.1106
    3.8277         0    6.1374
   11.1106    6.1374         0

Como es de esperar, la distancia multivariada entre los años extremos 1970 y 1982 (11,1) es mayor que la diferencia entre los años más estrechamente espaciados (3,8 y 6,1). Esto es consistente con los diagramas de dispersión, donde los puntos parecen seguir una progresión a medida que el año cambia de 1970 a 1976 a 1982. Si tuvieras más grupos, podrías encontrar instructivo usar la función para dibujar un diagrama que presenta clusters de los grupos, formados usando las distancias entre sus medios.manovacluster