Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Las diferencias de prueba entre categoría significa

Este ejemplo muestra cómo probar las diferencias significativas entre la categoría (grupo) significa utilizar un análisis de una-prueba, de dos vías ANOVA (análisis de varianza), y ANOCOVA (análisis de covarianza).t

El objetivo es determinar si las millas esperadas por galón para un coche depende de la década en la que se fabricó, o la ubicación donde se fabricó.

Nota

Los tipos de datos y matrices se pueden quitar en una versión futura.nominalordinal Para representar datos no numéricos y discretos ordenados y desordenados, utilice el tipo de datos en su lugar.Arreglos categóricos (MATLAB)

Cargue datos de muestra.

load('carsmall') unique(Model_Year)
ans =      70     76     82

La variable tiene mediciones de millas por galón en una muestra de 100 coches.MPG Las variables y contienen el año modelo y el país de origen para cada coche.Model_YearOrigin

El primer factor de interés es la década de fabricación. Hay tres años de fabricación en los datos.

Crear un factor para la década de fabricación.

Cree una matriz ordinal denominada combinando las observaciones de años y en una categoría etiquetada, y colocando las observaciones en una categoría etiquetada.Decade70761970s821980s

Decade = ordinal(Model_Year,{'1970s','1980s'},[],[70 77 82]); getlevels(Decade)
ans =        1970s      1980s  

Trazar datos agrupados por categoría.

Dibuje un diagrama de caja de millas por galón, agrupados por la década de fabricación.

figure() boxplot(MPG,Decade) title('Miles per Gallon, Grouped by Decade of Manufacture')

La parcela de caja sugiere que millas por galón es mayor en los coches fabricados durante la década de 1980 en comparación con la década de 1970.

Calcular estadísticas de resumen.

Calcule la media y la varianza de millas por galón para cada década.

[xbar,s2,grp] = grpstats(MPG,Decade,{'mean','var','gname'})
xbar =     19.7857    31.7097   s2 =     35.1429    29.0796   grp =       '1970s'     '1980s'

Esta salida muestra que la media de millas por galón en la década de 1980 fue, en comparación con en la década de 1970.31.7119.79 Las desviaciones en los dos grupos son similares.

Realice una prueba t de dos muestras para los medios de grupo iguales.

Realizar una prueba de dos muestras, suponiendo varianzas iguales, para probar una diferencia significativa entre los medios del grupo.t La hipótesis es

H0:μ70=μ80HA:μ70μ80.

El valor lógico indica que la hipótesis nula se rechaza en el nivel de significancia 0,05 predeterminado.

MPG70 = MPG(Decade=='1970s'); MPG80 = MPG(Decade=='1980s'); [h,p] = ttest2(MPG70,MPG80)
h =       1   p =     3.4809e-15
1 El valor p de la prueba es muy pequeño. Hay pruebas suficientes de que la media de millas por galón en la década de 1980 difiere de la media de millas por galón en la década de 1970.

Crear un factor para la ubicación de fabricación.

El segundo factor de interés es la ubicación de la fabricación. Primero, conviértalo a una matriz nominal. Hay seis países diferentes de fabricación.Origin

Location = nominal(Origin); tabulate(Location)
tabulate(Location)     Value    Count   Percent    France        4      4.00%   Germany        9      9.00%     Italy        1      1.00%     Japan       15     15.00%    Sweden        2      2.00%       USA       69     69.00%
Los países europeos tienen relativamente pocas observaciones.

Combinar categorías.

Combine las categorías, y en una nueva categoría denominada.FranceGermanyItalySwedenEurope

Location = mergelevels(Location, ...     {'France','Germany','Italy','Sweden'},'Europe'); tabulate(Location)
   Value    Count   Percent    Japan       15     15.00%      USA       69     69.00%   Europe       16     16.00%

Calcular estadísticas de resumen.

Calcule las millas media por galón, agrupadas por la ubicación de fabricación.

[xbar,grp] = grpstats(MPG,Location,{'mean','gname'})
xbar =     31.8000    21.1328    26.6667   grp =       'Japan'     'USA'     'Europe'

Este resultado muestra que las millas promedio por galón son más bajas para la muestra de automóviles fabricados en los Estados Unidos.

Llevar a cabo ANOVA de dos vías.

Realice un ANOVA de dos vías para evaluar las diferencias en las millas esperadas por galón entre los niveles de los factores y.DecadeLocation

El modelo estadístico es

MPGij=μ+αi+βj+εij,i=1,2;j=1,2,3,

Dónde Mpgij es la respuesta, millas por galón, para los coches hechos en la década en la ubicación.ij Los efectos del tratamiento para el primer factor, década de fabricación, son los Αi términos (restringidos a sumar a cero). Los efectos de tratamiento para el segundo factor, ubicación de fabricación, son los Βj términos (restringidos a sumar a cero). el Εij son términos de ruido no correlacionados, normalmente distribuidos.

Las hipótesis a probar son la igualdad de los efectos de la década,

H0:α1=α2=0HA:atleastoneαi0,

y la igualdad de efectos de ubicación,

H0:β1=β2=β3=0HA:atleastoneβj0.

Puede llevar a cabo un ANOVA de varios factores utilizando.anovan

anovan(MPG,{Decade,Location},'varnames',{'Decade','Location'});

Esta salida muestra los resultados del ANOVA de dos vías. El valor p para probar la igualdad de los efectos de la década es, por lo que la hipótesis nula se rechaza en el nivel de significancia 0,05.2.88503e-18 El valor p para probar la igualdad de los efectos de ubicación es, por lo que esta hipótesis nula también se rechaza.7.40416e-10

Realizar análisis ANOCOVA.

Un posible confusión en este análisis es el peso del automóvil. Se espera que los coches con mayor peso tengan un kilometraje de gas menor. Incluir la variable como una covariable continua en el ANOVA; es decir, realizar un análisis ANOCOVA.Weight

Suponiendo líneas paralelas, el modelo estadístico es

MPGijk=μ+αi+βj+γWeightijk+εijk,i=1,2;j=1,2,3;k=1,...,100.

La diferencia entre este modelo y el modelo ANOVA de dos vías es la inclusión del predictor continuo, Pesoijk, el peso para el coche del th, que se hizo en la década TH y en la ubicación TH.kij El parámetro Slope es.γ

Agregue la covariable continua como un tercer grupo en el segundo argumento de entrada.anovan Utilice el argumento de par nombre-valor para especificar que (el tercer grupo) es continuo.ContinuousWeight

anovan(MPG,{Decade,Location,Weight},'Continuous',3,...        'varnames',{'Decade','Location','Weight'});

Esta salida muestra que cuando se considera el peso del coche, hay pruebas insuficientes de un efecto de la ubicación de fabricación (valor p =).0.1044

Utilice la herramienta interactiva.

Puede utilizar el interactivo para explorar este resultado.aoctool

aoctool(Weight,MPG,Location);

Este comando abre tres cuadros de diálogo. En el cuadro de diálogo trazado de predicción ANOCOVA, seleccione el modelo.Separate Means

Esta salida muestra que cuando usted no incluye en el modelo, hay diferencias bastante grandes en las millas esperadas por el galón entre las tres ubicaciones de fabricación.Weight Tenga en cuenta que aquí el modelo no se ajusta para la década de fabricación.

Ahora, seleccione el modelo.Parallel Lines

Cuando se incluye en el modelo, la diferencia en las millas esperadas por galón entre las tres ubicaciones de fabricación es mucho menor.Weight

Consulte también

| | | | | |

Ejemplos relacionados

Más acerca de