Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

grpstats

Resumen de las estadísticas organizadas por grupo

Descripción

ejemplo

statarray = grpstats(tbl,groupvar) Devuelve una matriz de tabla o DataSet con los medios para los grupos de datos especificados en determinados por los valores de la variable de agrupación o las variables especificadas en.tblgroupvar

  • Si hay una única variable de agrupación, hay una fila para cada valor de la variable de agrupación. ordena los grupos por orden de aparición (si la variable de agrupación es un vector de caracteres o escalar de cadena), en orden numérico ascendente (si la variable de agrupación es numérica) o en orden de los niveles (si la variable de agrupación es categórica).statarraygrpstats

  • Si es una matriz de cadenas o matriz de vectores de caracteres que contiene varios nombres de variables de agrupación, o un vector de números de columna, entonces hay una fila para cada combinación única observada de valores de las variables de agrupamiento. ordena los grupos por los valores de la primera variable de agrupación, a continuación, la segunda variable de agrupación, y así sucesivamente.groupvarstatarraygrpstats

  • Si alguna de las variables de (que no sean las especificadas en) no son matrices numéricas o lógicas, debe especificar los nombres o números de columna de las variables numéricas y lógicas para las que desea calcular medios utilizando el argumento de par nombre-valor,.tblgroupvarDataVars

ejemplo

statarray = grpstats(tbl,groupvar,whichstats) Devuelve los valores de grupo para los tipos de estadísticas de Resumen especificados en.whichstats

ejemplo

statarray = grpstats(tbl,groupvar,whichstats,Name,Value) utiliza opciones adicionales especificadas por uno o más argumentos de par.Name,Value

ejemplo

means = grpstats(X,group) Devuelve un vector de columna o matriz con los medios de los grupos de los datos en la matriz o Vector determinados por los valores de la variable de agrupación o variables,.Xgroup Las filas de corresponden a los valores de la variable de agrupación.means

  • Si hay una única variable de agrupación, hay una fila para cada valor de la variable de agrupación. ordena los grupos por orden de aparición (si la variable de agrupación es un vector de caracteres o escalar de cadena), en orden numérico ascendente (si la variable de agrupación es numérica) o en orden de los niveles (si la variable de agrupación es categórica).meansgrpstats

  • Si es una matriz de cadenas o matriz de celdas de las variables de agrupamiento, entonces hay una fila para cada combinación única observada de valores de las variables de agrupamiento. ordena los grupos por los valores de la primera variable de agrupación, a continuación, la segunda variable de agrupación, y así sucesivamente.groupmeansgrpstats

  • Si es una matriz, entonces es una matriz con el mismo número de columnas que.XmeansX Cada columna de tiene el grupo significa para la columna correspondiente de.meansX

ejemplo

[stats1,...,statsN] = grpstats(X,group,whichstats) Devuelve vectores de columna o matrices con valores de grupo para los tipos de estadística de Resumen especificados en.whichstats

ejemplo

[stats1,...,statsN] = grpstats(X,group,whichstats,'Alpha',alpha) especifica el nivel de significancia para la confianza y los intervalos de predicción.

ejemplo

grpstats(X,group,alpha) traza los medios de los grupos de datos en el vector o matriz determinados por los valores de la variable de agrupamiento,.Xgroup Los valores de la variable de agrupación se encuentran en el eje de trazado horizontal. Cada medio de grupo tiene intervalos de confianza de 100 × (1 –)%.alpha

  • Si es una matriz, a continuación, traza los medios y los intervalos de confianza para cada columna de.XgrpstatsX

  • Si es una matriz de celdas de las variables de agrupamiento, a continuación, traza los medios y los intervalos de confianza para los grupos de datos en determinados por las combinaciones únicas de valores de las variables de agrupación.groupgrpstatsX Por ejemplo, si hay dos variables de agrupación, cada una con dos valores, hay cuatro combinaciones posibles de valores de variable de agrupación. La gráfica incluye sólo las combinaciones de valores que existen en las variables de agrupamiento de entrada (no todas las combinaciones posibles).

Ejemplos

contraer todo

Cargue los datos de ejemplo.

load('hospital')

La matriz de DataSet tiene 100 observaciones y 7 variables.hospital

Cree una matriz de conjunto de datos con solo las variables, y.SexAgeWeightSmoker

dsa = hospital(:,{'Sex','Age','Weight','Smoker'});

es una matriz nominal, con niveles y.SexMaleFemale Las variables y tienen valores numéricos, y tiene valores lógicos.AgeWeightSmoker

Calcule la media de las matrices numéricas y lógicas, y, agrupadas por los niveles en.AgeWeightSmokerSex

statarray = grpstats(dsa,'Sex')
statarray =                Sex       GroupCount    mean_Age    mean_Weight    mean_Smoker     Female    Female    53            37.717      130.47         0.24528         Male      Male      47            38.915      180.53         0.44681      

es una matriz de conjunto de datos con dos filas, correspondiente a los niveles en. es el número de observaciones en cada grupo.statarraySexGroupCount Los medios de, y, agrupados por, se dan en,, y.AgeWeightSmokerSexmean_Agemean_Weightmean_Smoker

Calcule la media para y, agrupada por los valores en.AgeWeightSmoker

statarray = grpstats(dsa,'Smoker','mean','DataVars',{'Age','Weight'})
statarray =           Smoker    GroupCount    mean_Age    mean_Weight     0    false     66             37.97      149.91          1    true      34            38.882      161.94       

En este caso, no todas las variables de (excluyendo la variable de agrupación) son matrices numéricas o lógicas; la variable es una matriz nominal.dsaSmokerSex Cuando no todas las variables de la matriz de DataSet de entrada son matrices numéricas o lógicas, debe especificar las variables para las que desea calcular las estadísticas de Resumen mediante.DataVars

Calcule el peso mínimo y máximo, agrupados por las combinaciones de valores en y.SexSmoker

statarray = grpstats(dsa,{'Sex','Smoker'},{'min','max'},...                      'DataVars','Weight')
statarray =                  Sex       Smoker    GroupCount    min_Weight    max_Weight     Female_0    Female    false     40            111           147            Female_1    Female    true      13            115           146            Male_0      Male      false     26            158           194            Male_1      Male      true      21            164           202         

Hay dos valores únicos en y dos niveles en, para un total de cuatro combinaciones posibles de valores:SmokerSex Hembra no fumador (), fumador femenino (), no fumador masculino () y fumador masculino ().Female_0Female_1Male_0Male_1

Especifique los nombres de las columnas de la salida.

statarray = grpstats(dsa,{'Sex','Smoker'},{'min','max'},...           'DataVars','Weight','VarNames',{'Gender','Smoker',...      'GroupCount','LowestWeight','HighestWeight'})
statarray =                  Gender    Smoker    GroupCount    LowestWeight    HighestWeight     Female_0    Female    false     40            111             147               Female_1    Female    true      13            115             146               Male_0      Male      false     26            158             194               Male_1      Male      true      21            164             202            

Cargue los datos de ejemplo.

load('hospital')

La matriz de DataSet tiene 100 observaciones y 7 variables.hospital

Cree una matriz de conjunto de datos con solo las variables y.AgeWeightSmoker

dsa = hospital(:,{'Age','Weight','Smoker'});

Las variables y tienen valores numéricos, y tiene valores lógicos.AgeWeightSmoker

Calcule el valor medio, el mínimo y el máximo para las matrices numéricas y lógicas, y, sin agrupación.AgeWeightSmoker

statarray = grpstats(dsa,[],{'mean','min','max'})
statarray =             GroupCount    mean_Age    min_Age    max_Age    mean_Weight     All    100           38.28       25         50         154                      min_Weight    max_Weight    mean_Smoker    min_Smoker    max_Smoker     All    111           202           0.34           false         true        

El nombre de la observación indica que todas las observaciones se utilizaron para calcular las estadísticas de resumen.Alldsa

Cargue los datos de ejemplo.

load('carsmall')

Todas las variables se miden para 100 coches. es el país de origen de cada coche (Francia, Alemania, Italia, Japón, Suecia o Estados Unidos). tiene tres valores únicos, e indica el número de cilindros en cada coche.OriginCylinders468

Calcule la aceleración media, agrupada por país de origen.

means = grpstats(Acceleration,Origin)
means = 6×1

   14.4377
   18.0500
   15.8867
   16.3778
   16.6000
   15.5000

es un vector de 6 por 1 de aceleraciones de media, donde cada valor corresponde a un país de origen.means

Calcule la aceleración media, agrupada tanto por país de origen como por número de cilindros.

means = grpstats(Acceleration,{Origin,Cylinders})
means = 10×1

   17.0818
   16.5267
   11.6406
   18.0500
   15.9143
   15.5000
   16.3375
   16.7000
   16.6000
   15.5000

Hay 18 combinaciones posibles de valores de variable de agrupamiento porque tiene 6 valores únicos y tiene 3 valores únicos.OriginCylinders Sólo 10 de las combinaciones posibles aparecen en los datos, por lo que es un vector 10 por 1 de los medios de grupo correspondientes a las combinaciones de valores observadas.means

Devuelva los nombres de grupo junto con la aceleración media para cada grupo.

[means,grps] = grpstats(Acceleration,{Origin,Cylinders},{'mean','gname'})
means = 10×1

   17.0818
   16.5267
   11.6406
   18.0500
   15.9143
   15.5000
   16.3375
   16.7000
   16.6000
   15.5000

grps = 10x2 cell array
    {'USA'    }    {'4'}
    {'USA'    }    {'6'}
    {'USA'    }    {'8'}
    {'France' }    {'4'}
    {'Japan'  }    {'4'}
    {'Japan'  }    {'6'}
    {'Germany'}    {'4'}
    {'Germany'}    {'6'}
    {'Sweden' }    {'4'}
    {'Italy'  }    {'4'}

La salida muestra las 10 combinaciones observadas de valores de variable de agrupamiento.grps Por ejemplo, la aceleración media de los coches de 4 cilindros fabricados en Francia es de 18,05.

Cargue los datos de ejemplo.

load carsmall

La variable se midió para 100 coches.Acceleration La variable es el país de origen de cada coche (Francia, Alemania, Italia, Japón, Suecia o Estados Unidos).Origin

Devuelve la aceleración mínima y máxima agrupada por país de origen.

[grpMin,grpMax,grp] = grpstats(Acceleration,Origin,{'min','max','gname'})
grpMin = 6×1

    8.0000
   15.3000
   13.9000
   12.2000
   15.7000
   15.5000

grpMax = 6×1

   22.2000
   21.9000
   18.2000
   24.6000
   17.5000
   15.5000

grp = 6x1 cell array
    {'USA'    }
    {'France' }
    {'Japan'  }
    {'Germany'}
    {'Sweden' }
    {'Italy'  }

El coche de muestra con la aceleración más baja se hace en los E.E.U.U., y el coche de la muestra con la aceleración más alta se hace en Alemania.

Cargue los datos de ejemplo.

load('carsmall')

La variable se midió para 100 coches.Weight La variable tiene tres valores únicos, y, que corresponden a los años de modelo 1970, 1976 y 1982.Model_Year707682

Calcule el peso medio y los intervalos de predicción del 90% para cada año del modelo.

[means,pred,grp] = grpstats(Weight,Model_Year,...                       {'mean','predci','gname'},'Alpha',0.1);

Trace barras de error que muestren el peso medio y los intervalos de predicción del 90%, agrupados por año del modelo. Etiquete el eje horizontal con los nombres de grupo.

ngrps = length(grp); % Number of groups errorbar((1:ngrps)',means,pred(:,2)-means) xlim([0.5 3.5]) set(gca,'xtick',1:ngrps,'xticklabel',grp) title('90% Prediction Intervals for Weight by Year')

Cargue los datos de ejemplo.

load('carsmall')

Las variables y son los valores de aceleración y peso medidos para 100 coches.AccelerationWeight La variable es el número de cilindros en cada coche.Cylinders La variable tiene tres valores únicos, y, que corresponden a los años de modelo 1970, 1976 y 1982.Model_Year707682

Trazar aceleración media, agrupada por, con intervalos de confianza del 95%.Cylinders

grpstats(Acceleration,Cylinders,0.05)

ans = 3×1

   16.6706
   16.4765
   11.6406

La aceleración media para los coches con 8 cilindros es significativamente menor que para los coches con 4 o 6 cilindros.

Trazar la aceleración y el peso medio, agrupados por, y 95% intervalos de confianza.Cylinders Escale los valores por 1000 para que los medios y sean el mismo orden de magnitud.WeightWeightAcceleration

grpstats([Acceleration,Weight/1000],Cylinders,0.05)

ans = 3×2

   16.6706    2.3726
   16.4765    3.1255
   11.6406    3.9703

El peso promedio de los coches aumenta con el número de cilindros, y la aceleración media disminuye con el número de cilindros.

Trazar la aceleración media, agrupada por ambos y.CylindersModel_Year Especifique 95% de intervalos de confianza.

grpstats(Acceleration,{Cylinders,Model_Year},0.05)

ans = 8×1

   16.1875
   16.8667
   16.7036
   15.5000
   17.0000
   16.0333
   11.0217
   13.2222

Hay nueve combinaciones posibles de valores de variable de agrupación porque hay tres valores únicos en y tres valores únicos en.CylindersModel_Year La trama no muestra los coches de 8 cilindros con el año modelo 1982 porque los datos no incluyen esta combinación.

La aceleración media de los coches de 8 cilindros fabricados en 1976 es significativamente mayor que la aceleración media de los coches de 8 cilindros fabricados en 1970.

Argumentos de entrada

contraer todo

Datos de entrada, especificados como una tabla o matriz de DataSet. debe incluir al menos una variable que sea una variable de agrupación.tbl

Las estadísticas de Resumen solo se pueden calcular para las variables que tienen un tipo de datos numérico o lógico. Si alguna de las variables de (que no sean las variables de agrupamiento) no son matrices numéricas o lógicas, utilice el argumento de par nombre-valor para especificar los nombres o números de columna de las variables numéricas y lógicas para las que se calculan las estadísticas de resumen.tblDataVars

Identificadores de las variables de agrupamiento en los datos de entrada, especificados como uno de los siguientes:tbl

Vector de caracteres, matriz de cadenas o matriz de celdas de vectores de caracteresLos nombres de las variables de agrupación
Entero positivo o vector de enteros positivosEl número variable de las variables de agrupamiento
Vector de valores lógicos con número de elementos igual al número de variables entblIndicador lógico con valor para agrupar variables y de otro modotruefalse
[]Sin grupos (devuelve las estadísticas de Resumen de todos los datos)

Cualquier variable que se identifique como una variable de agrupación debe tener un tipo de datos variable de agrupación válido: matriz categórica, Vector lógico o numérico, Vector DateTime o Duration, matriz de cadenas o matriz de celdas de vectores de caracteres.groupvar

Por ejemplo, considere una tabla de entrada, con seis variables.tbl La cuarta variable se denomina.Gender Para ser una variable de agrupación válida, el tipo de datos de puede ser una matriz de cadenas, una matriz de vectores de caracteres o una matriz nominal, con los valores únicos y.GenderMaleFemale Para especificar la variable como la variable de agrupamiento, puede utilizar cualquiera de estas sintaxis:Gender

  • statarray = grpstats(tbl,'Gender')

  • statarray = grpstats(tbl,4)

  • statarray = grpstats(tbl,logical([0 0 0 1 0 0]))

Tipos de datos: double | logical | char | string | cell

Tipos de estadísticas de resumen para calcular, especificadas como un vector de caracteres, un escalar de cadena, un identificador de función, una matriz de cadenas o una matriz de celdas de vectores de caracteres y controladores de función. Utilice una matriz de celdas para especificar varios tipos de estadísticas de resumen.

Los valores incluyen:

'mean'Decir
'sem'Error estándar de la media
'numel'Recuento, o número, de elementos no-NaN
'gname'Nombre del grupo
'std'La desviación estándar
'var'Varianza
'min'Mínimo
'max'Máximo
'range'Gama
'meanci'95% de intervalo de confianza para la media
'predci'95% intervalo de predicción para una nueva observación

Ejemplo: [stat1,stat2] = grpstats(X,group,{'mean','sem'})

Puede especificar diferentes niveles de significancia para las opciones y con el argumento de par nombre-valor,.'meanci''predci'Alpha

Para especificar otros tipos de estadísticas de Resumen, puede usar identificadores de función. Puede usar el identificador para cualquier función que acepte una columna o matriz de datos, y devuelve el mismo tamaño de salida cada vez que lo llama (incluso si la salida de algunos grupos está vacía).grpstats

Si la función acepta una columna de datos, la función puede devolver un valor escalar o un vector de columna-por-1 para estadísticas descriptivas de longitud (por ejemplo, los intervalos de confianza tienen la longitud dos).nvalsnvals Si la función acepta una matriz, debe devolver un vector de 1 por fila o una por matriz, donde es el número de columnas de la matriz de datos de entrada.ncolsnvalsncolsncols

Ejemplo: [stat1,stat2,stat3] = grpstats(X,group,{'mean','std',@skewness})

Para las funciones que no calculan estadísticas de columna, especifique la dirección de cálculo al especificar la función.

Ejemplo: stat1 = grpstats(X,group,@(x)sum(x,1))

Nivel de significancia, especificado como un valor escalar en el rango (0, 1).

  • Al especificar o en, puede utilizar para especificar el nivel de significancia para los intervalos de confianza o predicción.'meanci''predci'whichstatsalpha Si especifica, devuelve 100 × (1 –)% de confianza o intervalos de predicción.alphagrpstatsalpha Si no especifica, devuelve 95% intervalos ().alphagrpstatsalpha = 0.05

  • Se utiliza con los medios para el grupo de trazado y los intervalos de confianza correspondientes de 100 × (1 –)%.alphaSintaxisalpha

Tipos de datos: double

Datos de entrada, especificados como un vector o una matriz. Si es una matriz, a continuación, devuelve las estadísticas de resumen para cada columna de.XgrpstatsX

Tipos de datos: double | single

Variable de agrupación, especificada como una matriz categórica, Vector lógico o numérico, Vector de fecha y hora o duración, matriz de cadenas o matriz de celdas de vectores de caracteres. Cada valor único en una variable de agrupación define un grupo. agrupa los datos para las estadísticas de Resumen utilizando los valores de variable de agrupación.grpstats

Debe haber un valor de variable de agrupación para cada fila de los datos de entrada.X Las observaciones (filas) con el mismo valor de la variable de agrupación se encuentran en el mismo grupo. Se usa para calcular estadísticas de resumen para todos los datos, sin usar grupos.[]

Por ejemplo, si es una matriz de cadenas o matriz de vectores de caracteres con valores y, puede usar como una variable de agrupación para resumir los datos por género.Gender'Male''Female'Gender

También puede utilizar más de una variable de agrupación para agrupar los datos de las estadísticas de resumen. En este caso, especifique una matriz de celdas de variables de agrupación.

Por ejemplo, si se trata de un vector lógico con valores para no fumadores y para fumadores, la especificación de la matriz de celdas divide las observaciones en cuatro grupos:Smoker01{Gender,Smoker} Fumador masculino, no fumador masculino, fumador femenino y no fumador femenino. Devuelve estadísticas de Resumen solo para las combinaciones de valores que existen en las variables de agrupación de entrada (no todas las combinaciones posibles).grpstats

Tipos de datos: single | double | logical | char | string | cell | categorical | datetime | duration

Argumentos de par nombre-valor

Especifique pares de argumentos separados por comas opcionales. es el nombre del argumento y es el valor correspondiente. deben aparecer dentro de las cotizaciones.Name,ValueNameValueName Puede especificar varios argumentos de par de nombre y valor en cualquier orden como.Name1,Value1,...,NameN,ValueN

Ejemplo: Especifica que las estadísticas de resumen se calculen para las variables 1st, 3rd y 4th en una matriz de conjunto de datos, con intervalos de confianza del 99%.'DataVars',[1,3,4],'Alpha',0.01

Nivel de significancia para los intervalos de la confianza y de la predicción, especificado como el par separado por comas que consiste en y un valor escalar en el rango (0, 1).'Alpha'

Al incluir o en, puede usar para especificar el nivel de significancia para los intervalos de confianza o predicción.'meanci''predci'whichstatsAlpha Si especifica el valor, a continuación, devuelve 100 × (1 –)% de confianza o intervalos de predicción.αgrpstatsα

Si no especifica un valor para, a continuación, devuelve 95% intervalos (= 0,05).Alphagrpstatsα

Ejemplo: 'Alpha',0.1

Tipos de datos: double

Nombres de variable o columnas que indican en qué variables de los datos de entrada desea calcular las estadísticas de Resumen, especificadas como el par separado por comas que consta de una matriz de cadenas, matriz de vectores de caracteres, Vector de enteros positivos o lógica Vector.tbl'DataVars' Utilice un vector de caracteres o un escalar de cadena para especificar un nombre de variable, un entero positivo para especificar un número de columna variable o valores lógicos para indicar qué variables incluir (si desea calcular las estadísticas de Resumen, de lo contrario).truefalse

Debe especificar si hay variables en (que no sean las variables de agrupación especificadas en) que no sean matrices numéricas o lógicas.DataVarstblgroupvar Las estadísticas de Resumen solo se pueden calcular para las variables que tienen un tipo de datos numérico o lógico.

Ejemplo: 'DataVars',{'Height','Weight'}

Tipos de datos: double | string | cell | char

Nombres de variable para la salida, especificados como el par separado por comas que consta de una matriz de cadenas o matriz de vectores de caracteres.statarray'VarNames' De forma predeterminada, construye nombres de variables de salida anexando un prefijo a los nombres de variable de los datos de entrada.grpstatstbl Este prefijo corresponde al nombre de la estadística de resumen.

Ejemplo: 'VarNames',{'Gender','GroupCount','MaleMean','FemaleMean'}

Tipos de datos: string | cell

Argumentos de salida

contraer todo

Estadísticas de Resumen de grupo, devueltas como una tabla o una matriz de conjunto de datos. Si es una tabla, se devuelve como una tabla.tblgrpstatsstatarray Si es una matriz de conjunto de datos, devuelve como una matriz de conjunto de datos.tblgrpstatsstatarray

contiene valores estadísticos de resumen para los grupos de datos en determinados por los niveles de las variables de agrupación especificadas por.statarraytblgroupvar Hay una fila para cada valor observado o una combinación de valores en las variables especificadas por.statarraygroupvar La salida contiene:statarray

  • Todas las variables de agrupación especificadas por.groupvar

  • La variable, que contiene el número de observaciones de cada grupo.GroupCount

  • Valores estadísticos de Resumen de grupo para todas las variables en (que no sean las especificadas por), o solo para las variables especificadas mediante.tblgroupvarDataVars

El número total de variables en es + 1 + ×, donde es el número de variables en, es el número de variables para las que se calculan las estadísticas de Resumen, y es el número de tipos de estadística de Resumen especificados en.statarrayngroupvarsndatavarsnstatsngroupvarsgroupvarndatavarsnstatswhichstats

asigna nombres predeterminados a las variables en, a menos que especifique nombres de variable mediante el argumento de par nombre-valor.grpstatsstatarrayVarNames

Group significa para los grupos de datos en el vector o matriz determinados por los niveles de, devueltos como un-por-Array.Xgroupngroupsncols Aquí, es el número de valores únicos en la variable de agrupación, y es el número de columnas en.ngroupsncolsX Si es un vector, entonces es un vector de columna.Xmeans

Estadísticas de Resumen de grupo para los grupos de datos en el vector o matriz determinados por los niveles de, devueltos como-por-arrays.Xgroupngroupsncols Aquí, es el número de valores únicos en la variable de agrupación, y es el número de columnas en.ngroupsncolsX Debe especificar un argumento de salida para cada tipo de estadística de Resumen especificado en.whichstats

Si un tipo de estadística de resumen en devuelve un valor de Length (por ejemplo, un intervalo de confianza es una estadística descriptiva de longitud dos), el argumento de salida correspondiente es un-por--por-Array.whichstatsnvalsngroupsncolsnvals

Algoritmos

  • trata a s como valores faltantes y los elimina de los datos de entrada antes de calcular las estadísticas de resumen.grpstatsNaN

  • omite los nombres de grupo vacíos.grpstats

Capacidades ampliadas

Introducido antes de R2006a