Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Agrupar variables para dividir datos

Puede utilizar variables de agrupación para dividir variables de datos en grupos. Normalmente, la selección de las variables de agrupación es el primer paso del flujo de trabajo.Split-Apply-Combine Puede dividir los datos en grupos, aplicar una función a cada grupo y combinar los resultados. También puede denotar valores faltantes en las variables de agrupamiento, de modo que se ignoren los valores correspondientes en las variables de datos.

Agrupar variables

son variables que se utilizan para agrupar, o categorizar, observaciones, es decir, valores de datos en otras variables.Grouping variables Una variable de agrupamiento puede ser cualquiera de estos tipos de datos:

  • Numérico, lógico, categórico o vectorialdatetimeduration

  • Matriz de vectores de caracteres

  • Tabla, con variables de tabla de cualquier tipo de datos en esta lista

son las variables que contienen observaciones.Data variables Una variable de agrupación debe tener un valor correspondiente a cada valor de las variables de datos. Los valores de datos pertenecen al mismo grupo cuando los valores correspondientes en la variable de agrupación son los mismos.

Esta tabla muestra ejemplos de variables de datos, las variables de agrupamiento y los grupos que puede crear al dividir las variables de datos utilizando las variables de agrupamiento.

Variable de datos

Variable de agrupación

Grupos de datos

[5 10 15 20 25 30]

[0 0 0 0 1 1]

[5 10 15 20] [25 30]

[10 20 30 40 50 60]

[1 3 3 1 2 1]

[10 40 60] [50] [20 30]

[64 72 67 69 64 68]

{'F','M','F','M','F','F'}

[64 67 64 68] [72 69]

Puede dar a grupos de datos nombres significativos cuando utiliza matrices de celdas de vectores de caracteres o matrices categóricas como variables de agrupación. Una matriz categórica es una elección eficiente y flexible de la variable de agrupamiento.

Definición de grupo

Normalmente, hay tantos grupos como valores únicos en la variable de agrupación. (Una matriz categórica también puede incluir categorías que no están representadas en los datos.) Los grupos y el orden de los grupos dependen del tipo de datos de la variable de agrupación.

  • Para las matrices numéricas, lógicas, o de vectores, o de celdas de vectores de caracteres, los grupos corresponden a los valores únicos ordenados en orden ascendente.datetimeduration

  • Para las matrices categóricas, los grupos corresponden a los valores únicos observados en la matriz, ordenados en el orden devuelto por la función.categories

La función puede aceptar varias variables de agrupamiento, por ejemplo.findgroupsG = findgroups(A1,A2) También puede incluir varias variables de agrupación en una tabla, por ejemplo.T = table(A1,A2); G = findgroups(T) La función define los grupos por las combinaciones únicas de valores en los elementos correspondientes de las variables de agrupamiento. decide el orden por el orden de la primera variable de agrupación y, a continuación, por el orden de la segunda variable de agrupación, y así sucesivamente.findgroupsfindgroups Por ejemplo, si y, a continuación, los valores únicos a través de las variables de agrupación son, y, definir tres grupos.A1 = {'a','a','b','b'}A2 = [0 1 0 0]'a' 0'a' 1'b' 0

El flujo de trabajo dividir-aplicar-combinar

Después de seleccionar las variables de agrupamiento y dividir las variables de datos en grupos, puede aplicar funciones a los grupos y combinar los resultados. Este flujo de trabajo se denomina el flujo de trabajo dividir-aplicar-combinar. Puede utilizar las funciones y conjuntamente para analizar grupos de datos en este flujo de trabajo.findgroupssplitapply Este diagrama muestra un ejemplo sencillo utilizando la variable de agrupación y la variable de datos para calcular la altura media por género.GenderHeight

La función devuelve un vector de que definen grupos basados en los valores únicos de las variables de agrupamiento. utiliza los números de grupo para dividir los datos en grupos de manera eficiente antes de aplicar una función.findgroupsgroup numberssplitapply

Los valores de grupo faltantes

Las variables de agrupamiento pueden tener valores faltantes. Esta tabla muestra el indicador de valor faltante para cada tipo de datos. Si una variable de agrupación tiene valores faltantes, se asigna como el número de grupo y omite los valores correspondientes en las variables de datos.findgroupsNansplitapply

Agrupar tipo de datos variable

Indicador de valor faltante

Numérico

Nan

Lógica

(No puede faltar)

Categórico

<undefined>

datetime

NaT

duration

Nan

Matriz de vectores de caracteres

''

Cadena

<missing>

Consulte también

| | |

Temas relacionados