cvpartition

Partición de datos para validación cruzada

Descripción

cvpartition define una partición aleatoria en un conjunto de datos. Utilice esta partición para definir conjuntos de entrenamiento y prueba para validar un modelo estadístico mediante la validación cruzada. Utilice training para extraer los índices de entrenamiento y test para extraer los índices de prueba para la validación cruzada. Utilice repartition para definir una nueva partición aleatoria del mismo tipo que un objeto cvpartition dado.

Si especifica una variable de estratificación o agrupación cuando crea un objeto cvpartition, puede usar summary para mostrar más información sobre la división de los datos.

Creación

Sintaxis

c = cvpartition(n,KFold=k)

c = cvpartition(n,KFold=k,GroupingVariables=groupingVariables)

c = cvpartition(n,Holdout=p)

c = cvpartition(stratvar,KFold=k)

c = cvpartition(stratvar,KFold=k,Stratify=stratifyOption)

c = cvpartition(stratvar,Holdout=p)

c = cvpartition(stratvar,Holdout=p,Stratify=stratifyOption)

c = cvpartition(n,"Leaveout")

c = cvpartition(n,"Resubstitution")

c = cvpartition(CustomPartition=testSets)

Descripción

c = cvpartition(n,KFold=k) devuelve un objeto cvpartition c que define una partición aleatoria no estratificada para la validación cruzada de k particiones sobre n observaciones. La partición divide aleatoriamente las observaciones en k submuestras inconexas, o particiones, cada una de las cuales tiene aproximadamente el mismo número de observaciones.

c = cvpartition(n,KFold=k,GroupingVariables=groupingVariables) devuelve un objeto c que define una partición aleatoria para la validación cruzada de k particiones. La función garantiza que las observaciones con la misma combinación de etiquetas de grupos, según lo especificado por groupingVariables, están en la misma partición. (desde R2025a)

Cuando se especifica groupingVariables, cvpartition descarta las filas de observaciones correspondientes a valores faltantes en groupingVariables.

ejemplo

c = cvpartition(n,Holdout=p) crea una partición aleatoria no estratificada para la validación por retención en n observaciones. Esta partición divide las observaciones en un conjunto de entrenamiento y un conjunto de prueba o retención.

ejemplo

c = cvpartition(stratvar,KFold=k) crea una partición aleatoria para la validación cruzada de k particiones estratificada. Cada submuestra, o partición, tiene aproximadamente el mismo número de observaciones y contiene aproximadamente las mismas proporciones de clase que en stratvar.

Cuando se especifica stratvar como primer argumento de entrada, cvpartition descarta las filas de observaciones correspondientes a valores faltantes en stratvar.

ejemplo

c = cvpartition(stratvar,KFold=k,Stratify=stratifyOption) devuelve un objeto c que define una partición aleatoria para la validación cruzada de k particiones. Si especifica Stratify=false, cvpartition ignora la información de clase de stratvar y crea una partición aleatoria no estratificada. En caso contrario, la función aplica la estratificación de forma predeterminada.

ejemplo

c = cvpartition(stratvar,Holdout=p) divide de forma aleatoria las observaciones en un conjunto de entrenamiento y un conjunto de prueba o retención con estratificación usando la información de clase de stratvar. Tanto el conjunto de entrenamiento como el de prueba tienen aproximadamente las mismas proporciones de clase que en stratvar.

c = cvpartition(stratvar,Holdout=p,Stratify=stratifyOption) devuelve un objeto c que define una partición aleatoria en un conjunto de entrenamiento y un conjunto de prueba o retención. Si especifica Stratify=false, cvpartition crea una partición aleatoria no estratificada. En caso contrario, la función aplica la estratificación de forma predeterminada.

ejemplo

c = cvpartition(n,"Leaveout") crea una partición aleatoria para la validación cruzada dejando una observación fuera sobre n observaciones. La validación cruzada dejando una observación fuera es un caso especial de KFold en el que el número de particiones es igual al número de observaciones.

ejemplo

c = cvpartition(n,"Resubstitution") crea un objeto c que no realiza una partición de los datos. Tanto el conjunto de entrenamiento como el conjunto de prueba contienen todas las n observaciones originales.

c = cvpartition(CustomPartition=testSets) crea un objeto cvpartition c que divide los datos en función de los conjuntos de pruebas indicados en testSets. (desde R2023b)

ejemplo

Argumentos de entrada

expandir todo

`n` — Número de observaciones
escalar entero positivo

Número de observaciones en los datos de muestra, especificado como un escalar entero positivo.

Ejemplo: 100

Tipos de datos: single | double

`k` — Número de particiones
`10` (predeterminado) | escalar entero positivo

Número de particiones en la partición, especificado como un escalar entero positivo. k debe ser menor que el número total de observaciones.

Ejemplo: KFold=5

Tipos de datos: single | double

`groupingVariables` — Variables de agrupación
`[]` (predeterminado) | vector numérico | vector lógico | vector categórico | arreglo de caracteres | arreglo de cadenas | arreglo de celdas de vectores de caracteres | matriz numérica | arreglo de celdas

Desde R2025a

Variables de agrupación, especificadas como uno de los siguientes:

Un vector numérico, un vector lógico, un vector categórico, un arreglo de caracteres, un arreglo de cadenas o un arreglo de celdas de vectores de caracteres que contiene una variable de agrupación.
Una matriz numérica o un arreglo de celdas que contiene dos o más variables de agrupación. Cada columna de la matriz o del arreglo debe corresponderse con una variable de agrupación.

Las observaciones con la misma combinación de etiquetas de grupo están en la misma partición.

`p` — Fracción o número de observaciones en el conjunto de prueba
`0.1` (predeterminado) | escalar en el rango (0,1) | escalar entero en el intervalo [1,n)

Fracción o número de observaciones en el conjunto de prueba utilizado para la validación por retención, especificado como un escalar en el intervalo (0,1) o un escalar entero en el intervalo [1,n), donde n es el número total de observaciones.

Si p es un escalar en el intervalo (0,1), cvpartition selecciona aleatoriamente p*n observaciones aproximadamente para el conjunto de prueba.
Si p es un escalar entero en el intervalo [1,n), cvpartition selecciona aleatoriamente p observaciones para el conjunto de prueba.

Ejemplo: Holdout=0.2

Ejemplo: Holdout=50

Tipos de datos: single | double

`stratvar` — Variable para la estratificación
vector numérico | vector lógico | vector categórico | arreglo de caracteres | arreglo de cadenas | arreglo de celdas de vectores de caracteres

Variable para la estratificación, especificada como un vector numérico, un vector lógico, un vector categórico, un arreglo de caracteres, un arreglo de cadenas o un arreglo de celdas de vectores de caracteres que indica la clase de cada observación. cvpartition crea una partición a partir de las observaciones de stratvar.

`stratifyOption` — Indicador de estratificación
`true` | `false`

Indicador de estratificación, especificado como true o false.

Si el primer argumento de entrada a cvpartition es stratvar, cvpartition implementa la estratificación de forma predeterminada (Stratify=true). En el caso de una partición aleatoria no estratificada, especifique Stratify=false.
Si el primer argumento de entrada a cvpartition es n, cvpartition siempre crea una partición aleatoria no estratificada (Stratify=false). En este caso, no puede especificar Stratify=true.

Ejemplo: Stratify=false

Tipos de datos: logical

`testSets` — Conjuntos de prueba personalizados
vector de enteros positivos | vector lógico | matriz lógica

Desde R2023b

Conjuntos de prueba personalizados, especificados como un vector de enteros positivos, vector lógico o matriz lógica.

Para la validación por retención, especifique las observaciones del conjunto de prueba mediante un vector lógico. Un valor de 1 (true) indica que la observación correspondiente está en el conjunto de prueba y un valor de 0 (false) indica que la observación correspondiente está en el conjunto de entrenamiento.
Para la validación cruzada de k particiones, especifique las observaciones del conjunto de prueba mediante un vector entero (con valores en el intervalo [1,k]) o una matriz lógica con k columnas.
- Vector de enteros: un valor de j indica que la observación correspondiente está en el conjunto de prueba j.
- Matriz lógica: el valor de la fila i y la columna j indica si la observación i está en el conjunto de prueba j.
Cada uno de los k conjuntos de prueba debe contener, al menos, una observación.
Para la validación cruzada dejando una observación fuera, especifique las observaciones del conjunto de prueba mediante un vector entero (con valores en el intervalo [1,n]) o una matriz lógica de n por n, donde n es el número de observaciones de los datos.
- Vector de enteros: un valor de j indica que la observación correspondiente está en el conjunto de prueba j.
- Matriz lógica: el valor de la fila i y la columna j indica si la observación i está en el conjunto de prueba j.

Ejemplo: CustomPartition=[true false true false false] indica un esquema de validación por retención, con la observaciones primera y tercera del conjunto de prueba.

Ejemplo: CustomPartition=[1 2 2 1 3 3 1 2 3 2] un esquema de validación cruzada de 3 particiones, con las observaciones primera, cuarta y séptima del primer conjunto de prueba.

Tipos de datos: single | double | logical