La traducción de esta página aún no se ha actualizado a la versión más reciente. Haga clic aquí para ver la última versión en inglés.

cvpartition

Partición de datos para validación cruzada

expandir todo en la página

Descripción

cvpartition define una partición aleatoria en un conjunto de datos. Utilice esta partición para definir conjuntos de entrenamiento y prueba para validar un modelo estadístico mediante la validación cruzada. Utilice training para extraer los índices de entrenamiento y test para extraer los índices de prueba para la validación cruzada. Utilice repartition para definir una nueva partición aleatoria del mismo tipo que un objeto cvpartition dado.

Creación

Sintaxis

c = cvpartition(n,"KFold",k)

c = cvpartition(n,"Holdout",p)

c = cvpartition(group,"KFold",k)

c = cvpartition(group,"KFold",k,"Stratify",stratifyOption)

c = cvpartition(group,"Holdout",p)

c = cvpartition(group,"Holdout",p,"Stratify",stratifyOption)

c = cvpartition(n,"Leaveout")

c = cvpartition(n,"Resubstitution")

c = cvpartition("CustomPartition",testSets)

Descripción

c = cvpartition(n,"KFold",k) devuelve un objeto cvpartition c que define una partición aleatoria no estratificada para la validación cruzada de k particiones sobre n observaciones. La partición divide aleatoriamente las observaciones en k submuestras inconexas, o particiones, cada una de las cuales tiene aproximadamente el mismo número de observaciones.

ejemplo

c = cvpartition(n,"Holdout",p) crea una partición aleatoria no estratificada para la validación por retención en n observaciones. Esta partición divide las observaciones en un conjunto de entrenamiento y un conjunto de prueba o retención.

ejemplo

c = cvpartition(group,"KFold",k) crea una partición aleatoria para la validación cruzada de k particiones estratificada. Cada submuestra, o partición, tiene aproximadamente el mismo número de observaciones y contiene aproximadamente las mismas proporciones de clase que en group.

Cuando se especifica group como primer argumento de entrada, cvpartition descarta las filas de observaciones correspondientes a valores faltantes en group.

ejemplo

c = cvpartition(group,"KFold",k,"Stratify",stratifyOption) devuelve un objeto cvpartition c que define una partición aleatoria para la validación cruzada de k particiones. Si especifica "Stratify",false, cvpartition ignora la información de clase de group y crea una partición aleatoria no estratificada. En caso contrario, la función aplica la estratificación de forma predeterminada.

c = cvpartition(group,"Holdout",p) divide de forma aleatoria las observaciones en un conjunto de entrenamiento y un conjunto de prueba o retención con estratificación usando la información de clase de group. Tanto el conjunto de entrenamiento como el de prueba tienen aproximadamente las mismas proporciones de clase que en group.

ejemplo

c = cvpartition(group,"Holdout",p,"Stratify",stratifyOption) devuelve un objeto c que define una partición aleatoria en un conjunto de entrenamiento y un conjunto de prueba o retención. Si especifica "Stratify",false, cvpartition crea una partición aleatoria no estratificada. En caso contrario, la función aplica la estratificación de forma predeterminada.

ejemplo

c = cvpartition(n,"Leaveout") crea una partición aleatoria para la validación cruzada dejando una observación fuera sobre n observaciones. La validación cruzada dejando una observación fuera es un caso especial de "KFold" en el que el número de particiones es igual al número de observaciones.

c = cvpartition(n,"Resubstitution") crea un objeto c que no realiza una partición de los datos. Tanto el conjunto de entrenamiento como el conjunto de prueba contienen todas las n observaciones originales.

ejemplo

c = cvpartition("CustomPartition",testSets) crea un objeto cvpartition c que divide los datos en función de los conjuntos de pruebas indicados en testSets. (desde R2023b)

Argumentos de entrada

expandir todo

`n` — Número de observaciones
escalar entero positivo

Número de observaciones en los datos de muestra, especificado como un escalar entero positivo.

Ejemplo: 100

Tipos de datos: single | double

`k` — Número de particiones
`10` (predeterminado) | escalar entero positivo

Número de particiones en la partición, especificado como un escalar entero positivo. k debe ser menor que el número total de observaciones.

Ejemplo: 5

Tipos de datos: single | double

`p` — Fracción o número de observaciones en el conjunto de prueba
`0.1` (predeterminado) | escalar en el rango (0,1) | escalar entero en el intervalo [1,n)

Fracción o número de observaciones en el conjunto de prueba utilizado para la validación por retención, especificado como un escalar en el intervalo (0,1) o un escalar entero en el intervalo [1,n), donde n es el número total de observaciones.

Si p es un escalar en el intervalo (0,1), cvpartition selecciona aleatoriamente p*n observaciones aproximadamente para el conjunto de prueba.
Si p es un escalar entero en el intervalo [1,n), cvpartition selecciona aleatoriamente p observaciones para el conjunto de prueba.

Ejemplo: 0.2

Ejemplo: 50

Tipos de datos: single | double

`group` — Variable de agrupación para la estratificación
vector numérico | vector lógico | arreglo categórico | arreglo de caracteres | arreglo de cadenas | arreglo de celdas de vectores de caracteres

Variable de agrupación para la estratificación, especificada como un vector numérico o lógico, un arreglo categórico, de caracteres o de cadenas, o un arreglo de celdas de vectores de caracteres que indica la clase de cada observación. cvpartition crea una partición a partir de las observaciones de group.

`stratifyOption` — Indicador de estratificación
`true` | `false`

Indicador de estratificación, especificado como true o false.

Si el primer argumento de entrada a cvpartition es group, cvpartition implementa la estratificación de forma predeterminada ("Stratify",true). En el caso de una partición aleatoria no estratificada, especifique "Stratify",false.
Si el primer argumento de entrada a cvpartition es n, cvpartition siempre crea una partición aleatoria no estratificada ("Stratify",false). En este caso, no puede especificar "Stratify",true.

Tipos de datos: logical

`testSets` — Conjuntos de prueba personalizados
vector de enteros positivos | vector lógico | matriz lógica

Desde R2023b

Conjuntos de prueba personalizados, especificados como un vector de enteros positivos, vector lógico o matriz lógica.

Para la validación por retención, especifique las observaciones del conjunto de prueba mediante un vector lógico. Un valor de 1 (true) indica que la observación correspondiente está en el conjunto de prueba y un valor de 0 (false) indica que la observación correspondiente está en el conjunto de entrenamiento.
Para la validación cruzada de k particiones, especifique las observaciones del conjunto de prueba mediante un vector entero (con valores en el intervalo [1,k]) o una matriz lógica con k columnas.
- Vector de enteros: un valor de j indica que la observación correspondiente está en el conjunto de prueba j.
- Matriz lógica: el valor de la fila i y la columna j indica si la observación i está en el conjunto de prueba j.
Cada uno de los k conjuntos de prueba debe contener, al menos, una observación.
Para la validación cruzada dejando una observación fuera, especifique las observaciones del conjunto de prueba mediante un vector entero (con valores en el intervalo [1,n]) o una matriz lógica de n por n, donde n es el número de observaciones de los datos.
- Vector de enteros: un valor de j indica que la observación correspondiente está en el conjunto de prueba j.
- Matriz lógica: el valor de la fila i y la columna j indica si la observación i está en el conjunto de prueba j.

Ejemplo: "CustomPartition",[true false true false false] indica un esquema de validación por retención, con la observaciones primera y tercera del conjunto de prueba.

Ejemplo: "CustomPartition",[1 2 2 1 3 3 1 2 3 2] un esquema de validación cruzada de 3 particiones, con las observaciones primera, cuarta y séptima del primer conjunto de prueba.

Tipos de datos: single | double | logical