Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Seleccione datos y validación para problema de clasificación

Seleccione datos en el área de trabajo

Sugerencia

En el aprendizaje de clasificación, las tablas son la forma más sencilla de usar los datos, ya que pueden contener datos numéricos y de etiqueta. Utilice la herramienta de importación para incorporar los datos en el espacio de trabajo como una tabla, o utilice las funciones de tabla para crear una a partir de variables de espacio de trabajo.MATLAB®table Ver.Tablas (MATLAB)

Si los predictores son una matriz y la respuesta es un vector, combínelos en una tabla utilizando la función.table

  1. Cargue los datos en el área de trabajo.MATLAB

    Las variables de predictor y respuesta pueden ser vectores numéricos, categóricos, de cadena o lógicos, matrices de celdas de vectores de caracteres o matrices de caracteres. Si la variable de respuesta es un vector de cadena, las predicciones del modelo entrenado son una matriz de vectores de caracteres.

    Por ejemplo, conjuntos de datos, consulte.Datos de ejemplo para la clasificación

  2. En la pestaña, haga clic en.AppsClassification Learner

  3. En el aprendizaje de clasificación, en la pestaña, en la sección, haga clic en.Classification LearnerFileNew Session

  4. En el cuadro de diálogo nueva sesión, seleccione una tabla o matriz de las variables del espacio de trabajo.

    Si selecciona una matriz, elija si desea utilizar filas o columnas para las observaciones haciendo clic en los botones de opción.

  5. Observe los roles que la aplicación selecciona para las variables en función de su tipo de datos. La aplicación intenta seleccionar una variable de respuesta adecuada, y todas las demás variables son predictores. Cambie las selecciones si es necesario. Agregar o quitar predictores mediante las casillas de verificación. Agregue o quite todos los predictores haciendo clic o.Add AllRemove All También puede Agregar o quitar varios predictores seleccionándolos en la tabla y, a continuación, haciendo clic en o, donde está el número de predictores seleccionados.Add NRemove NN Los botones y cambian a y cuando se seleccionan varios predictores.Add AllRemove AllAdd NRemove N

  6. Para aceptar el esquema de validación predeterminado y continuar, haga clic en.Start Session La opción de validación predeterminada es 5 veces la validación cruzada, que protege contra el sobreajuste.

    Sugerencia

    Si tiene un conjunto de datos grande, es posible que desee cambiar a la validación de exclusión. Para obtener más información, consulte.Elija esquema de validación

Para los pasos siguientes, vea.Modelos de clasificación de trenes en la aplicación clasificación aprendiz

Importar datos desde archivo

  1. En la pestaña, en la sección, seleccioneEl alumno de clasificaciónFile New Session > From File.

  2. Seleccione un tipo de archivo en la lista, como hojas de cálculo, archivos de texto o valores separados por comas (), o seleccione para buscar otros tipos de archivo como..csvAll Files.dat

Datos de ejemplo para la clasificación

Para empezar a usar el aprendizaje de clasificación, pruebe los siguientes conjuntos de datos de ejemplo.

NombreTamañoDescripción
Fisher iris

Número de predictores: 4 número de observaciones:
150 número de clases:
3 respuesta: especie

Mediciones de tres especies de iris. Trate de clasificar la especie.

Para obtener un ejemplo paso a paso, consulte.Entrenar árboles de decisión mediante la aplicación de clasificación aprendiz

Cree una tabla a partir del archivo:.csv

fishertable = readtable('fisheriris.csv'); 

Calificación crediticia

Número de predictores: 6 número de observaciones:
3932 número de clases:
7 respuesta:
Clasificación

Ratios financieros e información de sectores industriales para una lista de clientes corporativos. La variable de respuesta consiste en calificaciones de crédito (AAA, AA, A, BBB, BB, B, CCC) asignadas por una agencia de calificación.

Cree una tabla a partir del archivo:CreditRating_Historical.dat

creditrating = readtable('CreditRating_Historical.dat');

Coches

Número de predictores: 7 número de observaciones:
100 número de clases:
7 respuesta:
Origen

Mediciones de automóviles, en 1970, 1976 y 1982. Trate de clasificar el país de origen.

Cree una tabla a partir de las variables del archivo:carsmall.mat

load carsmall cartable = table(Acceleration, Cylinders, Displacement,... Horsepower, Model_Year, MPG, Weight, Origin);

Arritmia

Número de predictores: 279 número de observaciones:
452 número de clases:
16 respuesta:
Clase (Y)

Información del paciente y variables de respuesta que indican la presencia y ausencia de arritmias cardíacas. Clasificar erróneamente a un paciente como "normal" tiene consecuencias más severas que los falsos positivos clasificados como "tiene arritmia".

Cree una tabla a partir del archivo:.mat

load arrhythmia Arrhythmia = array2table(X); Arrhythmia.Class = categorical(Y);

El cáncer de ovario

Número de predictores: 4000 número de observaciones:
216 número de clases:
2 respuesta:
Grupo

Datos de cáncer de ovario generados utilizando la matriz proteica WCX2. Incluye 95 controles y 121 cánceres de ovario.

Cree una tabla a partir del archivo:.mat

load ovariancancer ovariancancer = array2table(obs); ovariancancer.Group = categorical(grp);

Ionosfera

Número de predictores: 34 número de observaciones:
351 número de clases:
2 respuesta:
Grupo (Y)

Señales de una matriz escalonada de 16 antenas de alta frecuencia. Las señales de radar buenas ("g") devueltas son aquellas que muestran evidencia de algún tipo de estructura en la ionosfera. Las señales malas ("b") son las que atraviesan la ionosfera.

Cree una tabla a partir del archivo:.mat

load ionosphere ionosphere = array2table(X); ionosphere.Group = Y;

Elija esquema de validación

Elija un método de validación para examinar la precisión predictiva de los modelos ajustados. La validación estima el rendimiento del modelo en nuevos datos en comparación con los datos de entrenamiento y le ayuda a elegir el mejor modelo. La validación protege contra el sobreajuste. Elija un esquema de validación antes de entrenar cualquier modelo, de modo que pueda comparar todos los modelos de la sesión utilizando el mismo esquema de validación.

Sugerencia

Pruebe el esquema de validación predeterminado y haga clic para continuar.Start Session La opción predeterminada es la validación cruzada de 5 veces, que protege contra el sobreajuste.

Si tiene un conjunto de datos grande y los modelos de formación tardan demasiado en usar la validación cruzada, vuelva a importar los datos y pruebe la validación de exclusión más rápida en su lugar.

  • :Cross-Validation Seleccione un número de pliegues (o divisiones) para particionar el conjunto de datos utilizando el control deslizante.

    Si eliges pliegues, entonces la aplicación:k

    1. Divide los datos en conjuntos o pliegues desconjuntosk

    2. Para cada pliegue:

      1. Entrena un modelo utilizando las observaciones fuera de pliegue

      2. Evalúa el rendimiento del modelo utilizando datos en pliegue

    3. Calcula el error de prueba promedio sobre todos los pliegues

    Este método proporciona una buena estimación de la precisión predictiva del modelo final entrenado con todos los datos. Requiere múltiples ajustes, pero hace un uso eficiente de todos los datos, por lo que se recomienda para pequeños conjuntos de datos.

  • :Holdout Validation Seleccione un porcentaje de los datos que se usarán como conjunto de pruebas mediante el control deslizante. La aplicación entrena un modelo en el conjunto de entrenamiento y evalúa su rendimiento con el conjunto de pruebas. El modelo utilizado para la validación se basa en solo una parte de los datos, por lo que se recomienda solo para conjuntos de datos grandes.Holdout Validation El modelo final se entrena con el conjunto de datos completo.

  • :No Validation No hay protección contra el sobreajuste. La aplicación usa todos los datos para entrenar y calcula la tasa de error en los mismos datos. Sin ningún dato de prueba, se obtiene una estimación poco realista del rendimiento del modelo en nuevos datos. Es decir, es probable que la precisión de la muestra de entrenamiento sea poco realista, y es probable que la precisión predictiva sea menor.

    Para ayudarle a evitar el sobreajuste a los datos de entrenamiento, elija un esquema de validación en su lugar.

Nota

El esquema de validación solo afecta a la forma en que el alumno de clasificación calcula las métricas de validación. El modelo final siempre se entrena utilizando el conjunto de datos completo.

Todos los modelos de clasificación que se entrenan después de seleccionar datos utilizan el mismo esquema de validación que seleccione en este cuadro de diálogo. Puede comparar todos los modelos de su sesión utilizando el mismo esquema de validación.

Para cambiar la selección de validación y entrenar nuevos modelos, puede seleccionar datos de nuevo, pero perderá cualquier modelo entrenado. La aplicación le advierte de que la importación de datos inicia una nueva sesión. Guarde los modelos entrenados que desee conservar en el área de trabajo y, a continuación, importe los datos.

Para los próximos pasos modelos de entrenamiento, ver.Modelos de clasificación de trenes en la aplicación clasificación aprendiz

Temas relacionados