Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Entrenar árboles de decisión mediante la aplicación de clasificación aprendiz

En este ejemplo se muestra cómo crear y comparar varios árboles de clasificación mediante el aprendizaje de clasificación y exportar modelos entrenados al área de trabajo para realizar predicciones para nuevos datos.

Puede entrenar árboles de clasificación para predecir las respuestas a los datos. Para predecir una respuesta, siga las decisiones en el árbol desde el nodo raíz (comenzando) hasta un nodo hoja. El nodo hoja contiene la respuesta.

árboles son binarios.Statistics and Machine Learning Toolbox™ Cada paso de una predicción implica comprobar el valor de un predictor (variable). Por ejemplo, aquí hay un árbol de clasificación simple:

Este árbol predice clasificaciones basadas en dos predictores y.x1x2 Para predecir, comience en el nodo superior. En cada decisión, compruebe los valores de los predictores para decidir qué rama seguir. Cuando las ramas alcanzan un nodo hoja, los datos se clasifican como tipo o.01

  1. En, cargue el conjunto de datos y cree una tabla de predictores de medida (o entidades) utilizando variables del conjunto de datos que se utilizarán para una clasificación.MATLAB®fisheriris

    fishertable = readtable('fisheriris.csv');
  2. En la pestaña, en el grupo, haga clic en.AppsMachine LearningClassification Learner

  3. En la pestaña, en la sección, haga clic en.El alumno de clasificaciónFileNew Session

  4. En el cuadro de diálogo nueva sesión, seleccione la tabla de la lista de áreas de trabajo.fishertable

    Observe que la aplicación ha seleccionado variables de respuesta y predictores en función de su tipo de datos. El pétalo y la longitud y el ancho del sépalo son predictores, y la especie es la respuesta que desea clasificar. Para este ejemplo, no cambie las selecciones.

  5. Para aceptar el esquema de validación predeterminado y continuar, haga clic en.Start Session La opción de validación predeterminada es la validación cruzada, para protegerse contra el sobreajuste.

    El alumno de clasificación crea un gráfico de dispersión de los datos.

  6. Utilice el gráfico de dispersión para investigar qué variables son útiles para predecir la respuesta. Seleccione diferentes opciones en las listas y debajo para visualizar la distribución de las especies y las mediciones.XYPredictors Observe qué variables separan los colores de las especies con más claridad.

    Observe que la especie (puntos azules) es fácil de separar de las otras dos especies con los cuatro predictores.setosa Las especies están mucho más juntas en todas las mediciones predictoras, y se superponen especialmente cuando se traza la longitud y el ancho del septo. es más fácil de predecir que las otras dos especies.versicolorvirginicasetosa

  7. Para crear un modelo de árbol de clasificación, en la pestaña, en la sección, haga clic en la flecha hacia abajo para expandir la galería y haga clic en.Classification LearnerModel TypeCoarse Tree Luego haga clic.Train

    Sugerencia

    Si tiene la primera vez que haga clic, verá un cuadro de diálogo mientras la aplicación abre un grupo paralelo de trabajadores.Parallel Computing Toolbox™Train Después de que se abra el grupo, puede entrenar varios clasificadores a la vez y continuar trabajando.

    La aplicación crea un árbol de clasificación simple y traza los resultados.

    Observe el modelo en la lista historial.Coarse Tree Compruebe la puntuación de validación del modelo en el cuadro.Accuracy El modelo ha actuado bien.

    Nota

    Con la validación, hay cierta aleatoriedad en los resultados, por lo que los resultados de la puntuación de validación del modelo pueden variar de los mostrados.

  8. Examine el gráfico de dispersión. Una X indica puntos mal clasificados. Los puntos azules (especies) se clasifican correctamente, pero algunas de las otras dos especies están mal clasificadas.setosa Debajo, cambia entre las opciones y.PlotDatosModel Predictions Observe el color de los puntos incorrectos (X). Como alternativa, al trazar las predicciones del modelo, para ver solo los puntos incorrectos, desactive la casilla de verificación.Correct

  9. Entrenar un modelo diferente para comparar. Haga clic y, a continuación, haga clic.Medium TreeTrain

    Al hacer clic, la aplicación muestra un nuevo modelo en la lista historial.Train

  10. Observe el modelo en la lista historial.Medium Tree La puntuación de validación del modelo no es mejor que la puntuación de árbol grueso. La aplicación delinea en una caja la Accuracy puntuación del mejor modelo. Haga clic en cada modelo de la lista historial para ver y comparar los resultados.

  11. Examine el diagrama de dispersión del modelo.Medium Tree El árbol mediano clasifica tantos puntos correctamente como el árbol grueso anterior. Usted quiere evitar el sobreajuste, y el árbol grueso se desempeña bien, así que base todos los modelos adicionales en el árbol grueso.

  12. Seleccione en la lista historial.Coarse Tree Para intentar mejorar el modelo, intente incluir diferentes características en el modelo. Vea si puede mejorar el modelo eliminando características con baja potencia predictiva.

    En la pestaña, en la sección, haga clic en.El alumno de clasificaciónFeaturesFeature Selection

    En el cuadro de diálogo Selección de características, desactive las casillas de verificación y para excluirlas de los predictores.PetalLengthPetalWidth Aparecerá un nuevo modelo de borrador en la lista de historial del modelo con sus nuevas opciones de configuración 2/4, basadas en el árbol grueso.

    Haga clic para entrenar un nuevo modelo de árbol utilizando las nuevas opciones de predictor.Train

  13. Observe el tercer modelo en la lista historial. También es un modelo, entrenado usando sólo 2 de 4 predictores.Coarse Tree La lista historial muestra cuántos predictores se excluyen. Para comprobar qué predictores se incluyen, haga clic en un modelo en la lista historial y observe las casillas de verificación en el cuadro de diálogo Selección de características. El modelo con sólo mediciones sepales tiene una puntuación de precisión mucho menor que el modelo de solo pétalos.

  14. Entrena otro modelo incluyendo solo las mediciones de pétalo. Cambie las selecciones en el cuadro de diálogo Selección de características y haga clic en.Train

    El modelo entrenado utilizando solo las mediciones de pétalo se realiza de forma comparable a los modelos que contienen todos los predictores. Los modelos no predicen mejor utilizando todas las mediciones en comparación con sólo las mediciones de pétalo. Si la recopilación de datos es costosa o difícil, es posible que prefiera un modelo que se realice satisfactoriamente sin algunos predictores.

  15. Repita para entrenar dos modelos más, incluyendo sólo las mediciones de anchura y luego las mediciones de longitud. No hay mucha diferencia en la puntuación entre varios de los modelos.

  16. Elija un mejor modelo entre los de puntuaciones similares examinando el rendimiento en cada clase. Seleccione el árbol grueso que incluye todos los predictores. Para inspeccionar la precisión de las predicciones en cada clase, en la pestaña, en la sección, haga clic en.El alumno de clasificaciónPlotsConfusion Matrix Utilice esta gráfica para comprender cómo se realiza el clasificador seleccionado actualmente en cada clase. Ver la matriz de la clase verdadera y los resultados de la clase pronosticada.

    Busque las áreas en las que el clasificador ha tenido un mal rendimiento examinando las celdas de la diagonal que muestran números altos y son de color rojo. En estos glóbulos rojos, la clase verdadera y la clase pronosticada no coinciden. Los puntos de datos están mal clasificados.

    Nota

    Con la validación, hay cierta aleatoriedad en los resultados, por lo que los resultados de la matriz de confusión pueden variar de los mostrados.

    En esta figura, examine la tercera celda de la fila central. En esta celda, la verdadera clase es, pero el modelo erróneamente clasificó los puntos como.versicolorvirginica Para este modelo, la celda muestra 3 mal clasificados (los resultados pueden variar). Para ver porcentajes en lugar de números de observaciones, seleccione la opción bajo controles..True Positive RatesPlot

    Puede utilizar esta información para ayudarle a elegir el mejor modelo para su objetivo. Si los falsos positivos de esta clase son muy importantes para el problema de clasificación, elija el mejor modelo para predecir esta clase. Si los falsos positivos de esta clase no son muy importantes y los modelos con menos predictores mejoran en otras clases, elija un modelo para desactivar alguna precisión general para excluir algunos predictores y facilitar la recopilación de datos en el futuro.

  17. Compare la matriz de confusión para cada modelo en la lista historial. Active la casilla de diálogo Selección de características para ver qué predictores se incluyen en cada modelo.

  18. Para investigar las entidades que se incluirán o excluirán, utilice el gráfico de dispersión y el trazado de coordenadas paralelas. En la pestaña, en la sección, haga clic en.El alumno de clasificaciónPlotsParallel Coordinates Plot Puede ver que la longitud del pétalo y el ancho del pétalo son las características que separan las clases mejor.

  19. Para obtener más información sobre la configuración del modelo, elija un modelo en la lista historial y vea la configuración avanzada. Las opciones de la galería son puntos de partida preestablecidos y puede cambiar la configuración adicional.Model Type En la pestaña, en la sección, haga clic en.El alumno de clasificaciónModel TypeAdvanced Compare los modelos de árbol simple y mediano en el historial y observe las diferencias en el cuadro de diálogo Opciones de árbol avanzado. La configuración controla la profundidad del árbol.Maximum Number of Splits

    Para intentar mejorar aún más el modelo de árbol grueso, intente cambiar la configuración y, a continuación, entrenar un nuevo modelo haciendo clic.Maximum Number of SplitsTrain

    Vea la configuración del modelo entrenado seleccionado en el panel modelo actual o en el cuadro de diálogo avanzado.

  20. Para exportar el modelo mejor entrenado al espacio de trabajo, en la pestaña, en la sección, haga clic en.El alumno de clasificaciónExportExport Model En el cuadro de diálogo Exportar modelo, haga clic para aceptar el nombre de variable predeterminado.OKtrainedModel

    Busque en la ventana de comandos para ver información sobre los resultados.

  21. Para visualizar el modelo de árbol de decisión, escriba:

    view(trainedModel.ClassificationTree,'Mode','graph')

  22. Puede utilizar el clasificador exportado para realizar predicciones sobre nuevos datos. Por ejemplo, para realizar predicciones para los datos en el área de trabajo, escriba: la salida contiene una predicción de clase para cada punto de datos.fishertable

    yfit = trainedModel.predictFcn(fishertable)
    yfit

  23. Si desea automatizar el entrenamiento del mismo clasificador con nuevos datos o aprender a entrenar clasificadores mediante programación, puede generar código desde la aplicación. Para generar código para el modelo mejor entrenado, en la pestaña, en la sección, haga clic en.Classification LearnerExportGenerate Function

    La aplicación genera código a partir del modelo y muestra el archivo en el editor.MATLAB Para obtener más información, consulte.Genere código para entrenar el modelo con nuevos datosMATLAB

Este ejemplo utiliza los datos de iris 1936 de Fisher. Los datos del iris contienen mediciones de las flores: la longitud del pétalo, el ancho del pétalo, la longitud del sépalo y la anchura del sépalo para especímenes de tres especies. Entrenar un clasificador para predecir la especie basándose en las mediciones predictoras.

Utilice el mismo flujo de trabajo para evaluar y comparar los otros tipos de clasificador que puede entrenar en el aprendizaje de clasificación.

Para probar todos los ajustes preestablecidos del modelo de clasificador disponibles para el conjunto de datos:

  1. Haga clic en la flecha situada en el extremo derecho de la sección para expandir la lista de clasificadores.Model Type

  2. Haga clic y haga clic.AllTrain

Para obtener información sobre otros tipos de clasificadores, consulte.Modelos de clasificación de trenes en la aplicación clasificación aprendiz

Temas relacionados