Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Seleccione datos y validación para problema de regresión

Seleccione datos del espacio de trabajo

Sugerencia

En el aprendizaje de regresión, las tablas son la forma más sencilla de trabajar con los datos, ya que pueden contener datos numéricos y de etiqueta. Utilice la herramienta de importación para incorporar los datos en el espacio de trabajo como una tabla, o utilice las funciones de tabla para crear una a partir de variables de espacio de trabajo.MATLAB®table Ver.Tablas (MATLAB)

Si los predictores son una matriz y la respuesta es un vector, combínelos en una tabla utilizando la función.table

  1. Cargue los datos en el área de trabajo.MATLAB

    Las variables predictoras pueden ser vectores numéricos, categóricos, de cadena o lógicos, matrices de celdas de vectores de caracteres o matrices de caracteres. La variable de respuesta debe ser un vector de punto flotante (precisión simple o doble).

    Por ejemplo, conjuntos de datos, consulte.Datos de ejemplo para regresión

  2. En la pestaña, haga clic para abrir la aplicación.AppsRegression Learner

  3. En la pestaña, en la sección, haga clic en.El aprendiz de regresiónFileNew Session

  4. En el cuadro de diálogo nueva sesión, seleccione una tabla o matriz de las variables del espacio de trabajo.

    Si selecciona una matriz, elija si desea utilizar filas o columnas para las observaciones haciendo clic en los botones de opción.

  5. Observe los roles que la aplicación selecciona para las variables en función de su tipo de datos. La aplicación intenta seleccionar una variable de respuesta adecuada, y todas las demás variables son predictores. Cambie las selecciones si es necesario. Agregar o quitar predictores mediante las casillas de verificación. Agregue o quite todos los predictores haciendo clic o.Add AllRemove All También puede Agregar o quitar varios predictores seleccionándolos en la tabla y, a continuación, haciendo clic en o, donde está el número de predictores seleccionados.Add NRemove NN Los botones y cambian a y cuando se seleccionan varios predictores.Add AllRemove AllAdd NRemove N

  6. Haga clic para aceptar el esquema de validación predeterminado y continuar.Start Session La opción de validación predeterminada es 5 veces la validación cruzada, que protege contra el sobreajuste.

    Sugerencia

    Si tiene un conjunto de datos de gran tamaño, es posible que desee cambiar a la validación de exclusión. Para obtener más información, consulte.Elija esquema de validación

Para los pasos siguientes, vea.Entrenar modelos de regresión en la aplicación de regresión Learner

Importar datos desde archivo

  1. En la pestaña, en la sección, seleccioneEl aprendiz de regresiónFile New Session > From File.

  2. Seleccione un tipo de archivo en la lista, como hojas de cálculo, archivos de texto o valores separados por comas (), o seleccione para buscar otros tipos de archivo como..csvAll Files.dat

Datos de ejemplo para regresión

Para empezar a utilizar el aprendizaje de regresión, pruebe estos conjuntos de datos de ejemplo.

NombreTamañoDescripción
CochesNúmero de predictores: 7 número de observaciones:
406 respuesta: (millas por galón)
MPG

Datos sobre diferentes modelos de coches, 1970 – 1982. Predecir el ahorro de combustible (en millas por galón), o una de las otras características.

Para obtener un ejemplo paso a paso, consulte.Entrenar árboles de regresión utilizando la aplicación de regresión Learner

Cree una tabla a partir de las variables del archivo:carbig.mat
load carbig cartable = table(Acceleration, Cylinders, Displacement,... Horsepower, Model_Year, Weight, Origin, MPG);
AbulónNúmero de predictores: 8 número de observaciones:
4177 respuesta:
Rings

Mediciones de abulón (un grupo de caracoles marinos). Predecir la edad de los abulones, que está estrechamente relacionado con el número de anillos en sus conchas.

Descargue los datos del repositorio de aprendizaje automático UCI y guárdelo en la carpeta actual. Lea los datos en una tabla y especifique los nombres de las variables.

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data'; websave('abalone.csv',url); varnames = {'Sex'; 'Length'; 'Diameter'; 'Height'; 'Whole_weight';... 'Shucked_weight'; 'Viscera_weight'; 'Shell_weight'; 'Rings'};  abalonetable = readtable('abalone.csv'); abalonetable.Properties.VariableNames = varnames;
HospitalNúmero de predictores: 5 número de observaciones:
100 respuesta:
BloodPressure_2

Datos de hospital simulados. Predecir la presión sanguínea de los pacientes.

Cree una tabla a partir de la variable en el archivo:hospitalhospital.mat
load hospital.mat hospitaltable = dataset2table(hospital(:,2:end-1));

Elija esquema de validación

Elija un método de validación para examinar la precisión predictiva de los modelos ajustados. La validación estima el rendimiento del modelo en los nuevos datos y le ayuda a elegir el mejor modelo. La validación protege contra el sobreajuste. Un modelo que es demasiado flexible y sufre de sobreajuste tiene una peor precisión de validación. Elija un esquema de validación antes de entrenar cualquier modelo para poder comparar todos los modelos de la sesión con el mismo esquema de validación.

Sugerencia

Pruebe el esquema de validación predeterminado y haga clic para continuar.Start Session La opción predeterminada es la validación cruzada de 5 veces, que protege contra el sobreajuste.

Si tiene un conjunto de datos de gran tamaño y la formación de los modelos tarda demasiado tiempo con la validación cruzada, vuelva a importar los datos y pruebe la validación de exclusión más rápida en su lugar.

  • :Cross-Validation Seleccione el número de pliegues (o divisiones) para particionar el conjunto de datos mediante el control deslizante.

    Si eliges pliegues, entonces la aplicación:k

    1. Divide los datos en conjuntos o pliegues desconjuntosk

    2. Para cada pliegue:

      1. Entrena un modelo utilizando las observaciones fuera de pliegue

      2. Evalúa el rendimiento del modelo utilizando datos en pliegue

    3. Calcula el error de prueba promedio sobre todos los pliegues

    Este método proporciona una buena estimación de la precisión predictiva del modelo final entrenado utilizando el conjunto de datos completo. El método requiere múltiples ajustes, pero hace un uso eficiente de todos los datos, por lo que funciona bien para pequeños conjuntos de datos.

  • :Holdout Validation Seleccione un porcentaje de los datos que se usarán como conjunto de validación mediante el control deslizante. La aplicación entrena un modelo en el conjunto de entrenamiento y evalúa su rendimiento con el conjunto de validación. El modelo utilizado para la validación se basa solo en una parte de los datos, por lo que la validación de exclusión solo es adecuada para conjuntos de datos de gran tamaño. El modelo final se entrena utilizando el conjunto de datos completo.

  • :No Validation No hay protección contra el sobreajuste. La aplicación utiliza todos los datos para entrenar y calcula la tasa de error en los mismos datos. Sin ningún dato de prueba, se obtiene una estimación poco realista del rendimiento del modelo en nuevos datos. Es decir, es probable que la precisión de la muestra de entrenamiento sea poco realista, y es probable que la precisión predictiva sea menor.

    Para ayudarle a evitar el sobreajuste a los datos de entrenamiento, elija un esquema de validación en su lugar.

Nota

El esquema de validación solo afecta a la forma en que regresión Learner calcula las métricas de validación. El modelo final siempre se entrena utilizando el conjunto de datos completo.

Todos los modelos que entrena después de seleccionar datos utilizan el mismo esquema de validación que seleccione en este cuadro de diálogo. Puede comparar todos los modelos de su sesión utilizando el mismo esquema de validación.

Para cambiar la selección de validación y entrenar nuevos modelos, puede seleccionar datos de nuevo, pero perderá cualquier modelo entrenado. La aplicación le advierte de que la importación de datos inicia una nueva sesión. Guarde los modelos entrenados que desee conservar en el área de trabajo y, a continuación, importe los datos.

Para los próximos pasos modelos de entrenamiento, ver.Entrenar modelos de regresión en la aplicación de regresión Learner

Temas relacionados