Main Content

La traducción de esta página aún no se ha actualizado a la versión más reciente. Haga clic aquí para ver la última versión en inglés.

Desarrollo y evaluación de modelos

Selección de características, ingeniería de características, selección de modelos, optimización de hiperparámetros, validación cruzada, evaluación de la capacidad predictiva y pruebas de comparación de la precisión de las clasificaciones

Al desarrollar un modelo de clasificación predictiva de alta calidad, es importante seleccionar las características (o predictores) correctos y ajustar los hiperparámetros (parámetros del modelo que no se han estimado).

La selección de características y el ajuste de los hiperparámetros pueden arrojar varios modelos. Puede comparar las tasas de errores de clasificación de k particiones, las curvas ROC, por sus siglas en inglés) o las matrices de confusión entre los modelos. También puede realizar una prueba estadística para detectar si un modelo de clasificación supera significativamente a otro.

Para extraer nuevas características antes de entrenar un modelo de clasificación, utilice gencfeatures.

Para desarrollar y evaluar modelos de clasificación de forma interactiva, utilice la app Classification Learner.

Para seleccionar automáticamente un modelo con hiperparámetros ajustados, utilice fitcauto. Esta función prueba una selección de tipos de modelos de clasificación con diferentes valores en los hiperparámetros y devuelve un modelo final que se prevé que funcione bien con los nuevos datos. Utilice fitcauto cuando no sepa con seguridad los tipos de clasificadores que mejor se adaptan a sus datos.

Para ajustar los hiperparámetros de un modelo concreto, seleccione los valores de los hiperparámetros y realice una validación cruzada del modelo con dichos valores. Por ejemplo, para ajustar un modelo SVM, elija un conjunto de restricciones de cajas y escalas de kernel y, después, realice una validación cruzada de un modelo para cada par de valores. Determinadas funciones de clasificación de Statistics and Machine Learning Toolbox™ ofrecen un ajuste automático de los hiperparámetros mediante optimización bayesiana, búsqueda por cuadrículas o búsqueda aleatoria. bayesopt, la función principal para implementar la optimización bayesiana, es también lo suficientemente flexible para muchas otras aplicaciones. Consulte Bayesian Optimization Workflow.

Para interpretar un modelo de clasificación, puede utilizar lime, shapley y plotPartialDependence.

Apps

Classification LearnerEntrenar modelos para clasificar datos usando machine learning supervisado

Funciones

expandir todo

fscchi2Univariate feature ranking for classification using chi-square tests (desde R2020a)
fscmrmrRank features for classification using minimum redundancy maximum relevance (MRMR) algorithm
fscncaFeature selection using neighborhood component analysis for classification
oobPermutedPredictorImportanceOut-of-bag predictor importance estimates for random forest of classification trees by permutation
permutationImportancePredictor importance by permutation (desde R2024a)
predictorImportanceEstimates of predictor importance for classification tree
predictorImportanceEstimates of predictor importance for classification ensemble of decision trees
relieffRank importance of predictors using ReliefF or RReliefF algorithm
selectFeaturesSelect important features for NCA classification or regression (desde R2023b)
sequentialfsSequential feature selection using custom criterion
gencfeaturesPerform automated feature engineering for classification (desde R2021a)
describeDescribe generated features (desde R2021a)
transformTransform new data using generated features (desde R2021a)
fitcautoAutomatically select classification model with optimized hyperparameters (desde R2020a)
bayesoptSelect optimal machine learning hyperparameters using Bayesian optimization
hyperparametersVariable descriptions for optimizing a fit function
optimizableVariableDescripción de variables para bayesopt u otros optimizadores
crossvalEstimate loss using cross-validation
cvpartitionPartición de datos para validación cruzada
repartitionRepartition data for cross-validation
testÍndices de prueba para la validación cruzada
trainingÍndices de entrenamiento para la validación cruzada

Explicaciones independientes del modelo local interpretable (LIME, por sus siglas en inglés)

limeLocal interpretable model-agnostic explanations (LIME) (desde R2020b)
fitFit simple model of local interpretable model-agnostic explanations (LIME) (desde R2020b)
plotPlot results of local interpretable model-agnostic explanations (LIME) (desde R2020b)

Valores de Shapley

shapleyShapley values (desde R2021a)
fitCompute Shapley values for query points (desde R2021a)
plotPlot Shapley values using bar graphs (desde R2021a)
boxchartVisualize Shapley values using box charts (box plots) (desde R2024a)
swarmchartVisualize Shapley values using swarm scatter charts (desde R2024a)

Dependencia parcial

partialDependenceCompute partial dependence (desde R2020b)
plotPartialDependenceCreate partial dependence plot (PDP) and individual conditional expectation (ICE) plots

Matriz de confusión

confusionchartCreate confusion matrix chart for classification problem
confusionmatCompute confusion matrix for classification problem

Curva de característica operativa del receptor (ROC)

rocmetricsReceiver operating characteristic (ROC) curve and performance metrics for binary and multiclass classifiers (desde R2022a)
addMetricsCompute additional classification performance metrics (desde R2022a)
averageCalcular las métricas de rendimiento para una curva de característica operativa del receptor (ROC) media en un problema multiclase (desde R2022a)
plotPlot receiver operating characteristic (ROC) curves and other performance curves (desde R2022a)
perfcurveReceiver operating characteristic (ROC) curve or other performance curve for classifier output
testcholdoutCompare predictive accuracies of two classification models
testckfoldCompare accuracies of two classification models by repeated cross-validation

Objetos

expandir todo

FeatureSelectionNCAClassificationFeature selection for classification using neighborhood component analysis (NCA)
FeatureTransformerGenerated feature transformations (desde R2021a)
BayesianOptimizationBayesian optimization results

Propiedades

ConfusionMatrixChart PropertiesConfusion matrix chart appearance and behavior
ROCCurve PropertiesReceiver operating characteristic (ROC) curve appearance and behavior (desde R2022a)

Temas

App Classification Learner

Selección de características

Ingeniería de características

Selección de modelos automatizados

Optimización de hiperparámetros

Interpretación de modelos

Validación cruzada

Evaluación de la capacidad de la clasificación