Introducción a aprendizaje supervisado
El aprendizaje supervisado es el tipo de algoritmo de Machine Learning más frecuente. Utiliza un conjunto de datos conocidos (denominado conjunto de datos de entrenamiento) para entrenar un algoritmo con un conjunto de datos de entrada conocidos (denominados características) y respuestas conocidas para realizar predicciones. El conjunto de datos de entrenamiento incluye datos de entrada etiquetados que se emparejan con los valores de salida o de respuesta deseados. A partir de él, el algoritmo de aprendizaje supervisado intenta crear un modelo estableciendo relaciones entre las características y los datos de salida para realizar predicciones acerca de los valores de respuesta para un nuevo conjunto de datos.
Antes de aplicar el aprendizaje supervisado, el aprendizaje no supervisado se suele utilizar primero para encontrar patrones en los datos de entrada que indiquen características potenciales; luego, la ingeniería de características las transforma para que resulten más adecuadas para el aprendizaje supervisado. Además de identificar las características, también se debe identificar la categoría o la respuesta correctas para todas las observaciones del conjunto de datos de entrenamiento, que es un paso muy laborioso. Con el aprendizaje semisupervisado, es posible entrenar modelos con tan solo algunos datos etiquetados, lo que ayuda a reducir el trabajo de etiquetado.
Una vez entrenado el algoritmo, se suele utilizar un conjunto de datos de prueba, que no se haya utilizado en el entrenamiento, para predecir el rendimiento y validar el algoritmo. Para obtener resultados de rendimiento precisos, es fundamental que el conjunto de datos de entrenamiento y el conjunto de datos de prueba sean correctos; es decir, que tanto los datos del modelo como los del entorno de producción se hayan validado correctamente.
Preguntas y respuestas sobre validación de modelos
Puede entrenar, validar y ajustar modelos de aprendizaje supervisado predictivo en MATLAB® con Deep Learning Toolbox™ y Statistics and Machine Learning Toolbox™.
Categorías de algoritmos de aprendizaje supervisado
Clasificación: se utiliza para valores de respuesta categóricos, en los que los datos se pueden dividir en clases específicas. Un modelo de clasificación binario tiene dos clases y un modelo de clasificación multiclase tiene más. Puede entrenar modelos de clasificación con la app Classification Learner de MATLAB.
Entre los algoritmos de clasificación frecuentes se incluyen:
- Regresión logística
- Support vector machine (SVM)
- Redes neuronales
- Clasificador Naïve Bayes
- Árbol de decisión
- Análisis discriminante
- K vecinos más cercanos (kNN)
- Clasificación de ensembles
Regresión: se utiliza para valores numéricos de respuesta continua. Puede entrenar modelos de regresión con la app Regression Learner de MATLAB.
Entre los algoritmos de regresión frecuentes se incluyen:
- Regresión lineal
- Regresión no lineal
- Modelo lineal generalizado
- Árbol de decisión
- Redes neuronales
- Regresión con procesos gaussianos
- Regresión con support vector machines
- Regresión con ensembles
Aplicaciones de aprendizaje supervisado
El aprendizaje supervisado se emplea: en aplicaciones financieras, para puntuación crediticia, negociación algorítmica y clasificación de bonos; en aplicaciones de imagen y vídeo, para clasificar y rastrear objetos; en aplicaciones industriales, para detectar valores atípicos; en mantenimiento predictivo, para estimar la vida útil de equipos industriales; en aplicaciones biológicas, para detectar tumores y descubrir fármacos; y en aplicaciones de energía eléctrica, para y tarifas correspondientes.
Ejemplos y procedimientos
Video
Referencias de software
También puede consultar estos temas: Statistics and Machine Learning Toolbox, Deep Learning Toolbox, Machine Learning, aprendizaje no supervisado, AdaBoost, regresión lineal, regresión no lineal, ajuste de datos, análisis de datos, modelado matemático, modelado predictivo, inteligencia artificial, AutoML, regularización, biomedical signal processing