Statistics and Machine Learning Toolbox
Analice y modele datos con estadística y machine learning
Statistics and Machine Learning Toolbox™ proporciona funciones y apps para describir, analizar y modelar datos. Puede utilizar estadística descriptiva, visualizaciones y agrupación para el análisis exploratorio de datos, ajustar distribuciones de probabilidad a datos, generar números aleatorios para simulaciones Montecarlo y realizar comprobaciones de hipótesis. Los algoritmos de regresión y clasificación permiten extraer inferencias de los datos y crear modelos predictivos de forma interactiva (utilizando las apps Classification Learner y Regression Learner) o de forma programática (utilizando AutoML).
Para el análisis de datos multidimensionales y la extracción de características, la toolbox proporciona métodos de análisis de componentes principales (PCA), regularización, reducción de dimensionalidad y selección de características que permiten identificar variables con la máxima capacidad predictiva.
Esta toolbox proporciona algoritmos de machine learning supervisado, semisupervisado y no supervisado, incluidos máquinas de vector soporte (SVM), árboles de decisión boosted, K-means y otros métodos de agrupación. Puede aplicar técnicas de interpretabilidad tales como gráficas de dependencia parcial y LIME, así como generar automáticamente código C/C++ para el despliegue embebido. Muchos algoritmos de esta toolbox se pueden emplear con conjuntos de datos que son demasiado grandes para almacenarlos en la memoria.
Comience:
Visualizaciones
Explore los datos de manera visual mediante gráficas de probabilidad, gráficas de cajas, histogramas, gráficas cuantil-cuantil y gráficas avanzadas para análisis multivariante, tales como dendrogramas, gráficas de dispersión biespaciales y gráficas de Andrews.
Estadística descriptiva
Comprenda y describa rápidamente conjuntos de datos potencialmente de gran tamaño mediante unos pocos números de gran relevancia.
Análisis de clusters
Descubra patrones agrupando los datos mediante K-means, K-medoids, DBSCAN, agrupación jerárquica y espectral, modelos de mezclas gaussianas y modelos ocultos de Markov.
Extracción de características
Extraiga características de los datos mediante técnicas de aprendizaje no supervisado tales como el filtrado disperso y la reconstrucción con el análisis de componentes independientes (ICA). También puede utilizar técnicas especializadas para extraer características de datos de imágenes, señales, texto y numéricos.
Selección de características
Identifique automáticamente el subconjunto de características que proporciona la máxima capacidad predictiva al modelar los datos. Entre los métodos de selección de características se incluyen la regresión por pasos, la selección de características secuencial, la regularización y los métodos de ensemble.
Transformación de características y reducción de la dimensionalidad
Reduzca la dimensionalidad transformando las características existentes (no categóricas) en nuevas variables de predicción cuando se pueda prescindir de las características menos descriptivas. Entre los métodos de transformación de características se incluyen el análisis PCA, el análisis de factores y la factorización de matrices no negativas.
Entrene, valide y ajuste modelos predictivos
Compare diversos algoritmos de machine learning, seleccione características, ajuste hiperparámetros y evalúe el rendimiento de algoritmos de clasificación y regresión de uso habitual. Cree y optimice automáticamente modelos predictivos con apps interactivas, y mejore los modelos incrementalmente con datos de streaming.
Interpretabilidad de modelos
Mejore la interpretabilidad de los modelos de machine learning de caja negra aplicando métodos de interpretabilidad establecidos, tales como gráficas de dependencia parcial, expectativas condicionales individuales (ICE) y explicaciones independientes del modelo interpretables localmente (LIME).
Machine learning automatizado (AutoML)
Mejore el rendimiento de los modelos ajustando los hiperparámetros, seleccionando las características y los modelos, y solucionando los desequilibrios de los conjuntos de datos con matrices de coste de forma automática.
Regresión lineal y no lineal
Modele el comportamiento de sistemas complejos con varios predictores o variables de respuesta eligiendo entre muchos algoritmos de regresión lineal y no lineal. Ajuste modelos multinivel o jerárquicos, lineales, no lineales y de efectos mixtos lineales generalizados con efectos aleatorios anidados y/o cruzados para realizar análisis longitudinal o de panel y modelado de medidas repetidas y del crecimiento.
Regresión no paramétrica
Genere un ajuste preciso sin especificar un modelo que describa la relación entre los predictores y la respuesta usando SVM, bosques aleatorios, procesos gaussianos y kernels gaussianos.
Análisis de la varianza (ANOVA)
Asigne una varianza de muestra a distintos orígenes y determine si la variación surge dentro o entre distintos grupos de población. Utilice ANOVA de una vía, de dos vías, multivía, multivariante y no paramétrico, así como análisis de la covarianza (ANOCOVA) y análisis de medidas repetidas de la varianza (RANOVA).
Distribuciones de probabilidad
Ajuste distribuciones continuas y discretas, utilice gráficas estadísticas para evaluar la bondad del ajuste, y calcule funciones de densidad de probabilidad y funciones de distribución acumulada para más de 40 distribuciones diferentes.
Generación de números aleatorios
Genere cadenas de números pseudoaleatorios y cuasialeatorios a partir de una distribución de probabilidad ajustada o construida.
Comprobación de hipótesis
Realice pruebas T, pruebas de distribuciones (chi cuadrado, Jarque-Bera, Lilliefors y Kolmogorov-Smirnov) y pruebas no paramétricas para muestras únicas, apareadas o independientes. Pruebe la autocorrección y la aleatoriedad, y compare distribuciones (Kolmogorov-Smirnov para dos muestras).
Diseño de experimentos (DOE)
Defina, analice y visualice un diseño de experimentos (DOE) personalizado. Cree y pruebe planes prácticos para enseñar a manipular las entradas de datos y a la vez a generar información sobre sus efectos en los datos de salida.
Control de procesos estadísticos (SPC)
Supervise y mejore los productos o procesos evaluando la variabilidad de los procesos. Cree gráficas de control, estime la capacidad de los procesos y realice estudios sobre la repetibilidad y la reproducibilidad mediante equipo de medición.
Análisis de fiabilidad y supervivencia
Visualice y analice los datos de tiempo hasta el fallo con y sin censura realizando una regresión de riesgos proporcionales de Cox, y ajuste las distribuciones. Calcule funciones de riesgos empíricos, de supervivientes y de distribución acumulada, así como estimaciones de densidad de kernel.
Análisis de big data con arrays altos
Utilice arrays altos y tablas con muchos algoritmos de clasificación, regresión y agrupación para entrenar modelos con conjuntos de datos que no caben en la memoria sin modificar su código.
Computación paralela
Acelere la computación estadística y el entrenamiento de modelos con la paralelización.
Computación en la nube y distribuida
Utilice instancias en la nube para acelerar las computaciones estadísticas y de machine learning. Ejecute la totalidad del flujo de trabajo de machine learning en MATLAB Online™.
Generación de código
Genere código C o C++ portátil y legible para la inferencia de algoritmos de clasificación y regresión, estadística descriptiva y distribuciones de probabilidad usando MATLAB Coder™. Genere código C/C++ de predicción con precisión reducida utilizando Fixed Point Designer™ y actualice los parámetros de los modelos desplegados sin necesidad de regenerar el código de predicción.
Integración con Simulink
Integre modelos de machine learning con modelos de Simulink para el despliegue en hardware embebido o para la simulación, verificación y validación del sistema.
Integración con aplicaciones y sistemas empresariales
Despliegue modelos estadísticos y de machine learning como aplicaciones autónomas MapReduce o Spark™, como apps web o como complementos de Microsoft® Excel® usando MATLAB Compiler™. Cree librerías C/C++ compartidas, ensamblados Microsoft® .NET, clases de Java® y paquetes de Python® mediante MATLAB Compiler SDK™.
AutoML
Seleccione automáticamente el mejor modelo y los hiperparámetros asociados para la regresión (fitcauto).
Interpretabilidad
Obtenga explicaciones independientes del modelo interpretables localmente (LIME).
Bloques de predicción de SVM
Simule y genere código para modelos de SVM en Simulink.
Aprendizaje incremental
Entrene modelos de regresión lineal y clasificación binaria de forma incremental.
Aprendizaje semisupervisado
Extrapole etiquetas de clase parciales a todo el conjunto de datos utilizando gráficas y modelos autoentrenados (fitsemigraph, fitsemiself).
Generación de código
Genere código C/C++ de precisión simple para predicciones.
Rendimiento
Acelere el entrenamiento de modelos de SVM.
Consulte las notas de la versión para obtener detalles sobre estas funcionalidades y las funciones correspondientes.
Curso introductorio Machine Learning Onramp
Introducción interactiva a los métodos prácticos de machine learning para problemas de clasificación.