Statistics and Machine Learning Toolbox

Analice y modele datos con estadística y machine learning

 

Statistics and Machine Learning Toolbox™ proporciona funciones y apps para describir, analizar y modelar datos. Puede utilizar estadística descriptiva, visualizaciones y agrupación para el análisis exploratorio de datos, ajustar distribuciones de probabilidad a datos, generar números aleatorios para simulaciones Montecarlo y realizar comprobaciones de hipótesis. Los algoritmos de regresión y clasificación permiten extraer inferencias de los datos y crear modelos predictivos de forma interactiva (utilizando las apps Classification Learner y Regression Learner) o de forma programática (utilizando AutoML).

Para el análisis de datos multidimensionales y la extracción de características, la toolbox proporciona métodos de análisis de componentes principales (PCA), regularización, reducción de dimensionalidad y selección de características que permiten identificar variables con la máxima capacidad predictiva.

Esta toolbox proporciona algoritmos de machine learning supervisado, semisupervisado y no supervisado, incluidos máquinas de vector soporte (SVM), árboles de decisión boosted, K-means y otros métodos de agrupación. Puede aplicar técnicas de interpretabilidad tales como gráficas de dependencia parcial y LIME, así como generar automáticamente código C/C++ para el despliegue embebido. Muchos algoritmos de esta toolbox se pueden emplear con conjuntos de datos que son demasiado grandes para almacenarlos en la memoria.

Comience:

Análisis exploratorio de datos

Explore los datos mediante la representación estadística con gráficas interactivas y estadística descriptiva. Identifique patrones y características con la agrupación.

Visualizaciones

Explore los datos de manera visual mediante gráficas de probabilidad, gráficas de cajas, histogramas, gráficas cuantil-cuantil y gráficas avanzadas para análisis multivariante, tales como dendrogramas, gráficas de dispersión biespaciales y gráficas de Andrews.

Uso de una gráfica de dispersión multidimensional para explorar las relaciones entre variables.

Estadística descriptiva

Comprenda y describa rápidamente conjuntos de datos potencialmente de gran tamaño mediante unos pocos números de gran relevancia.

Exploración de datos con medias agrupadas y varianzas.

Aplicación de DBSCAN a dos grupos concéntricos.

Extracción de características y reducción de la dimensionalidad

Transforme datos sin procesar en características más adecuadas para machine learning. Explore y cree nuevas características de manera iterativa, y seleccione aquellas que optimicen el rendimiento.

Extracción de características

Extraiga características de los datos mediante técnicas de aprendizaje no supervisado tales como el filtrado disperso y la reconstrucción con el análisis de componentes independientes (ICA). También puede utilizar técnicas especializadas para extraer características de datos de imágenes, señales, texto y numéricos.

Extracción de características de señales proporcionadas por dispositivos móviles. 

Selección de características

Identifique automáticamente el subconjunto de características que proporciona la máxima capacidad predictiva al modelar los datos. Entre los métodos de selección de características se incluyen la regresión por pasos, la selección de características secuencial, la regularización y los métodos de ensemble.

Análisis NCA que ayuda a seleccionar las características que conservan la mayor parte de la precisión del modelo.

Transformación de características y reducción de la dimensionalidad

Reduzca la dimensionalidad transformando las características existentes (no categóricas) en nuevas variables de predicción cuando se pueda prescindir de las características menos descriptivas. Entre los métodos de transformación de características se incluyen el análisis PCA, el análisis de factores y la factorización de matrices no negativas.

PCA puede proyectar vectores de alta dimensionalidad en un sistema de coordenadas ortogonales de menor dimensionalidad conservando la mayor parte de la información.

Machine learning

Cree modelos predictivos de clasificación y regresión usando apps interactivas o machine learning automatizado (AutoML). Seleccione las características, identifique el mejor modelo y ajuste los hiperparámetros automáticamente.

Entrene, valide y ajuste modelos predictivos

Compare diversos algoritmos de machine learning, seleccione características, ajuste hiperparámetros y evalúe el rendimiento de algoritmos de clasificación y regresión de uso habitual. Cree y optimice automáticamente modelos predictivos con apps interactivas, y mejore los modelos incrementalmente con datos de streaming.

Interpretabilidad de modelos

Mejore la interpretabilidad de los modelos de machine learning de caja negra aplicando métodos de interpretabilidad establecidos, tales como gráficas de dependencia parcial, expectativas condicionales individuales (ICE) y explicaciones independientes del modelo interpretables localmente (LIME).

LIME crea aproximaciones simples de modelos complejos en un área local.

Machine learning automatizado (AutoML)

Mejore el rendimiento de los modelos ajustando los hiperparámetros, seleccionando las características y los modelos, y solucionando los desequilibrios de los conjuntos de datos con matrices de coste de forma automática.

Optimización eficiente de hiperparámetros mediante optimización bayesiana.

Regresión y ANOVA

Modele una variable de respuesta continua como una función de uno o más predictores usando regresión lineal y no lineal, modelos de efectos mixtos, modelos lineales generalizados y regresión no paramétrica. Asigne la varianza a diferentes orígenes mediante ANOVA.

Regresión lineal y no lineal

Modele el comportamiento de sistemas complejos con varios predictores o variables de respuesta eligiendo entre muchos algoritmos de regresión lineal y no lineal. Ajuste modelos multinivel o jerárquicos, lineales, no lineales y de efectos mixtos lineales generalizados con efectos aleatorios anidados y/o cruzados para realizar análisis longitudinal o de panel y modelado de medidas repetidas y del crecimiento.

Ajuste de los modelos de regresión de manera interactiva con la app Regression Learner.

Regresión no paramétrica

Genere un ajuste preciso sin especificar un modelo que describa la relación entre los predictores y la respuesta usando SVM, bosques aleatorios, procesos gaussianos y kernels gaussianos.

Identificación de valores atípicos mediante la regresión cuantílica.

Análisis de la varianza (ANOVA)

Asigne una varianza de muestra a distintos orígenes y determine si la variación surge dentro o entre distintos grupos de población. Utilice ANOVA de una vía, de dos vías, multivía, multivariante y no paramétrico, así como análisis de la covarianza (ANOCOVA) y análisis de medidas repetidas de la varianza (RANOVA).

Prueba de grupos mediante ANOVA multivía.

Distribuciones de probabilidad y comprobación de hipótesis

Ajuste las distribuciones a los datos. Analice si las diferencias entre muestras son significativas o congruentes con la variación aleatoria de los datos. Genere números aleatorios a partir de diversas distribuciones.

Distribuciones de probabilidad

Ajuste distribuciones continuas y discretas, utilice gráficas estadísticas para evaluar la bondad del ajuste, y calcule funciones de densidad de probabilidad y funciones de distribución acumulada para más de 40 distribuciones diferentes.

Ajuste de distribuciones de manera interactiva mediante la app Distribution Fitter.

Generación de números aleatorios

Genere cadenas de números pseudoaleatorios y cuasialeatorios a partir de una distribución de probabilidad ajustada o construida.

Generación de números aleatorios de manera interactiva.

Comprobación de hipótesis

Realice pruebas T, pruebas de distribuciones (chi cuadrado, Jarque-Bera, Lilliefors y Kolmogorov-Smirnov) y pruebas no paramétricas para muestras únicas, apareadas o independientes. Pruebe la autocorrección y la aleatoriedad, y compare distribuciones (Kolmogorov-Smirnov para dos muestras).

Región de rechazo en una prueba T unilateral.

Estadística industrial

Analice estadísticamente los efectos y las tendencias de los datos. Aplique técnicas estadísticas industriales tales como un diseño de experimentos personalizado y el control de procesos estadísticos.

Diseño de experimentos (DOE)

Defina, analice y visualice un diseño de experimentos (DOE) personalizado. Cree y pruebe planes prácticos para enseñar a manipular las entradas de datos y a la vez a generar información sobre sus efectos en los datos de salida.

Aplicación de un diseño de Box-Behnken para generar superficies de respuesta de mayor orden.

Control de procesos estadísticos (SPC)

Supervise y mejore los productos o procesos evaluando la variabilidad de los procesos. Cree gráficas de control, estime la capacidad de los procesos y realice estudios sobre la repetibilidad y la reproducibilidad mediante equipo de medición.

Supervisión de procesos de fabricación mediante gráficas de control.

Análisis de fiabilidad y supervivencia

Visualice y analice los datos de tiempo hasta el fallo con y sin censura realizando una regresión de riesgos proporcionales de Cox, y ajuste las distribuciones. Calcule funciones de riesgos empíricos, de supervivientes y de distribución acumulada, así como estimaciones de densidad de kernel.

Datos de fallos como ejemplo de valores “censurados”.

Big data, paralelización y computación en la nube

Aplique técnicas estadísticas y de machine learning a datos fuera de memoria. Acelere la computación estadística y el entrenamiento de modelos de machine learning con paralelización en clusters e instancias en la nube.

Análisis de big data con arrays altos

Utilice arrays altos y tablas con muchos algoritmos de clasificación, regresión y agrupación para entrenar modelos con conjuntos de datos que no caben en la memoria sin modificar su código.

Aceleración de las computaciones con Parallel Computing Toolbox o MATLAB Parallel Server.

Computación en la nube y distribuida

Utilice instancias en la nube para acelerar las computaciones estadísticas y de machine learning. Ejecute la totalidad del flujo de trabajo de machine learning en MATLAB Online™.

Realice computaciones en instancias en la nube de Amazon o Azure.

Despliegue, generación de código e integración con Simulink

Despliegue estadísticas y machine learning en sistemas embebidos, acelere las computaciones de alta carga usando código C y realice la integración con sistemas empresariales y modelos de Simulink.

Generación de código

Genere código C o C++ portátil y legible para la inferencia de algoritmos de clasificación y regresión, estadística descriptiva y distribuciones de probabilidad usando MATLAB Coder™. Genere código C/C++ de predicción con precisión reducida utilizando Fixed Point Designer™ y actualice los parámetros de los modelos desplegados sin necesidad de regenerar el código de predicción.

Dos opciones de despliegue: generación de código C o compilación de código de MATLAB.

Integración con Simulink

Integre modelos de machine learning con modelos de Simulink para el despliegue en hardware embebido o para la simulación, verificación y validación del sistema.

Integración con aplicaciones y sistemas empresariales

Despliegue modelos estadísticos y de machine learning como aplicaciones autónomas MapReduce o Spark™, como apps web o como complementos de Microsoft® Excel® usando MATLAB Compiler™. Cree librerías C/C++ compartidas, ensamblados Microsoft® .NET, clases de Java® y paquetes de Python® mediante MATLAB Compiler SDK™.

Uso de MATLAB Compiler para integrar un modelo de clasificación de la calidad del aire.

Nuevas funcionalidades

AutoML

Seleccione automáticamente el mejor modelo y los hiperparámetros asociados para la regresión (fitcauto).

Interpretabilidad

Obtenga explicaciones independientes del modelo interpretables localmente (LIME).

Bloques de predicción de SVM

Simule y genere código para modelos de SVM en Simulink.

Aprendizaje incremental

Entrene modelos de regresión lineal y clasificación binaria de forma incremental.

Aprendizaje semisupervisado

Extrapole etiquetas de clase parciales a todo el conjunto de datos utilizando gráficas y modelos autoentrenados (fitsemigraph, fitsemiself).

Generación de código

Genere código C/C++ de precisión simple para predicciones.

Rendimiento

Acelere el entrenamiento de modelos de SVM.

Consulte las notas de la versión para obtener detalles sobre estas funcionalidades y las funciones correspondientes.

Curso introductorio Machine Learning Onramp

Introducción interactiva a los métodos prácticos de machine learning para problemas de clasificación.