Statistics and Machine Learning Toolbox

 

Statistics and Machine Learning Toolbox

Analice y modele datos con estadística y machine learning

Más información:

Análisis exploratorio de datos

Explore los datos mediante la representación estadística con gráficas interactivas y estadística descriptiva. Identifique patrones y características con la agrupación.

Visualizaciones

Explore los datos de manera visual mediante gráficas de probabilidad, gráficas de cajas, histogramas, gráficas cuantil-cuantil y gráficas avanzadas para análisis multivariante, tales como dendrogramas, gráficas de dispersión biespaciales y gráficas de Andrews.

Uso de una gráfica de dispersión multidimensional para explorar las relaciones entre variables.

Estadística descriptiva

Comprenda y describa rápidamente conjuntos de datos potencialmente de gran tamaño mediante unos pocos números de gran relevancia.

Exploración de datos con medias agrupadas y varianzas.

Aplicación de DBSCAN a dos grupos concéntricos.

Extracción de características y reducción de la dimensionalidad

Transforme datos sin procesar en características más adecuadas para machine learning. Explore y cree nuevas características de manera iterativa, y seleccione aquellas que optimicen el rendimiento.

Extracción de características

Extraiga características de los datos mediante técnicas de aprendizaje no supervisado tales como el filtrado disperso y la reconstrucción con el análisis de componentes independientes (ICA). También puede utilizar técnicas especializadas para extraer características de datos de imágenes, señales, texto y numéricos.

Extracción de características de señales proporcionadas por dispositivos móviles. 

Selección de características

Identifique automáticamente el subconjunto de características que proporciona la máxima capacidad predictiva al modelar los datos. Entre los métodos de selección de características se incluyen la regresión por pasos, la selección de características secuencial, la regularización y los métodos de ensemble.

Análisis NCA que ayuda a seleccionar las características que conservan la mayor parte de la precisión del modelo.

Transformación de características y reducción de la dimensionalidad

Reduzca la dimensionalidad transformando las características existentes (no categóricas) en nuevas variables de predicción cuando se pueda prescindir de las características menos descriptivas. Entre los métodos de transformación de características se incluyen el análisis PCA, el análisis de factores y la factorización de matrices no negativas.

PCA puede proyectar vectores de alta dimensionalidad en un sistema de coordenadas ortogonales de menor dimensionalidad conservando la mayor parte de la información.

Machine learning

Cree modelos predictivos de clasificación y regresión usando apps interactivas o machine learning automatizado (AutoML). Seleccione las características, identifique el mejor modelo y ajuste los hiperparámetros automáticamente.

Entrene, valide y ajuste modelos predictivos

Compare diversos algoritmos de Machine Learning, incluidas las redes neuronales poco profundas, seleccione características, ajuste hiperparámetros y evalúe el rendimiento de muchos algoritmos de clasificación y regresión de uso habitual. Cree y optimice automáticamente modelos predictivos con apps interactivas, y mejore los modelos incrementalmente con datos de streaming. Reduzca la necesidad de etiquetar datos mediante el aprendizaje semisupervisado.

Interpretabilidad de modelos

Mejore la interpretabilidad de Machine Learning opaco mediante modelos naturalmente interpretables, como los modelos aditivos generadores (GAM), o aplicando métodos de interpretabilidad establecidos, como las gráficas de dependencia parcial, las expectativas condicionales individuales (ICE), las explicaciones independientes del modelo interpretables localmente (LIME) y valores de Shapley.

LIME crea aproximaciones simples de modelos complejos en un área local.

Machine learning automatizado (AutoML)

Mejore el rendimiento de los modelos ajustando los hiperparámetros, seleccionando las características y los modelos, y solucionando los desequilibrios de los conjuntos de datos con matrices de coste de forma automática.

Optimización eficiente de hiperparámetros mediante optimización bayesiana.

Regresión y ANOVA

Modele una variable de respuesta continua como una función de uno o más predictores usando regresión lineal y no lineal, modelos de efectos mixtos, modelos lineales generalizados y regresión no paramétrica. Asigne la varianza a diferentes orígenes mediante ANOVA.

Regresión lineal y no lineal

Modele el comportamiento de sistemas complejos con varios predictores o variables de respuesta eligiendo entre muchos algoritmos de regresión lineal y no lineal. Ajuste modelos multinivel o jerárquicos, lineales, no lineales y de efectos mixtos lineales generalizados con efectos aleatorios anidados y/o cruzados para realizar análisis longitudinal o de panel y modelado de medidas repetidas y del crecimiento.

Ajuste de los modelos de regresión de manera interactiva con la app Regression Learner.

Regresión no paramétrica

Genere un ajuste preciso sin especificar un modelo que describa la relación entre los predictores y la respuesta usando SVM, bosques aleatorios, redes neuronales poco profundas, procesos gaussianos y kernels gaussianos.

Identificación de valores atípicos mediante la regresión cuantílica.

Análisis de la varianza (ANOVA)

Asigne una varianza de muestra a distintos orígenes y determine si la variación surge dentro o entre distintos grupos de población. Utilice ANOVA de una vía, de dos vías, multivía, multivariante y no paramétrico, así como análisis de la covarianza (ANOCOVA) y análisis de medidas repetidas de la varianza (RANOVA).

Prueba de grupos mediante ANOVA multivía.

Distribuciones de probabilidad y comprobación de hipótesis

Ajuste las distribuciones a los datos. Analice si las diferencias entre muestras son significativas o congruentes con la variación aleatoria de los datos. Genere números aleatorios a partir de diversas distribuciones.

Distribuciones de probabilidad

Ajuste distribuciones continuas y discretas, utilice gráficas estadísticas para evaluar la bondad del ajuste, y calcule funciones de densidad de probabilidad y funciones de distribución acumulada para más de 40 distribuciones diferentes.

Ajuste de distribuciones de manera interactiva mediante la app Distribution Fitter.

Generación de números aleatorios

Genere cadenas de números pseudoaleatorios y cuasialeatorios a partir de una distribución de probabilidad ajustada o construida.

Generación de números aleatorios de manera interactiva.

Comprobación de hipótesis

Realice pruebas T, pruebas de distribuciones (chi cuadrado, Jarque-Bera, Lilliefors y Kolmogorov-Smirnov) y pruebas no paramétricas para muestras únicas, apareadas o independientes. Pruebe la autocorrección y la aleatoriedad, y compare distribuciones (Kolmogorov-Smirnov para dos muestras).

Región de rechazo en una prueba T unilateral.

Estadística industrial

Analice estadísticamente los efectos y las tendencias de los datos. Aplique técnicas estadísticas industriales tales como un diseño de experimentos personalizado y el control de procesos estadísticos.

Diseño de experimentos (DOE)

Defina, analice y visualice un diseño de experimentos (DOE) personalizado. Cree y pruebe planes prácticos para enseñar a manipular las entradas de datos y a la vez a generar información sobre sus efectos en los datos de salida.

Aplicación de un diseño de Box-Behnken para generar superficies de respuesta de mayor orden.

Control de procesos estadísticos (SPC)

Supervise y mejore los productos o procesos evaluando la variabilidad de los procesos. Cree gráficas de control, estime la capacidad de los procesos y realice estudios sobre la repetibilidad y la reproducibilidad mediante equipo de medición.

Supervisión de procesos de fabricación mediante gráficas de control.

Análisis de fiabilidad y supervivencia

Visualice y analice los datos de tiempo hasta el fallo con y sin censura realizando una regresión de riesgos proporcionales de Cox, y ajuste las distribuciones. Calcule funciones de riesgos empíricos, de supervivientes y de distribución acumulada, así como estimaciones de densidad de kernel.

Datos de fallos como ejemplo de valores “censurados”.

Big data, paralelización y computación en la nube

Aplique técnicas estadísticas y de machine learning a datos fuera de memoria. Acelere la computación estadística y el entrenamiento de modelos de machine learning con paralelización en clusters e instancias en la nube.

Análisis de big data con arrays altos

Utilice arrays altos y tablas con muchos algoritmos de clasificación, regresión y agrupación para entrenar modelos con conjuntos de datos que no caben en la memoria sin modificar su código.

Aceleración de las computaciones con Parallel Computing Toolbox o MATLAB Parallel Server.

Computación en la nube y distribuida

Utilice instancias en la nube para acelerar las computaciones estadísticas y de machine learning. Ejecute la totalidad del flujo de trabajo de machine learning en MATLAB Online™.

Realice computaciones en instancias en la nube de Amazon o Azure.

Despliegue, generación de código e integración con Simulink

Despliegue estadísticas y machine learning en sistemas embebidos, acelere las computaciones de alta carga usando código C y realice la integración con sistemas empresariales y modelos de Simulink.

Generación de código

Genere código C o C++ portátil y legible para la inferencia de algoritmos de clasificación y regresión, estadística descriptiva y distribuciones de probabilidad usando MATLAB Coder™. Genere código C/C++ de predicción con precisión reducida utilizando Fixed Point Designer™ y actualice los parámetros de los modelos desplegados sin necesidad de regenerar el código de predicción.

Dos opciones de despliegue: generación de código C o compilación de código de MATLAB.

Integración con Simulink

Integre modelos de machine learning con modelos de Simulink para el despliegue en hardware embebido o para la simulación, verificación y validación del sistema.

Integración con aplicaciones y sistemas empresariales

Despliegue modelos estadísticos y de machine learning como aplicaciones autónomas MapReduce o Spark™, como apps web o como complementos de Microsoft® Excel® usando MATLAB Compiler™. Cree librerías C/C++ compartidas, ensamblados Microsoft® .NET, clases de Java® y paquetes de Python® mediante MATLAB Compiler SDK™.

Uso de MATLAB Compiler para integrar un modelo de clasificación de la calidad del aire.