Statistics and Machine Learning Toolbox


Características principales

  • Técnicas de regresión, tales como lineal, lineal generalizada, no lineal, robusta, regularizada, ANOVA, medidas repetidas y modelos de efectos mixtos
  • Algoritmos de big data para reducción de dimensiones, estadísticas descriptivas, clustering de k-means, regresión lineal, regresión logística y análisis discriminante
  • Distribuciones de probabilidad univariantes y multivariantes, generadores de números aleatorios y cuasialeatorios, y muestreadores de cadenas de Markov
  • Tests de hipótesis para distribuciones, dispersión y ubicación, además de técnicas de diseño de experimentos (DOE) para diseños de superficie de respuesta, óptimos y factoriales
  • App Classification Learner y algoritmos para aprendizaje automático supervisado, tales como máquinas de vector soporte (SVM), árboles de decisión boosted y bagged, k-vecino más próximo, clasificadores bayesianos (Naive Bayes), análisis discriminante y regresión de procesos gaussianos
  • Algoritmos de aprendizaje automático sin supervisar, incluyendo k-means, k-medoids, clustering jerárquico, mezclas gaussianas y modelos ocultos de Markov
  • Optimización bayesiana para el ajuste automático de los algoritmos de aprendizaje automático mediante la búsqueda de hiperparámetros óptimos
Descubra cómo se pueden utilizar las herramientas de aprendizaje automático de MATLAB® para resolver problemas de regresión, clustering y clasificación.

Análisis exploratorio de datos

Statistics and Machine Learning Toolbox™ proporciona varias formas de explorar datos: visualización estadística con gráficos interactivos, algoritmos para el análisis de clusters y estadísticas descriptivas para grandes conjuntos de datos de gran tamaño.


Visualización estadística con gráficos interactivos

Statistics and Machine Learning Toolbox incluye gráficos y diagramas para explorar visualmente los datos. La toolbox amplía los tipos de gráficos de MATLAB® con gráficos de probabilidad, diagramas de cajas (box plots), histogramas, histogramas de dispersión, histogramas 3D, gráficos de control y gráficos cuantil-cuantil. Asimismo, la toolbox incluye gráficos especializados para análisis multivariante, tales como dendrogramas, diagramas biespaciales, diagramas de coordenadas paralelas y gráficos de Andrews.

Visualización de datos multivariante mediante gráficos estadísticos.

Estadísticas descriptivas

Las estadísticas descriptivas le permiten comprender y describir rápidamente conjuntos de datos potencialmente de gran tamaño mediante unos pocos números de gran relevancia. Statistics and Machine Learning Toolbox incluye funciones para calcular lo siguiente:

These functions help you summarize values in a data sample using a few highly relevant numbers.

Diagrama de caja de los datos de aceleración de coches agrupados por país de origen.

Técnicas de remuestreo

En algunos casos, no es posible inferir estadísticos utilizando métodos paramétricos. Para hacer frente a estos casos, Statistics and Machine Learning Toolbox proporciona técnicas de remuestreo como:

  • Muestreo aleatorio a partir de un conjunto de datos con o sin sustitución
  • Función bootstrap no paramétrica para investigar la distribución de estadísticas mediante remuestreo
  • Función jackknife para investigar la distribución de estadísticas mediante remuestreo jackknife
  • Función bootci para estimar los intervalos de confianza mediante la función bootstrap no paramétrica
Remuestreo de la puntuación en la prueba LSAT y las calificaciones en las facultades de derecho para investigar su correlación.

Reducción de dimensionalidad

Statistics and Machine Learning Toolbox proporciona algoritmos y funciones para reducir la dimensionalidad de los conjuntos de datos. La reducción de la dimensionalidad es un paso importante en el análisis de datos, ya que puede contribuir a mejorar la precisión el rendimiento de los modelos, mejorar su interpretabilidad y evitar el sobreajuste. Puede transformar y seleccionar características, así como explorar las relaciones entre las variables mediante técnicas de visualización, tales como matrices de gráficos de dispersión y escalado multidimensional clásico.


Transformación de características

La transformación de características (a veces denominada "extracción de características") es una técnica de reducción de la dimensionalidad que transforma las características existentes en otras nuevas (variables predictivas) cuando se puede prescindir de características menos descriptivas. Entre los métodos de transformación de características disponibles en Statistics and Machine Learning Toolbox se encuentran:

Realice análisis de componentes principales ponderado e interprete los resultados.

Selección de características

La selección de características es una técnica de reducción de la dimensionalidad que selecciona el subconjunto de características medidas (variables predictivas) que proporciona el máximo poder predictivo al modelizar los datos. Resulta de utilidad cuando se trabaja con datos altamente dimensionales o si el coste de recopilar datos para todas las características es prohibitivo. Entre los métodos de selección de características disponibles en Statistics and Machine Learning Toolbox se cuentan:

  • Regresión por pasos sucesivos: agrega o elimina secuencialmente características hasta que no existe mejora en la precisión de la predicción. Se puede utilizar con algoritmos de regresión lineal o de regresión lineal generalizada.
  • Selección de características secuencial: es similar a la regresión por pasos sucesivos y se puede utilizar con cualquier algoritmo de aprendizaje supervisado junto con una medición de rendimiento personalizada.
  • Árboles de decisión boosted y bagged: métodos combinados que calculan la importancia de las variables a partir de estimaciones out-of-bag.
  • Regularización (lasso y elastic nets): emplea estimadores de reducción para eliminar características redundantes disminuyendo sus pesos (coeficientes) a cero.
Selección de características importantes para la detección del cáncer.

Visualización multivariante

Statistics and Machine Learning Toolbox proporciona gráficos y diagramas para explorar visualmente los datos multivariante, tales como:

  • Matrices de gráficos de dispersión
  • Dendrogramas
  • Diagramas biespaciales
  • Diagramas de coordenadas paralelas
  • Gráficos de Andrews
  • Gráficos de glifos
Matriz de gráfico de dispersión por grupos que muestra cómo influye el año del modelo en distintas variables para autos.

Aprendizaje automático

Los algoritmos de aprendizaje automático emplean métodos de cálculo para "aprender" información directamente a partir de los datos sin asumir una ecuación predeterminada como modelo. Statistics and Machine Learning Toolbox proporciona métodos para aplicar aprendizaje automático supervisado y no supervisado.

En este webinar aprenderá cómo empezar a utilizar las herramientas de aprendizaje automático para detectar patrones y crear modelos predictivos a partir de los conjuntos de datos.

Clasificación

Los algoritmos de clasificación le permiten modelizar una variable de respuesta categórica en forma de función de uno o más predictores. Statistics and Machine Learning Toolbox ofrece una app y funciones que cubren una gran variedad de algoritmos de clasificación paramétrica y no paramétrica, como:

Aprenda cómo localizar los parámetros óptimos de un clasificador SVM con validación cruzada mediante optimización bayesiana.

App Classification Learner

Puede utilizar la app Classification Learner para realizar tareas habituales tales como explorar datos de manera interactiva, seleccionar características, especificar esquemas de validación cruzada, entrenar modelos y evaluar resultados. La app Classification Learner le permite entrenar modelos para clasificar datos mediante aprendizaje automático supervisado. Puede utilizarla para realizar tareas habituales, como:

  • Importación de datos y especificación de esquemas de validación cruzada
  • Exploración de datos y selección de características
  • Modelos de entrenamiento mediante diversos algoritmos de clasificación
  • Comparación y evaluación de modelos
  • Compartición de modelos entrenados para su utilización en aplicaciones tales como visión artificial y procesado de señal
Learn how to detect patterns in gene expression profiles by examining gene expression data.
La app Classification Learner le permite probar modelos para clasificar datos mediante aprendizaje automático supervisado.

Análisis de clusters

Statistics and Machine Learning Toolbox cuenta con algoritmos para realizar análisis de clusters a fin de descubrir patrones en el conjunto de datos mediante la agrupación de los datos en función de medidas de similitud. Entre los algoritmos disponibles se incluyen k-means, k-medoids, clustering jerárquico, modelos de mezclas gaussianas y modelos ocultos de Markov. Cuando se desconoce el número de clusters, se pueden utilizar técnicas de evaluación de clusters para determinar el número de clusters presentes en los datos basándose en una métrica especificada.

Aprenda cómo detectar patrones en perfiles de expresión de genes examinando los datos de expresión de genes.

Regresión no paramétrica

Statistics and Machine Learning Toolbox también soporta técnicas de regresión no paramétrica para la generación de un ajuste preciso sin especificar un modelo que describa la relación entre el predictor y la respuesta. Las técnicas de regresión no paramétricas pueden clasificarse de manera más amplia en la categoría del aprendizaje automático supervisado para la regresión, e incluye árboles de decisión, árboles de regresión boosted o bagged y máquinas de vector soporte para regresión.

Realice predicciones del riesgo de seguro entrenando una combinación de árboles de regresión mediante TreeBagger.

Regresión y ANOVA


Regresión

Mediante las técnicas de regresión, puede modelizar una variable de respuesta continua como una función de uno o más predictores. Statistics and Machine Learning Toolbox ofrece diversos algoritmos de regresión, tales como regresión lineal, modelos lineales generalizados, regresión no lineal y modelos de efectos mixtos.


Regresión lineal

La regresión lineal es una técnica de modelización estadística que se emplea para describir una variable de respuesta continua a modo de función de una o varias variables predictivas. Puede ayudarle a comprender y predecir el comportamiento de sistemas complejos o a analizar datos experimentales, financieros y biológicos. Statistics and Machine Learning Toolbox ofrece varios tipos de modelos de regresión y métodos de ajuste lineales, entre los que se encuentran:

  • Simple: modelo con un único predictor
  • Múltiple: modelo con varios predictores
  • Multivariante: modelo con varias variables de respuesta
  • Robusta: modelo con valores atípicos
  • Por pasos sucesivos: modelo con selección automática de variables
  • Regularizada: modelo que admite predictores redundantes y evita el sobreajuste mediante algoritmos ridge, lasso y elastic net
En este webinar aprenderá cómo utilizar Statistics and Machine Learning Toolbox para generar modelos predictivos precisos a partir de conjuntos de datos que contienen un gran número de variables correlacionadas.

Regresión no lineal

La regresión no lineal es una técnica de modelización estadística que ayuda a describir relaciones no lineales en datos experimentales. Se suele considerar que los modelos de regresión no lineal son paramétricos, es decir, que el modelo se describe en forma de ecuación no lineal. Statistics and Machine Learning Toolbox también ofrece ajuste no lineal robusto para hacer frente a los valores atípicos en los datos.

Utilice gráficos de diagnóstico para examinar un modelo no lineal ajustado mediante gráficos de diagnóstico, de residuos y de deslizamiento.

Modelos lineales generalizados

Los modelos lineales generalizados son un caso especial de modelos no lineales que emplean métodos lineales. Permiten que las variables de respuesta tengan distribuciones no normales y una función de vínculo que describe cómo se relaciona el valor esperado de la respuesta con los predictores lineales. Statistics and Machine Learning Toolbox soporta el ajuste de modelos lineales generalizados con las siguientes distribuciones de respuesta:

  • Normal
  • Binomial (regresión probit o logística)
  • Poisson
  • Gamma
  • Gaussiana inversa
Ajuste y evalúe modelos lineales generalizados mediante glmfit y glmval.

Modelos de efectos mixtos

Los modelos de efectos mixtos lineales y no lineales son generalizaciones de modelos lineales y no lineales para datos recopilados y agrupados. Estos modelos describen la relación entre una variable de respuesta y las variables independientes, con coeficientes que pueden variar con respecto a una o varias variables de agrupación. Statistics and Machine Learning Toolbox soporta el ajuste de modelos multinivel o jerárquicos, lineales, no lineales y de efectos mixtos lineales generalizados con efectos aleatorios anidados y/o cruzados que se pueden utilizar para realizar diversos estudios, entre los que se encuentran:

Ajuste y evalúe modelos de efectos mixtos mediante nlmefit y nlmefitsa.

Evaluación de modelos

Statistics and Machine Learning Toolbox le permite evaluar modelos para algoritmos de regresión mediante tests de significancia estadística y medidas de bondad de ajuste, tales como:

Mediante las técnicas de regresión, puede modelizar una variable de respuesta continua como una función de uno o más predictores. Statistics and Machine Learning Toolbox ofrece diversos algoritmos de regresión, tales como regresión lineal, modelos lineales generalizados, regresión no lineal y modelos de efectos mixtos.

  • Estadístico F y estadístico T
  • R2 y R2 ajustada
  • Error cuadrático medio con validación cruzada
  • Criterio de la información de Akaike (AIC) y criterio de la información bayesiano (BIC)

Es posible calcular los intervalos de confianza tanto para coeficientes de regresión como para valores predichos.


ANOVA

El análisis de la varianza (ANOVA) le permite asignar una varianza de muestra a distintos orígenes y determinar si la variación surge dentro o entre distintos grupos de población. Statistics and Machine Learning Toolbox incluye los siguientes algoritmos ANOVA y técnicas relacionadas:

Realice ANOVA n-direccional en datos de coches con el kilometraje y otros datos de 406 coches fabricados entre 1970 y 1982.

Distribuciones de probabilidad

Statistics and Machine Learning Toolbox proporciona funciones y una app para trabajar con distribuciones de probabilidad paramétricas y no paramétricas. Con estas herramientas, puede ajustar distribuciones continuas y discretas, utilizar gráficos estadísticos para evaluar la bondad del ajuste, calcular funciones de densidad de probabilidad y funciones de distribución acumulada y generar números aleatorios y cuasialeatorios a partir de distribuciones de probabilidad.

La toolbox permite calcular, ajustar, generar cadenas de números aleatorios y pseudoaleatorios y evaluar la bondad del ajuste para más de 40 distribuciones distintas, entre las que se incluyen:


Ajuste de las distribuciones a los datos

La aplicación app Distribution Fitting permite ajustar los datos por medio de distribuciones de probabilidad univariantes predefinidas, de un estimador no paramétrico (suavizado kernel) o de una distribución personalizada que se defina. Esta app soporta tanto datos completos como datos censurados (fiabilidad). Puede excluir datos, guardar y cargar sesiones y generar código MATLAB. Puede asimismo estimar los parámetros de distribución en la línea de comandos o construir distribuciones de probabilidad que se correspondan con los parámetros que rijan.

Utilice la app Distribution Fitting para ajustar de manera interactiva una distribución de probabilidad a los datos.

Evaluación de la bondad del ajuste

Statistics and Machine Learning Toolbox proporciona gráficos estadísticos para evaluar hasta qué punto se ajusta un conjunto de datos a una determinada distribución. La toolbox incluye gráficos de probabilidad para diversas distribuciones estándar, incluidas la normal, la exponencial, la de valor extremo, la lognormal, la de Rayleigh y la de Weibull. Es posible generar gráficos de probabilidad a partir de conjuntos de datos completos y de conjuntos de datos censurados. Asimismo, puede utilizar gráficos Q-Q para evaluar qué tal se ajusta una distribución dada a una distribución normal estándar.

Statistics and Machine Learning Toolbox también proporciona tests de hipótesis para determinar si un conjunto de datos es coherente con distintas distribuciones de probabilidad. Entre los tests de distribución específicos se incluyen:

  • Tests de Anderson-Darling
  • Tests de Kolmogorov-Smirnov de una cola y de dos colas
  • Tests de bondad del ajuste chi-square.
  • Tests de Lilliefors
  • Tests de Ansari-Bradley
  • Tests de Jarque-Bera
  • Tests de Durbin-Watson
Estimación de máxima verosimilitud con datos truncados, ponderados o bimodales.

Generación de números aleatorios

La toolbox proporciona funciones para generar cadenas de números pseudoaleatorios y cuasialeatorios a partir de distribuciones de probabilidad. Puede generar números aleatorios a partir de una distribución de probabilidad ajustada o construida aplicando el método aleatorio. Statistics and Machine Learning Toolbox también proporciona funciones para:

  • Generar muestras aleatorias a partir de distribuciones multivariantes, tales como t, normal, cópulas y Wishart
  • Muestrear a partir de poblaciones finitas
  • Realizar muestreos de hipercubo latino
  • Generar muestras a partir de sistemas de distribución de Pearson y Johnson

Asimismo, puede generar cadenas de números cuasialeatorios. Las cadenas de números cuasialeatorios producen muestras altamente uniformes a partir del hipercubo de unidad. Las cadenas de números cuasialeatorios a menudo pueden acelerar las simulaciones Monte Carlo, ya que se necesitan menos muestras para lograr una cobertura completa.

Utilice cópulas para generar datos a partir de distribuciones multivariantes cuando existan relaciones complejas entre las variables, o bien cuando las variables individuales procedan de distribuciones distintas.

Verificación de hipótesis, diseño de experimentos (DOE) y control estadístico del proceso


Verificación de hipótesis

La variación aleatoria puede hacer que resulte difícil determinar si las muestras tomadas en distintas condiciones son diferentes. Los tests de hipótesis son una herramienta eficaz para analizar si las diferencias entre muestras son significativas y requieren más evaluaciones o si son congruentes con la variación de datos aleatoria y prevista.

Statistics and Machine Learning Toolbox soporta procedimientos de tests de hipótesis paramétricos y no paramétricos ampliamente utilizados, tales como:

  • Tests t de una y dos muestras
  • Tests no paramétricos para una muestra, muestras pareadas y dos muestras independientes
  • Tests de distribución (chi-square, Jarque-Bera, Lilliefors y Kolmogorov-Smirnov)
  • Comparación de distribuciones (Kolmogorov-Smirnov de dos muestras)
  • Tests de autocorrelación y de aleatoriedad
  • Tests de hipótesis lineales sobre coeficientes de regresión
Cálculo del tamaño de muestra necesario para un test de hipótesis.

Diseño de experimentos (DOE)

Puede utilizar Statistics and Machine Learning Toolbox para definir, analizar y visualizar un diseño de experimentos (DOE) personalizado. Las funciones para DOE le permiten crear y probar planes prácticos a fin de recopilar datos para la modelización estadística. Estos planes enseñan a manipular las entradas de datos y a la vez a generar información de sus efectos sobre los datos de salida. Entre los tipos de diseño soportados se cuentan:

  • Factorial completo
  • Factorial fraccional
  • Superficie de respuesta (compuesto central y de Box-Behnken)
  • D-óptimo
  • Hipercubo latino

Por ejemplo, se pueden estimar los efectos y las interacciones de las entradas utilizando ANOVA, regresión lineal y modelización de superficies de respuestas, y a continuación visualizar los resultados como gráfico del efecto principal, gráfico de interacción y gráficos multivariantes.

 

Genere diseños de compuesto central y diseños de Box-Behnken.

Control de procesos estadísticos

Statistics and Machine Learning Toolbox proporciona un conjunto de funciones que soportan el control de procesos estadísticos (SPC). Estas funciones permiten supervisar y mejorar los productos o procesos evaluando la variabilidad del proceso. Con las funciones SPC puede:

  • Realizar estudios sobre la capacidad de repetición y de reproducción
  • Estimar las posibilidades del proceso
  • Crear gráficos de control
  • Aplicar reglas de control de Western Electric y Nelson para controlar los datos de los gráficos
Visualice los límites de control del proceso de refrigeración del ventilador del motor mediante gráficos de control.

Big data, cálculo paralelo y generación de código

Utilice las herramientas de MATLAB con Statistics and Machine Learning Toolbox para llevar a cabo análisis estadísticos exigentes desde el punto de vista computacional e intensivos en datos.


Big data

Puede utilizar muchas de las funciones de la toolbox con tall arrays y tall tables para aplicar funciones estadísticas y de aprendizaje automático en datos con memoria insuficiente que tengan un número arbitrario de filas. Esto le permite utilizar el código MATLAB que le resulta familiar para trabajar con conjuntos de datos de gran tamaño en discos locales. Asimismo, puede servirse de MATLAB Compiler™ para distribuir el mismo código MATLAB de manera que funcione en entornos de big data tales como Hadoop®.

Consulte la documentación de la toolbox para ver la lista completa de funciones soportadas.

Realice predicciones sobre el retraso de la salida de vuelos basándose en diversas variables.

Cálculo paralelo

Puede utilizar Statistics and Machine Learning Toolbox con Parallel Computing Toolbox™ para acelerar los cálculos estadísticos mediante:

Consulte la documentación de la toolbox para ver la lista completa de funciones soportadas.

Ejecute la regresión de calificaciones de riesgos de seguro para importaciones de coches mediante TreeBagger en paralelo.

Generación de código C

Puede utilizar la toolbox con MATLAB Coder™ a fin de generar código C portable y legible para funciones seleccionadas para clasificación, regresión, clustering, estadísticas descriptivas y distribuciones de probabilidad. Puede servirse del código generado a fin de emplear estadísticas y aprendizaje automático para:

  • Desarrollo de sistemas embebidos
  • Integración con otro software
  • Aceleración de código MATLAB intensivo desde el punto de vista computacional
Genere código C para que una función de MATLAB calcule la posición de un objeto móvil en función de anteriores mediciones de ruido.