Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Mínimos cuadrados parciales

Introducción a los mínimos cuadrados parciales

() la regresión es una técnica utilizada con datos que contienen variables predictoras correlacionadas.Los mínimos cuadrados parcialesPls Esta técnica construye nuevas variables predictoras, conocidas como, como combinaciones lineales de las variables predictoras originales.Componentes PLS construye estos componentes teniendo en cuenta los valores de respuesta observados, lo que lleva a un modelo parsimonioso con una potencia predictiva fiable.

La técnica es algo de un cruce entre y:regresión lineal múltipleAnálisis del componente principal

  • La regresión lineal múltiple encuentra una combinación de los predictores que mejor se ajustan a una respuesta.

  • El análisis del componente principal encuentra combinaciones de los predictores con una varianza grande, reduciendo las correlaciones. La técnica no hace ningún uso de los valores de respuesta.

  • PLS encuentra combinaciones de los predictores que tienen una gran covarianza con los valores de respuesta.

Por lo tanto, PLS combina información sobre las varianzas tanto de los predictores como de las respuestas, teniendo en cuenta también las correlaciones entre ellos.

PLS comparte características con otras técnicas de transformación de regresión y característica. Es similar a en que se utiliza en situaciones con predictores correlacionados.regresión de cresta Es similar a (o más técnicas generales) en que se puede utilizar para seleccionar un conjunto más pequeño de términos de modelo.regresión escalonadoselección de características PLS difiere de estos métodos, sin embargo, transformando el espacio predictor original en el nuevo espacio de componentes.

La función lleva a cabo la regresión PLS.Statistics and Machine Learning Toolbox™plsregress

Mínimos cuadrados parciales

Por ejemplo, tenga en cuenta los datos sobre la demanda bioquímica de oxígeno, rellenado con versiones ruidosas de los predictores para introducir correlaciones:moore.mat

load moore y = moore(:,6);              % Response X0 = moore(:,1:5);           % Original predictors X1 = X0+10*randn(size(X0));  % Correlated predictors X = [X0,X1];

Se utiliza para realizar la regresión PLS con el mismo número de componentes que los predictores, a continuación, trazar la desviación porcentual explicada en la respuesta como una función del número de componentes:plsregress

[XL,yl,XS,YS,beta,PCTVAR] = plsregress(X,y,10);  plot(1:10,cumsum(100*PCTVAR(2,:)),'-bo'); xlabel('Number of PLS components'); ylabel('Percent Variance Explained in y');

La elección del número de componentes en un modelo PLS es un paso crítico. La trama da una indicación aproximada, mostrando casi el 80% de la varianza en explicado por el primer componente, con hasta cinco componentes adicionales haciendo contribuciones significativas.y

A continuación se calcula el modelo de seis componentes:

[XL,yl,XS,YS,beta,PCTVAR,MSE,stats] = plsregress(X,y,6); yfit = [ones(size(X,1),1) X]*beta;  plot(y,yfit,'o')

El Scatter muestra una correlación razonable entre las respuestas ajustadas y observadas, y esto es confirmado por elR2 Estadística:

TSS = sum((y-mean(y)).^2); RSS = sum((y-yfit).^2); Rsquared = 1 - RSS/TSS Rsquared =     0.8421

Una gráfica de los pesos de los diez predictores en cada uno de los seis componentes muestra que dos de los componentes (los dos últimos calculados) explican la mayoría de la varianza en:X

plot(1:10,stats.W,'o-'); legend({'c1','c2','c3','c4','c5','c6'},'Location','NW') xlabel('Predictor'); ylabel('Weight');

Una trama de los errores cuadráticos indica que tan pocos como dos componentes pueden proporcionar un modelo adecuado:

[axes,h1,h2] = plotyy(0:6,MSE(1,:),0:6,MSE(2,:)); set(h1,'Marker','o') set(h2,'Marker','o') legend('MSE Predictors','MSE Response') xlabel('Number of Components')

El cálculo de los errores de media cuadrático se controla mediante pares de nombre/valor de parámetro opcionales que especifican el tipo de validación cruzada y el número de repeticiones de Montecarlo.plsregress