Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Estimación de modelos de regresión multivariada

Estimación de mínimos cuadrados

Mínimos cuadrados ordinarios

Cuando se ajustan modelos de regresión lineal multivariada utilizando, puede utilizar el par nombre-valor opcional para elegir la estimación de mínimos cuadrados.mvregress'algorithm','cwls' En este caso, de forma predeterminada, devuelve estimaciones de mínimos cuadrados ordinarios (OLS) mediantemvregress Σ=Id. Alternativamente, si especifica una matriz de covarianza para la ponderación, puede devolver estimaciones de mínimos cuadrados ponderados por covarianza (CWLS). Si combina OLS y CWLS, puede obtener estimaciones de mínimos cuadrados generalizados (FGLS) factibles.

La estimación de OLS para el vector de coeficiente es el vector b que minimiza

i=1n(yiXib)(yiXib).

Dejar y denotan el vector-by-1 de las respuestas apiladas yndd X denotan la matriz de matrices de diseño apiladas.ndK El vector-by-1 de estimaciones del coeficiente de regresión de OLS esK

bOLS=(XX)1Xy.

Esta es la primera salida.mvregress

Dado Σ=Id (el valor por defecto de OLS), la matriz de varianza-covarianza de las estimaciones de OLS esmvregress

V(bOLS)=(XX)1.

Esta es la cuarta salida.mvregress Los errores estándar de los coeficientes de regresión de OLS son la raíz cuadrada de la diagonal de esta matriz de varianza-covarianza.

Si sus datos no se escalan de tal forma que Σ=σ2Id, entonces usted puede multiplicar la matriz de la varianza-covarianza por el error cuadrado medio (MSE), una estimación imparcial demvregress σ2. Para computar el MSE, devuelva el-por-matriz de los residuos,nd E (la tercera salida).mvregress Entonces

MSE=i=1neieinK,

Dónde ei=(yiXiβ) es la fila TH dei E.

Los cuadrados mínimos ponderados por covarianza

Para la mayoría de los problemas multivariados, una matriz de covarianza de errores de identidad es insuficiente y conduce a estimaciones de error estándar ineficientes o sesgadas. Puede especificar una matriz para la estimación CWLS utilizando el argumento de par nombre-valor opcional, por ejemplo, un invertible por matriz denominadocovar0dd C0. Generalmente C0 es una matriz diagonal, de forma que la matriz inversa C01 contiene pesos para cada dimensión para modelar la heteroscedasticidad. Sin embargo C0 también puede ser una matriz no diagonal que modela la correlación.

Dado C0, la solución CWLS es el vector b que minimiza

i=1n(yiXib)C0(yiXib).

En este caso, el vector-by-1 de las estimaciones del coeficiente de regresión CWLS esK

bCWLS=(X(InC0)1X)1X(InC0)1y.

Esta es la primera salida.mvregress

Si Σ=C0, esta es la solución de mínimos cuadrados generalizados (GLS). La matriz de varianza-covarianza correspondiente de las estimaciones del CWLS es

V(bCWLS)=(X'(InC0)1X)1.

Esta es la cuarta salida.mvregress Los errores estándar de los coeficientes de regresión CWLS son la raíz cuadrada de la diagonal de esta matriz de varianza-covarianza.

Si sólo conoce la matriz de covarianza de errores hasta una proporción, es decir, Σ=σ2C0, usted puede multiplicar la matriz de la varianza-covarianza por el MSE, según lo descrito adentro.mvregressMínimos cuadrados ordinarios

Estimación de covarianza de error

Independientemente del método de mínimos cuadrados que utilice, la estimación de la matriz de desviación de error-covarianza se

Σ^=(σ^12σ^12σ^1dσ^12σ^22σ^2dσ^1dσ^2dσ^d2)=EEn,

Dónde E es la matriz de los residuos.nd La fila TH dei E Es ei=(yiXib).

La estimación de la covarianza de errores, Σ^, es la segunda salida, y la matriz de residuos,mvregress E, es la tercera salida. Si especifica el par nombre-valor opcional, devuelve'covtype','diagonal'mvregress Σ^ con ceros en las entradas de la diagonal,

Σ^=(σ^1200σ^d2).

Mínimos cuadrados generalizados factibles

La estimación de mínimos cuadrados generalizada es la estimación CWLS con una matriz de covarianza conocida. Es decir, dado Σ se conoce, la solución GLS es

bGLS=(X(InΣ)1X)1X(InΣ)1y,

con la matriz de varianza-covarianza

V(bGLS)=(X(InΣ)1X)1.

En la mayoría de los casos, se desconoce la covarianza de errores. La estimación factible de mínimos cuadrados generalizados (FGLS) utiliza Σ^ en lugar de Σ. Puede obtener estimaciones de FGLS de dos pasos de la siguiente manera:

  1. Realice la regresión de OLS y devuelva una estimación Σ^.

  2. Realice la regresión CWLS, utilizando C0=Σ^.

También puede iterar entre estos dos pasos hasta que se alcance la convergencia.

Para algunos datos, la estimación de OLS Σ^ es semidefinido positivo, y no tiene ningún inverso único. En este caso, no puede obtener la estimación de FGLS utilizando.mvregress Como alternativa, puede utilizar, que utiliza un inverso generalizado para devolver las soluciones de mínimos cuadrados ponderados para matrices de covarianza semidefinidas positivas.lscov

Errores estándar corregidos del panel

Una alternativa a FGLS es utilizar estimaciones de coeficiente de OLS (que son consistentes) y hacer una corrección de errores estándar para mejorar la eficiencia. Uno de estos ajustes de error estándar, que no requiere la inversión de la matriz de covarianza, son los errores estándar corregidos por el panel (PCSE).[1] La matriz de varianza-covarianza corregida por el panel para las estimaciones de OLS es

Vpcse(bOLS)=(XX)1X(InΣ)X(XX)1.

El PCSE es la raíz cuadrada de la diagonal de esta matriz de varianza-covarianza. ilustra el cómputo PCSE.Modelo de panel de efectos fijos con correlación concurrente

Estimación de máxima verosimilitud

Estimaciones de máxima verosimilitud

El algoritmo de estimación predeterminado utilizado por es estimación de máxima verosimilitud (MLE).mvregress La función logverosimilitud para el modelo de regresión lineal multivariada es

logL(β,Σ|y,X)=12ndlog(2π)+12nlog(det(Σ))+12i=1n(yiXiβ)Σ1(yiXiβ).

Los MLEs para β Y Σ son los valores que maximizan la función objetiva de logverosimilitud.

encuentra los MLEs utilizando un algoritmo iterativo de dos etapas.mvregress En la iteración + 1, las estimaciones sem

bMLE(m+1)=(X(InΣ(m))1X)1X(InΣ(m))1y

Y

Σ^(m+1)=1ni=1n(yiXibMLE(m+1))(yiXibMLE(m+1)).

El algoritmo finaliza cuando los cambios en las estimaciones de coeficiente y la función objetiva de logverosimilitud son menores que una tolerancia especificada, o cuando se alcanza el número máximo especificado de iteraciones. Los argumentos opcionales del par nombre-valor para cambiar estos criterios de convergencia son, y, respectivamente.tolbetatolobjmaxiter

Errores estándar

La matriz de varianza-covarianza de los MLEs es una salida opcional.mvregress De forma predeterminada, devuelve la matriz de varianza-covarianza solo para los coeficientes de regresión, pero también puede obtener la matriz de varianza-covarianza demvregress Σ^ utilizando el par nombre-valor opcional.'vartype','full' En este caso, devuelve la matriz de varianza-covarianza para todos los coeficientes de regresión, y o (+ 1)/2 términos de covarianza (dependiendo de si la covarianza de error es diagonal o completa).mvregressKddd

De forma predeterminada, la matriz de varianza-covarianza es la inversa de la matriz de información de Fisher observada (la opción).'hessian' Puede solicitar la matriz de información de Fisher esperada utilizando el par nombre-valor opcional.'vartype','fisher' Siempre que no haya datos de respuesta faltantes, las matrices de información de Fisher observadas y previstas son las mismas. Si faltan datos de respuesta, la información de Fisher observada representa la incertidumbre añadida debido a los valores faltantes, mientras que la matriz de información de Fisher esperada no.

La matriz de varianza-covarianza para el coeficiente de regresión MLEs es

V(bMLE)=(X(InΣ^)1X)1,

evaluado en el MLE de la matriz de covarianza de errores. Esta es la cuarta salida.mvregress Los errores estándar de los MLEs son la raíz cuadrada de la diagonal de esta matriz de varianza-covarianza.

Para Σ^Dejar θ denotan el vector de parámetros en la matriz de desviación de error estimada-covarianza. Por ejemplo, si = 2, entonces:d

  • Si la matriz de covarianza estimada es diagonal, θ=(σ^12,σ^22).

  • Si la matriz de covarianza estimada está llena, θ=(σ^12,σ^12,σ^22).

La matriz de información de Fisher para θ, I(θ), tiene elementos

I(θ)u,v=12tr(Σ^1Σ^θuΣ^1Σ^θv),u,v=1,,nθ,

Dónde nθ es la longitud de θ (ya sea o (+ 1)/2).ddd La matriz de varianza-covarianza resultante es

V(θ)=I(θ)1.

Cuando se solicita la matriz de varianza-covarianza completa, devuelve (como la cuarta salida) la matriz diagonal de bloquemvregress

(V(bMLE)00V(θ)).

Datos de respuesta faltantes

Expectativa/maximización condicional

Si faltan valores de respuesta, indicados por, utiliza un algoritmo de expectativa/maximización condicional (ECM) para la estimación (si hay suficientes datos disponibles).NaNmvregress En este caso, el algoritmo es iterativo para los mínimos cuadrados y la estimación de máxima verosimilitud. Durante cada iteración, imputa los valores de respuesta faltantes utilizando su expectativa condicional.mvregress

Considere la posibilidad de organizar los datos para que la distribución conjunta de las respuestas faltantes y observadas, denotado y˜ Y y respectivamente, se pueden escribir como

(y˜y)MVN{(X˜βXβ),(Σy˜Σy˜yΣyy˜Σy)}.

Utilizando las propiedades de la distribución normal multivariada, la expectativa condicional de las respuestas faltantes dadas las respuestas observadas es

E(y˜|y)=X˜β+Σy˜yΣy1(yXβ).

Además, la matriz de varianza-covarianza de la distribución condicional es

COV(y˜|y)=Σy˜Σy˜yΣy1Σyy˜.

En cada iteración del algoritmo ECM, utiliza los valores de parámetro de la iteración anterior para:mvregress

  • Actualice los coeficientes de regresión utilizando el vector combinado de las respuestas observadas y las expectativas condicionales de las respuestas faltantes.

  • Actualice la matriz de varianza-covarianza, ajustando las respuestas faltantes utilizando la matriz de varianza-covarianza de la distribución condicional.

Por último, los residuales que devuelven las respuestas faltantes son la diferencia entre la expectativa condicional y el valor ajustado, ambos evaluados en las estimaciones de parámetros finales.mvregress

Si prefiere ignorar cualquier observación que tenga valores de respuesta faltantes, utilice el par nombre-valor.'algorithm','mvn' Tenga en cuenta que siempre omite las observaciones que tienen valores de predictor faltantes.mvregress

Matriz de información observada

De forma predeterminada, utiliza la matriz de información de Fisher observada (la opción) para calcular la matriz de varianza-covarianza de los parámetros de regresión.mvregress'hessian' Esto explica la incertidumbre adicional debida a los valores de respuesta faltantes.

La matriz de información observada incluye las contribuciones de sólo las respuestas observadas. Es decir, la matriz de información de Fisher observada para los parámetros en la matriz de desviación-covarianza de error tiene elementos

I(θ)u,v=12i=1ntr(Σ^i1Σ^iθuΣ^i1Σ^iθv),u,v=1,,nθ,

Dónde Σ^i es el subconjunto de Σ^ correspondientes a las respuestas observadas en yi.

Por ejemplo, si = 3, perod yi2 falta, entonces

Σ^i=(σ^12σ^13σ^13σ^32).

La información de Fisher observada para los coeficientes de regresión tiene contribuciones similares de las matrices de diseño y covarianza.

Referencias

[1] Beck, N. and J. N. Katz. What to Do (and Not to Do) with Time-Series-Cross-Section Data in Comparative Politics. American Political Science Review, Vol. 89, No. 3, pp. 634–647, 1995.

Consulte también

|

Ejemplos relacionados

Más acerca de