Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

CompactGeneralizedLinearModel

Paquete: classreg.regr

Clase de modelo de regresión lineal generalizada compacta

Descripción

es un objeto de modelo de regresión lineal generalizada compacto.CompactGeneralizedLinearModel Consume menos memoria que un modelo de regresión lineal generalizada () porque no almacena los datos utilizados para ajustarse al modelo.GeneralizedLinearModel El modelo compacto no almacena los datos de entrada, por lo que no puede utilizarlo para realizar ciertas tareas. Sin embargo, puede utilizar un modelo de regresión lineal generalizado y compacto para predecir las respuestas mediante nuevos datos de entrada.

Las operaciones de ajuste (,,...) utilizan automáticamente objetos compactos cuando se trabaja con matrices altas.fitlmfitglm Las operaciones de ajuste con tablas y matrices en memoria producen objetos completos. Puede utilizar el método para hacerlos más pequeños.compact

Construcción

compactMdl = compact(mdl) Devuelve un modelo de regresión lineal generalizada compacto a partir del modelo de regresión lineal generalizada completo.compactMdlmdl Para obtener más información, consulte.compact

Argumentos de entrada

expandir todo

Modelo de regresión lineal total generalizado, especificado como un objeto.GeneralizedLinearModel

Propiedades

expandir todo

Esta propiedad es de solo lectura.

Matriz de covarianza de estimaciones de coeficiente, especificada como una-por-matriz de valores numéricos. es el número de coeficientes en el modelo ajustado.ppp

Para obtener más información, consulte.Errores estándar de coeficiente y intervalos de confianza

Tipos de datos: single | double

Esta propiedad es de solo lectura.

Nombres de coeficiente, especificados como una matriz de celdas de vectores de caracteres, cada uno de los cuales contiene el nombre del término correspondiente.

Tipos de datos: cell

Esta propiedad es de solo lectura.

Valores de coeficiente, especificados como una tabla. contiene una fila por cada coeficiente y estas columnas:Coefficients

  • — Valor del coeficiente EstimadoEstimate

  • — Error estándar de la estimaciónSE

  • —-estadística para una prueba de que el coeficiente es cerotStatt

  • —-valor para el-estadísticopValuept

Utilice (sólo para un modelo de regresión lineal) o para realizar otras pruebas en los coeficientes.anovacoefTest Se utiliza para encontrar los intervalos de confianza de las estimaciones de coeficiente.coefCI

Para obtener cualquiera de estas columnas como un vector, índice en la propiedad mediante la notación de puntos. Por ejemplo, obtenemos el vector de coeficiente estimado en el modelo:mdl

beta = mdl.Coefficients.Estimate

Tipos de datos: table

Esta propiedad es de solo lectura.

Desviación de ajuste, especificada como un valor numérico. Deviance es útil para comparar dos modelos cuando uno es un caso especial del otro. La diferencia entre la desviación de los dos modelos tiene una distribución de Chi-cuadrada con grados de libertad igual a la diferencia en el número de parámetros estimados entre los dos modelos. Para obtener más información sobre la desviación, consulte.Desviación

Tipos de datos: single | double

Esta propiedad es de solo lectura.

Grados de libertad para el error (residuos), igual al número de observaciones menos el número de coeficientes estimados, especificado como un entero positivo.

Tipos de datos: double

Esta propiedad es de solo lectura.

Factor de escala de la varianza de la respuesta, especificado como un valor numérico. multiplica la función de desviación para la distribución.Dispersion

Por ejemplo, la función de desviación para la distribución binomial es (1 –)/, donde es el parámetro de probabilidad y es el parámetro de tamaño de la muestra.ppnpn Si está cerca, la varianza de los datos parece estar de acuerdo con la varianza teórica de la distribución binomial.Dispersion1 Si es mayor que, los datos están "excesivamente dispersos" en relación con la distribución binomial.Dispersion1

Tipos de datos: double

Esta propiedad es de solo lectura.

Indicador para indicar el uso del factor de escala de dispersión, especificado como un valor lógico. Se utiliza para indicar si se utiliza el factor de escala para calcular los errores estándar de los coeficientes.DispersionEstimatedfitglmDispersionCoefficients.SE Si es así, se utiliza el valor teórico de la varianza.DispersionEstimatedfalsefitglm

  • puede ser solo para o distribuciones.DispersionEstimatedfalse'binomial''poisson'

  • Para establecer, establezca el par nombre-valor.DispersionEstimatedDispersionFlagfitglm

Tipos de datos: logical

Esta propiedad es de solo lectura.

Información de distribución generalizada, especificada como una estructura con los siguientes campos relacionados con la distribución generalizada.

CampoDescripción
NameNombre de la distribución. Las opciones son:,,,, o.'normal''binomial''poisson''gamma''inverse gaussian'
DevianceFunctionFunción que calcula los componentes de la desviación como una función de los valores de parámetro ajustados y los valores de respuesta.
VarianceFunctionFunción que calcula la varianza teórica para la distribución como una función de los valores de parámetro ajustados. Cuando es, multiplica la función de varianza en el cálculo de los errores estándar de coeficiente.DispersionEstimatedtrueDispersion

Tipos de datos: struct

Esta propiedad es de solo lectura.

Información del modelo, especificada como un objeto.LinearFormula

Visualice la fórmula del modelo ajustado utilizando la notación de puntos:mdl

mdl.Formula

Esta propiedad es de solo lectura.

Probabilidad de registro de la distribución del modelo en los valores de respuesta, especificado como un valor numérico. La media se ajusta a partir del modelo y otros parámetros se estiman como parte del ajuste del modelo.

Tipos de datos: single | double

Esta propiedad es de solo lectura.

Criterio para la comparación de modelos, especificado como una estructura con estos campos:

  • — Criterio de información de Akaike. , donde es el logverosimilitud y es el número de parámetros estimados.AICAIC = –2*logL + 2*mlogLm

  • — Criterio de información de Akaike corregido para el tamaño de la muestra. , donde está el número de observaciones.AICcAICc = AIC + (2*m*(m+1))/(n–m–1)n

  • — Criterio de información bayesiana. .BICBIC = –2*logL + m*log(n)

  • — Criterio de información consistente de Akaike. .CAICCAIC = –2*logL + m*(log(n)+1)

Los criterios de información son herramientas de selección de modelo que puede utilizar para comparar varios modelos aptos para los mismos datos. Estos criterios son medidas basadas en la probabilidad de ajuste de modelo que incluyen una penalización por complejidad (concretamente, el número de parámetros). Diferentes criterios de información se distinguen por la forma de la sanción.

Cuando se comparan varios modelos, el modelo con el valor de criterio de información más bajo es el modelo que mejor se ajusta. El modelo de mejor ajuste puede variar en función del criterio utilizado para la comparación de modelos.

Para obtener cualquiera de los valores de criterio como un escalar, índice en la propiedad mediante la notación de puntos. Por ejemplo, obtenemos el valor AIC en el modelo:aicmdl

aic = mdl.ModelCriterion.AIC

Tipos de datos: struct

Esta propiedad es de solo lectura.

Número de coeficientes del modelo, especificado como un entero positivo. incluye los coeficientes que se establecen en cero cuando los términos del modelo son deficientes de rango.NumCoefficients

Tipos de datos: double

Esta propiedad es de solo lectura.

Número de coeficientes estimados en el modelo, especificado como un entero positivo. no incluye los coeficientes que se establecen en cero cuando los términos del modelo son deficientes de rango. son los grados de libertad para la regresión.NumEstimatedCoefficientsNumEstimatedCoefficients

Tipos de datos: double

Esta propiedad es de solo lectura.

Número de observaciones de la función de empalme utilizada en el empalme, especificada como un entero positivo. es el número de observaciones proporcionadas en la tabla, el DataSet o la matriz original, menos las filas excluidas (establecidas con el argumento de par nombre-valor) o las filas con valores faltantes.NumObservations'Exclude'

Tipos de datos: double

Esta propiedad es de solo lectura.

Número de variables predictoras utilizadas para ajustarse al modelo, especificadas como un entero positivo.

Tipos de datos: double

Esta propiedad es de solo lectura.

Número de variables en los datos de entrada, especificadas como un entero positivo. es el número de variables en la tabla o DataSet original, o el número total de columnas en la matriz predictora y el vector de respuesta.NumVariables

también incluye cualquier variable que no se utilice para ajustar el modelo como predictores o como la respuesta.NumVariables

Tipos de datos: double

Esta propiedad es de solo lectura.

Nombres de los predictores que se utilizan para ajustarse al modelo, especificado como una matriz de vectores de caracteres de celda.

Tipos de datos: cell

Esta propiedad es de solo lectura.

Nombre de variable de respuesta, especificado como un vector de caracteres.

Tipos de datos: char

Esta propiedad es de solo lectura.

Valor R cuadrado para el modelo, especificado como una estructura con cinco campos:

  • — Ordinario (sin ajustar) R cuadradoOrdinary

  • — R cuadrado ajustado para el número de coeficientesAdjusted

  • — Relación de log-verosimilitudLLR

  • — DesviaciónDeviance

  • — Ajuste generalizado R cuadradoAdjGeneralized

El valor R cuadrado es la proporción de la suma total de los cuadrados explicados por el modelo. El valor R cuadrado ordinario se relaciona con las propiedades y:SSRSST

.Rsquared = SSR/SST = 1 - SSE/SST

Para obtener cualquiera de estos valores como un escalar, índice en la propiedad mediante la notación de puntos. Por ejemplo, el valor R cuadrado ajustado en esmdl

r2 = mdl.Rsquared.Adjusted

Tipos de datos: struct

Esta propiedad es de solo lectura.

Suma de errores cuadrados (residuales), especificado como un valor numérico.

El teorema de Pitágoras implica

SST = SSE + SSR,

donde está la suma total de los cuadrados, es la suma de los errores cuadrados, y es la suma de la regresión de los cuadrados.SSTSSESSR

Tipos de datos: single | double

Esta propiedad es de solo lectura.

Suma de los cuadrados de regresión, especificado como un valor numérico. La suma de los cuadrados de la regresión es igual a la suma de las desviaciones cuadradas de los valores ajustados de su media.

El teorema de Pitágoras implica

SST = SSE + SSR,

donde está la suma total de los cuadrados, es la suma de los errores cuadrados, y es la suma de la regresión de los cuadrados.SSTSSESSR

Tipos de datos: single | double

Esta propiedad es de solo lectura.

Suma total de cuadrados, especificado como un valor numérico. La suma total de los cuadrados es igual a la suma de las desviaciones cuadradas del vector de respuesta de la.ymean(y)

El teorema de Pitágoras implica

SST = SSE + SSR,

donde está la suma total de los cuadrados, es la suma de los errores cuadrados, y es la suma de la regresión de los cuadrados.SSTSSESSR

Tipos de datos: single | double

Esta propiedad es de solo lectura.

Información sobre las variables contenidas en, especificadas como una tabla con una fila para cada variable y las columnas descritas en esta tabla.Variables

ColumnaDescripción
ClassClase de variable, especificada como una matriz de celdas de vectores de caracteres, como y'double''categorical'
Range

Rango variable, especificado como una matriz de vectores de celdas

  • Variable continua: Vector de dos elementos [min,max], los valores mínimo y máximo

  • Variable categórica: Vector de valores de variable distintos

InModelIndicador de qué variables se encuentran en el modelo ajustado, especificado como vector lógico. El valor es si el modelo incluye la variable.true
IsCategoricalIndicador de variables categóricas, especificado como vector lógico. El valor es si la variable es categórica.true

también incluye cualquier variable que no se utilice para ajustar el modelo como predictores o como la respuesta.VariableInfo

Tipos de datos: table

Esta propiedad es de solo lectura.

Nombres de variables, especificadas como una matriz de vectores de caracteres de celda.

  • Si el ajuste se basa en una tabla o un conjunto de datos, esta propiedad proporciona los nombres de las variables de la tabla o DataSet.

  • Si el ajuste se basa en una matriz predictora y un vector de respuesta, contiene los valores especificados por el argumento de par nombre-valor del método de empalme.VariableNames'VarNames' El valor predeterminado es.'VarNames'{'x1','x2',...,'xn','y'}

también incluye cualquier variable que no se utilice para ajustar el modelo como predictores o como la respuesta.VariableNames

Tipos de datos: cell

Métodos

coefCILos intervalos de confianza de las estimaciones de coeficiente del modelo lineal generalizado
coefTestPrueba de hipótesis lineal sobre coeficientes del modelo de regresión lineal generalizada
devianceTestAnálisis de desviación
dispMostrar modelo de regresión lineal generalizada
fevalEvalúe la predicción del modelo de regresión lineal generalizada
plotSliceParcela de rodajas mediante superficie de regresión lineal generalizada ajustada
predictPredecir la respuesta del modelo de regresión lineal generalizada
randomSimular respuestas para el modelo de regresión lineal generalizada

Semántica de copia

Valor. Para saber cómo afectan las clases de valor a las operaciones de copia, consulte.Copiar objetos (MATLAB)

Ejemplos

contraer todo

Reduzca el tamaño de un modelo de regresión lineal generalizada completo y ajustado descartando los datos de muestra y cierta información relacionada con el proceso de adaptación.

Cargue los datos en el espacio de trabajo. Los datos de muestra simulados contienen 15.000 observaciones y 45 variables predictoras.

load(fullfile(matlabroot,'examples','stats','largedata4reg.mat'))

Ajuste un modelo de regresión lineal generalizado a los datos utilizando las primeras 15 variables predictoras.

mdl = fitglm(X(:,1:15),Y)
mdl =  Generalized linear regression model:     y ~ [Linear formula with 16 terms in 15 predictors]     Distribution = Normal  Estimated Coefficients:                     Estimate          SE         tStat       pValue                       ___________    __________    _______    ___________      (Intercept)         3.2903    0.00010447      31497              0     x1              -0.0006461    4.9991e-08     -12924              0     x2             -0.00024739    8.6874e-08    -2847.7              0     x3             -9.5161e-05    1.1138e-07    -854.38              0     x4              0.00013143     1.551e-07     847.35              0     x5               7.163e-05    1.9793e-07      361.9              0     x6              4.5064e-06    2.2247e-07     20.257     4.9539e-90     x7             -2.6258e-05    2.5462e-07    -103.13              0     x8               6.284e-05    2.5633e-07     245.15              0     x9             -0.00014288     2.817e-07    -507.19              0     x10            -2.2642e-05    3.0963e-07    -73.127              0     x11            -6.0227e-05    3.1639e-07    -190.36              0     x12             1.1665e-05    3.3921e-07     34.388    1.6995e-249     x13             3.8595e-05    3.5601e-07     108.41              0     x14             0.00010021    4.0312e-07     248.57              0     x15            -6.5674e-06    4.1692e-07    -15.752      1.844e-55   15000 observations, 14984 error degrees of freedom Estimated Dispersion: 0.000164 F-statistic vs. constant model: 1.18e+07, p-value = 0 

Compacte el modelo. El modelo compacto descarta los datos de muestra originales y cierta información relacionada con el proceso de adaptación, por lo que utiliza menos memoria que el modelo completo.

compactMdl = compact(mdl)
compactMdl =  Compact generalized linear regression model:     y ~ [Linear formula with 16 terms in 15 predictors]     Distribution = Normal  Estimated Coefficients:                     Estimate          SE         tStat       pValue                       ___________    __________    _______    ___________      (Intercept)         3.2903    0.00010447      31497              0     x1              -0.0006461    4.9991e-08     -12924              0     x2             -0.00024739    8.6874e-08    -2847.7              0     x3             -9.5161e-05    1.1138e-07    -854.38              0     x4              0.00013143     1.551e-07     847.35              0     x5               7.163e-05    1.9793e-07      361.9              0     x6              4.5064e-06    2.2247e-07     20.257     4.9539e-90     x7             -2.6258e-05    2.5462e-07    -103.13              0     x8               6.284e-05    2.5633e-07     245.15              0     x9             -0.00014288     2.817e-07    -507.19              0     x10            -2.2642e-05    3.0963e-07    -73.127              0     x11            -6.0227e-05    3.1639e-07    -190.36              0     x12             1.1665e-05    3.3921e-07     34.388    1.6995e-249     x13             3.8595e-05    3.5601e-07     108.41              0     x14             0.00010021    4.0312e-07     248.57              0     x15            -6.5674e-06    4.1692e-07    -15.752      1.844e-55   15000 observations, 14984 error degrees of freedom Estimated Dispersion: 0.000164 F-statistic vs. constant model: 1.18e+07, p-value = 0 

Capacidades ampliadas

Introducido en R2016b