Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

F-estadística y t-estadística

F-estadística

Propósito

En la regresión lineal, la estadística F es la estadística de prueba para el enfoque de análisis de varianza (ANOVA) para probar la importancia del modelo o los componentes en el modelo.

Definición

La estadística F en la visualización de salida del modelo lineal es la estadística de prueba para probar la significancia estadística del modelo. Los valores estadísticos F en la pantalla son para evaluar la importancia de los términos o componentes en el modelo.anova

Cómo

Después de obtener un modelo ajustado, por ejemplo, , utilizando o , puede:mdlfitlmstepwiselm

  • Busque el en la pantalla de salida o utilizandoF-statistic vs. constant model

    disp(mdl)
  • Visualice el ANOVA para el modelo utilizando

    anova(mdl,'summary')
  • Obtenga los valores de estadística F para los componentes, excepto para el término constante mediante For details, consulte el método de la clase.

    anova(mdl)
    anovaLinearModel

Evaluar el ajuste del modelo utilizando la estadística F

Este ejemplo muestra cómo evaluar el ajuste del modelo y la importancia de los coeficientes de regresión utilizando la estadística F.

Cargue los datos de ejemplo.

load hospital tbl = table(hospital.Age,hospital.Weight,hospital.Smoker,hospital.BloodPressure(:,1), ...       'VariableNames',{'Age','Weight','Smoker','BloodPressure'}); tbl.Smoker = categorical(tbl.Smoker);

Ajuste un modelo de regresión lineal.

mdl = fitlm(tbl,'BloodPressure ~ Age*Weight + Smoker + Weight^2')
mdl =  Linear regression model:     BloodPressure ~ 1 + Smoker + Age*Weight + Weight^2  Estimated Coefficients:                     Estimate        SE         tStat        pValue                      __________    _________    ________    __________      (Intercept)        168.02       27.694       6.067    2.7149e-08     Age              0.079569      0.39861     0.19962       0.84221     Weight           -0.69041       0.3435     -2.0099      0.047305     Smoker_true        9.8027       1.0256      9.5584    1.5969e-15     Age:Weight     0.00021796    0.0025258    0.086294       0.93142     Weight^2        0.0021877    0.0011037      1.9822      0.050375   Number of observations: 100, Error degrees of freedom: 94 Root Mean Squared Error: 4.73 R-squared: 0.528,  Adjusted R-Squared: 0.503 F-statistic vs. constant model: 21, p-value = 4.81e-14 

La estadística F del ajuste lineal frente al modelo constante es 21, con un valor de 4.81e-14.p El modelo es significativo en el nivel de significancia del 5%. El valor R cuadrado de 0,528 significa que el modelo explica aproximadamente el 53% de la variabilidad en la respuesta. Puede haber otras variables predictoras (explicativas) que no se incluyen en el modelo actual.

Visualice la tabla ANOVA para el modelo ajustado.

anova(mdl,'summary')
ans=5×5 table
                   SumSq     DF    MeanSq      F         pValue  
                   ______    __    ______    ______    __________

    Total          4461.2    99    45.062                        
    Model          2354.5     5     470.9    21.012    4.8099e-14
    . Linear       2263.3     3    754.42    33.663    7.2417e-15
    . Nonlinear    91.248     2    45.624    2.0358        0.1363
    Residual       2106.6    94    22.411                        

Esta visualización separa la variabilidad del modelo en términos lineales y no lineales. Puesto que hay dos términos no lineales ( y la interacción entre y ), los grados no lineales de libertad en la columna es 2.Weight^2WeightAgeDF Hay tres términos lineales en el modelo (una variable de indicador, , y ).SmokerWeightAge Las estadísticas F correspondientes en la columna son para probar la importancia de los términos lineales y no lineales como grupos separados.F

Cuando hay observaciones replicadas, el término residual también se separa en dos partes; el primero es el error debido a la falta de ajuste, y el segundo es el error puro independiente del modelo, obtenido de las observaciones replicadas. En ese caso, la estadística F es para probar la falta de ajuste, es decir, si el ajuste es adecuado o no. Pero, en este ejemplo, no hay observaciones replicadas.

Visualice la tabla ANOVA para los términos del modelo.

anova(mdl)
ans=6×5 table
                   SumSq      DF     MeanSq         F          pValue  
                  ________    __    ________    _________    __________

    Age             62.991     1      62.991       2.8107      0.096959
    Weight        0.064104     1    0.064104    0.0028604       0.95746
    Smoker          2047.5     1      2047.5       91.363    1.5969e-15
    Age:Weight     0.16689     1     0.16689    0.0074466       0.93142
    Weight^2        88.057     1      88.057       3.9292      0.050375
    Error           2106.6    94      22.411                           

Esta pantalla descompone la tabla ANOVA en los términos del modelo. Las estadísticas F correspondientes de la columna evalúan la significancia estadística de cada término.F Por ejemplo, la prueba F para las pruebas si el coeficiente de la variable de indicador para es diferente de cero.SmokerSmoker Es decir, la prueba F determina si ser fumador tiene un efecto significativo en .BloodPressure Los grados de libertad para cada término del modelo son los grados de libertad del numerador para la prueba F correspondiente. Todos los términos tienen un grado de libertad. En el caso de una variable categórica, los grados de libertad es el número de variables indicadoras. tiene sólo una variable indicadora, por lo que también tiene un grado de libertad.Smoker

t-estadística

Propósito

En la regresión lineal, la estadística -es útil para realizar inferencias sobre los coeficientes de regresión.t La prueba de hipótesis en las pruebas de coeficiente según la hipótesis de que es igual a cero, lo que significa que el término correspondiente no es significativo, frente a la hipótesis alternativa de que el coeficiente es diferente de cero.i

Definición

Para una prueba de hipótesis en el coeficiente, coni

H0 : βi 0

H1 : βi 0,

la estadística es:t

t=biSE(bi),

donde (SEbi) es el error estándar del coeficiente estimadobi.

Cómo

Después de obtener un modelo ajustado, por ejemplo, , utilizando o , puede:mdlfitlmstepwiselm

  • Encuentre las estimaciones del coeficiente, los errores estándar de las estimaciones ( ) y los valores estadísticos de las pruebas de hipótesis para los coeficientes correspondientes ( ) en la visualización de salida.SEttStat

  • Llame para la pantalla usando

    display(mdl)

Evaluar la importancia de los coeficientes de regresión utilizando la estadística t

Este ejemplo muestra cómo probar la importancia de los coeficientes de regresión usando la estadística t.

Cargue los datos de muestra y ajuste el modelo de regresión lineal.

load hald mdl = fitlm(ingredients,heat)
mdl =  Linear regression model:     y ~ 1 + x1 + x2 + x3 + x4  Estimated Coefficients:                    Estimate      SE        tStat       pValue                     ________    _______    ________    ________      (Intercept)      62.405     70.071      0.8906     0.39913     x1               1.5511    0.74477      2.0827    0.070822     x2              0.51017    0.72379     0.70486      0.5009     x3              0.10191    0.75471     0.13503     0.89592     x4             -0.14406    0.70905    -0.20317     0.84407   Number of observations: 13, Error degrees of freedom: 8 Root Mean Squared Error: 2.45 R-squared: 0.982,  Adjusted R-Squared: 0.974 F-statistic vs. constant model: 111, p-value = 4.76e-07 

Puede ver que para cada coeficiente, .tStat = Estimate/SE el

<math display="block">
<mrow>
<mi>p</mi>
</mrow>
</math>
-values para las pruebas de hipótesis están en la columna.pValue Cada
<math display="block">
<mrow>
<mi>t</mi>
</mrow>
</math>
-pruebas estadísticas para la importancia de cada término dados otros términos en el modelo. Según estos resultados, ninguno de los coeficientes parece significativo en el nivel de significancia del 5%, aunque el valor R cuadrado para el modelo es realmente alto en 0.97. Esto a menudo indica una posible multicolinealidad entre las variables predictoras.

Utilice la regresión escalonada para decidir qué variables incluir en el modelo.

load hald mdl = stepwiselm(ingredients,heat)
1. Adding x4, FStat = 22.7985, pValue = 0.000576232 2. Adding x1, FStat = 108.2239, pValue = 1.105281e-06 
mdl =  Linear regression model:     y ~ 1 + x1 + x4  Estimated Coefficients:                    Estimate       SE        tStat       pValue                      ________    ________    _______    __________      (Intercept)       103.1       2.124      48.54    3.3243e-13     x1                 1.44     0.13842     10.403    1.1053e-06     x4             -0.61395    0.048645    -12.621    1.8149e-07   Number of observations: 13, Error degrees of freedom: 10 Root Mean Squared Error: 2.73 R-squared: 0.972,  Adjusted R-Squared: 0.967 F-statistic vs. constant model: 177, p-value = 1.58e-08 

En este ejemplo, comienza con el modelo constante (predeterminado) y utiliza la selección directa para agregar y .stepwiselmx4x1 Cada variable predictora en el modelo final es significativa dado que la otra está en el modelo. El algoritmo se detiene al agregar ninguna de las otras variables predictoras mejora significativamente en el modelo. Para obtener más información sobre la regresión escalonada, consulte .stepwiselm

Consulte también

| | | | |

Temas relacionados