Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

La estadística F y la estadística t

Estadística F

Propósito

En la regresión lineal, la estadística F es la estadística de prueba para el enfoque de análisis de varianza (ANOVA) para probar la significancia del modelo o los componentes en el modelo.

Definición

La estadística F en la visualización de salida del modelo lineal es la estadística de prueba para probar la significancia estadística del modelo. Los valores de la estadística F en la visualización son para evaluar la importancia de los términos o componentes en el modelo.anova

Cómo

Después de obtener un modelo ajustado, digamos, usando o, usted puede:mdlfitlmstepwiselm

  • Busque el en la pantalla de salida o medianteF-statistic vs. constant model

    disp(mdl)
  • Visualice el ANOVA para el modelo mediante

    anova(mdl,'summary')
  • Obtenga los valores de la estadística F para los componentes, excepto para el término constante usando for details, vea el método de la clase.

    anova(mdl)
    anovaLinearModel

Evaluar ajuste de modelo mediante estadística F

En este ejemplo se muestra cómo evaluar el ajuste del modelo y la importancia de los coeficientes de regresión mediante la estadística F.

Cargue los datos de ejemplo.

load hospital tbl = table(hospital.Age,hospital.Weight,hospital.Smoker,hospital.BloodPressure(:,1), ...       'VariableNames',{'Age','Weight','Smoker','BloodPressure'}); tbl.Smoker = categorical(tbl.Smoker);

Ajuste un modelo de regresión lineal.

mdl = fitlm(tbl,'BloodPressure ~ Age*Weight + Smoker + Weight^2')
mdl =  Linear regression model:     BloodPressure ~ 1 + Smoker + Age*Weight + Weight^2  Estimated Coefficients:                     Estimate        SE         tStat        pValue                      __________    _________    ________    __________      (Intercept)        168.02       27.694       6.067    2.7149e-08     Age              0.079569      0.39861     0.19962       0.84221     Weight           -0.69041       0.3435     -2.0099      0.047305     Smoker_true        9.8027       1.0256      9.5584    1.5969e-15     Age:Weight     0.00021796    0.0025258    0.086294       0.93142     Weight^2        0.0021877    0.0011037      1.9822      0.050375   Number of observations: 100, Error degrees of freedom: 94 Root Mean Squared Error: 4.73 R-squared: 0.528,  Adjusted R-Squared: 0.503 F-statistic vs. constant model: 21, p-value = 4.81e-14 

La estadística F del ajuste lineal frente al modelo constante es 21, con un valor de 4.81 e-14.p El modelo es significativo en el nivel de significancia del 5%. El valor R cuadrado de 0,528 significa que el modelo explica aproximadamente el 53% de la variabilidad en la respuesta. Puede haber otras variables predictoras (explicativas) que no están incluidas en el modelo actual.

Visualice la tabla ANOVA para el modelo ajustado.

anova(mdl,'summary')
ans=5×5 table
                   SumSq     DF    MeanSq      F         pValue  
                   ______    __    ______    ______    __________

    Total          4461.2    99    45.062                        
    Model          2354.5     5     470.9    21.012    4.8099e-14
    . Linear       2263.3     3    754.42    33.663    7.2417e-15
    . Nonlinear    91.248     2    45.624    2.0358        0.1363
    Residual       2106.6    94    22.411                        

Esta pantalla separa la variabilidad del modelo en términos lineales y no lineales. Dado que hay dos términos no lineales (y la interacción entre y), los grados de libertad no lineales en la columna son 2.Weight^2WeightAgeDF Hay tres términos lineales en el modelo (una variable indicadora, y).SmokerWeightAge Las estadísticas F correspondientes en la columna son para probar la significancia de los términos lineales y no lineales como grupos separados.F

Cuando hay observaciones replicadas, el término residual también se separa en dos partes; primero es el error debido a la falta de ajuste, y segundo es el error puro independiente del modelo, Obtenido de las observaciones replicadas. En ese caso, la estadística F es para probar la falta de ajuste, es decir, si el ajuste es adecuado o no. Pero, en este ejemplo, no hay observaciones replicadas.

Visualice la tabla ANOVA para los términos del modelo.

anova(mdl)
ans=6×5 table
                   SumSq      DF     MeanSq         F          pValue  
                  ________    __    ________    _________    __________

    Age             62.991     1      62.991       2.8107      0.096959
    Weight        0.064104     1    0.064104    0.0028604       0.95746
    Smoker          2047.5     1      2047.5       91.363    1.5969e-15
    Age:Weight     0.16689     1     0.16689    0.0074466       0.93142
    Weight^2        88.057     1      88.057       3.9292      0.050375
    Error           2106.6    94      22.411                           

Esta pantalla descompone la tabla ANOVA en los términos del modelo. Las correspondientes estadísticas F en la columna evalúan la significación estadística de cada término.F Por ejemplo, la prueba F para comprobar si el coeficiente de la variable indicadora es diferente de cero.SmokerSmoker Es decir, la prueba F determina si ser fumador tiene un efecto significativo.BloodPressure Los grados de libertad para cada término de modelo son los grados de libertad del numerador para la prueba F correspondiente. Todos los términos tienen un grado de libertad. En el caso de una variable categórica, los grados de libertad son el número de variables indicadoras. sólo tiene una variable indicadora, por lo que también tiene un grado de libertad.Smoker

estadística t

Propósito

En la regresión lineal, la-estadística es útil para hacer inferencias sobre los coeficientes de regresión.t La prueba de hipótesis sobre el coeficiente comprueba la hipótesis nula de que es igual a cero – lo que significa que el término correspondiente no es significativo – frente a la hipótesis alternativa de que el coeficiente es diferente de cero.i

Definición

Para un test de hipótesis sobre el coeficiente, coni

H0 : βi = 0

H1 :βi ≠ 0,

la-estadística es:t

t=biSE(bi),

dondeSEbi) es el error estándar del coeficiente Estimadobi.

Cómo

Después de obtener un modelo ajustado, digamos, usando o, usted puede:mdlfitlmstepwiselm

  • Busque las estimaciones de coeficiente, los errores estándar de las estimaciones () y los valores estadísticos de las pruebas de hipótesis para los coeficientes correspondientes () en la visualización de salida.SEttStat

  • Llame para la exhibición usando

    display(mdl)

Evalúe la significancia de los coeficientes de regresión utilizando la estadística t

Este ejemplo muestra cómo probar la significancia de los coeficientes de regresión usando la estadística t.

Cargue los datos de muestra y ajuste el modelo de regresión lineal.

load hald mdl = fitlm(ingredients,heat)
mdl =  Linear regression model:     y ~ 1 + x1 + x2 + x3 + x4  Estimated Coefficients:                    Estimate      SE        tStat       pValue                     ________    _______    ________    ________      (Intercept)      62.405     70.071      0.8906     0.39913     x1               1.5511    0.74477      2.0827    0.070822     x2              0.51017    0.72379     0.70486      0.5009     x3              0.10191    0.75471     0.13503     0.89592     x4             -0.14406    0.70905    -0.20317     0.84407   Number of observations: 13, Error degrees of freedom: 8 Root Mean Squared Error: 2.45 R-squared: 0.982,  Adjusted R-Squared: 0.974 F-statistic vs. constant model: 111, p-value = 4.76e-07 

Se puede ver que para cada coeficiente,.tStat = Estimate/SE el

<math display="block">
<mrow>
<mi>p</mi>
</mrow>
</math>
-los valores para las pruebas de hipótesis están en la columna.pValue Cada
<math display="block">
<mrow>
<mi>t</mi>
</mrow>
</math>
-pruebas estadísticas para la importancia de cada término dado otros términos en el modelo. De acuerdo con estos resultados, ninguno de los coeficientes parece significativo en el nivel de significancia del 5%, aunque el valor R cuadrado para el modelo es realmente alto en 0,97. Esto a menudo indica una posible multicolinealidad entre las variables predictoras.

Utilice la regresión escalonada para decidir qué variables incluir en el modelo.

load hald mdl = stepwiselm(ingredients,heat)
1. Adding x4, FStat = 22.7985, pValue = 0.000576232 2. Adding x1, FStat = 108.2239, pValue = 1.105281e-06 
mdl =  Linear regression model:     y ~ 1 + x1 + x4  Estimated Coefficients:                    Estimate       SE        tStat       pValue                      ________    ________    _______    __________      (Intercept)       103.1       2.124      48.54    3.3243e-13     x1                 1.44     0.13842     10.403    1.1053e-06     x4             -0.61395    0.048645    -12.621    1.8149e-07   Number of observations: 13, Error degrees of freedom: 10 Root Mean Squared Error: 2.73 R-squared: 0.972,  Adjusted R-Squared: 0.967 F-statistic vs. constant model: 177, p-value = 1.58e-08 

En este ejemplo, comienza con el modelo constante (predeterminado) y utiliza la selección hacia adelante para agregar incrementalmente y.stepwiselmx4x1 Cada variable predictora en el modelo final es significativa dado que la otra está en el modelo. El algoritmo se detiene al agregar ninguna de las otras variables predictoras mejora significativamente en el modelo. Para obtener más información sobre la regresión escalonada, consulte.stepwiselm

Consulte también

| | | | |

Temas relacionados