Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Pruebas de hipótesis

La prueba de hipótesis es un método común para extraer inferencias sobre una población basada en evidencia estadística de una muestra.

Como un ejemplo, supongamos que alguien dice que en un momento determinado en el estado de Massachusetts el precio promedio de un galón de gas sin plomo regular fue de $1,15. ¿Cómo pudiste determinar la verdad de la declaración? Usted podría tratar de encontrar los precios en cada gasolinera en el estado en el momento. Ese planteamiento sería definitivo, pero podría llevar mucho tiempo, ser costoso o incluso imposible.

Un enfoque más sencillo sería encontrar precios en un pequeño número de gasolineras seleccionadas aleatoriamente alrededor del estado y luego calcular el promedio de la muestra.

Los promedios de muestreo difieren entre sí debido a la variabilidad de probabilidades en el proceso de selección. Supongamos que el promedio de la muestra es $1,18. ¿Es la diferencia $0,03 un artefacto de muestreo aleatorio o evidencia significativa de que el precio promedio de un galón de gas fue de hecho mayor que $1,15? Las pruebas de hipótesis son un método estadístico para tomar tales decisiones.

Este ejemplo muestra cómo utilizar las pruebas de hipótesis para analizar los precios del gas medidos en el estado de Massachusetts durante dos meses separados.

Este ejemplo utiliza los datos del precio del gas en el archivo.gas.mat El archivo contiene dos muestras aleatorias de precios para un galón de gasolina alrededor del estado de Massachusetts en 1993. La primera muestra, contiene 20 observaciones aleatorias alrededor del estado en un solo día en enero.price1 El segundo ejemplo,, contiene 20 observaciones aleatorias alrededor del estado un mes más tarde.price2

load gas prices = [price1 price2];

Como primer paso, es posible que desee probar la suposición de que las muestras proceden de distribuciones normales. Una gráfica de probabilidad normal da una idea rápida.

normplot(prices)

Ambos dispersa aproximadamente siguen líneas rectas a través de los Cuarteros primero y tercero de las muestras, indicando distribuciones normales aproximadas. La muestra de febrero (la línea derecha) muestra un ligero alejamiento de la normalidad en la cola inferior. Un cambio en la media de enero a febrero es evidente. Una prueba de hipótesis se utiliza para cuantificar la prueba de normalidad. Dado que cada muestra es relativamente pequeña, se recomienda una prueba de Lilliefors.

lillietest(price1)
ans = 0 
lillietest(price2)
ans = 0 

El nivel de significancia predeterminado es 5%.lillietest La lógica 0 devuelta por cada prueba indica un error al rechazar la hipótesis nula de que los ejemplos se distribuyen normalmente. Este fracaso puede reflejar la normalidad en la población o puede reflejar una falta de evidencia fuerte contra la hipótesis nula debido al pequeño tamaño de la muestra.

Ahora calcule los medios de la muestra.

sample_means = mean(prices)
sample_means = 1×2

  115.1500  118.5000

Es posible que desee probar la hipótesis nula de que el precio medio en el estado el día de la muestra de enero fue de $1,15. Si usted sabe que la desviación estándar en los precios en todo el estado ha históricamente, y consistentemente, ha sido $0,04, entonces una prueba es apropiada.z

[h,pvalue,ci] = ztest(price1/100,1.15,0.04)
h = 0 
pvalue = 0.8668 
ci = 2×1

    1.1340
    1.1690

La salida lógica = 0 indica un error al rechazar la hipótesis nula en el nivel de significancia predeterminado del 5%.h Esto es una consecuencia de la alta probabilidad bajo la hipótesis nula, indicada por el valor, de observar un valor como extremo o más extremo de la-estadística calculada a partir del ejemplo.pz El intervalo de confianza de 95% en la media [1,1340 1,1690] incluye la media de la población hipotética de $1,15.

¿La muestra posterior ofrece pruebas más sólidas para rechazar una hipótesis nula de un precio promedio en todo el estado de $1,15 en febrero? El cambio mostrado en la gráfica de probabilidad y la diferencia en la muestra calculada significa sugerir esto. El cambio podría indicar una fluctuación significativa en el mercado, planteando preguntas sobre la validez del uso de la desviación estándar histórica. Si no se puede suponer una desviación estándar conocida, la prueba a es más adecuada.t

[h,pvalue,ci] = ttest(price2/100,1.15)
h = 1 
pvalue = 4.9517e-04 
ci = 2×1

    1.1675
    1.2025

La salida lógica = 1 indica un rechazo de la hipótesis nula en el nivel de significancia predeterminado del 5%.h En este caso, el intervalo de confianza de 95% en la media no incluye la media de la población hipotética de $1,15.

Es posible que desee investigar el cambio de precios un poco más de cerca. La función prueba si dos muestras independientes provienen de distribuciones normales con desviaciones estándar iguales pero desconocidas y la misma media, contra la alternativa de que los medios son desiguales.ttest2

[h,sig,ci] = ttest2(price1,price2)
h = 1 
sig = 0.0083 
ci = 2×1

   -5.7845
   -0.9155

La hipótesis nula se rechaza en el nivel de significancia predeterminado del 5%, y el intervalo de confianza en la diferencia de medias no incluye el valor hipotético de 0. Un diagrama de caja con muescas es otra forma de visualizar el cambio.

boxplot(prices,1) h = gca; h.XTick = [1 2]; h.XTickLabel = {'January','February'}; xlabel('Month') ylabel('Prices ($0.01)')

La trama muestra la distribución de las muestras alrededor de sus medianas. Las alturas de las muescas en cada cuadro se calculan de modo que las cajas de lado a lado tienen muescas no superpuestas cuando sus medianas son diferentes en un nivel de significancia predeterminado del 5%. El cálculo se basa en una suposición de normalidad en los datos, pero la comparación es razonablemente robusta para otras distribuciones. Las parcelas de lado a lado proporcionan una especie de prueba de hipótesis visual, comparando medianas en lugar de medios. La trama anterior parece apenas rechazar la hipótesis nula de las medianas iguales.

La prueba no paramétrica del rango de la suma de Wilcoxon, implementada por la función, se puede utilizar para cuantificar la prueba de las medianas iguales.ranksum Prueba si dos muestras independientes provienen de distribuciones continuas idénticas (no necesariamente normales) con medianas iguales, contra la alternativa de que no tienen medianas iguales.

[p,h] = ranksum(price1,price2)
p = 0.0095 
h = logical
   1

La prueba rechaza la hipótesis nula de las medianas iguales en el nivel de significancia predeterminado del 5%.

Consulte también

| | | | |

Temas relacionados