kstest

h = kstest(x) devuelve una decisión de prueba para la hipótesis nula de que los datos del vector x proceden de una distribución normal estándar, frente a la alternativa de que no procede de tal distribución, usando la prueba de Kolmogorov-Smirnov de una muestra. El resultado h es 1 si la prueba rechaza la hipótesis nula al nivel de significación del 5%, o 0 en el caso contrario.

h = kstest(x,Name,Value) devuelve una decisión de prueba para la prueba de Kolmogorov-Smirnov de una muestra con más opciones especificadas por uno o más argumentos de par nombre-valor. Por ejemplo, puede probar una distribución que no sea la normal estándar, cambiar el nivel de significación o realizar una prueba unilateral.

[h,p] = kstest(___) también devuelve el valor p, p, de la prueba de hipótesis, usando cualquiera de los argumentos de entrada de las sintaxis anteriores.

[h,p,ksstat,cv] = kstest(___) también devuelve el valor de las estadísticas de la prueba ksstat y el valor crítico aproximado cv de la prueba.

Ejemplos

Prueba de la distribución normal estándar

Realice la prueba de Kolmogorov-Smirnov de una muestra mediante kstest. Confirme la decisión de la prueba comparando visualmente la función de distribución acumulativa (cdf) empírica con la cdf normal estándar.

Cargue el conjunto de datos examgrades. Cree un vector que contenga la primera columna de los datos de notas de exámenes.

load examgrades
test1 = grades(:,1);

Pruebe la hipótesis nula de que los datos provienen de una distribución normal con una media de 75 y una desviación estándar de 10. Utilice estos parámetros para centrar y ampliar cada elemento del vector de datos, ya que kstest comprueba una distribución normal estándar de manera predeterminada.

x = (test1-75)/10;
h = kstest(x)

h = logical
   0

El valor devuelto de h = 0 indica que kstest no rechaza la hipótesis nula al nivel de significación predeterminado del 5%.

Represente la cdf empírica y la cdf normal estándar para compararlas visualmente.

cdfplot(x)
hold on
x_values = linspace(min(x),max(x));
plot(x_values,normcdf(x_values,0,1),'r-')
legend('Empirical CDF','Standard Normal CDF','Location','best')

Figure contains an axes object. The axes object with title Empirical CDF, xlabel x, ylabel F(x) contains 2 objects of type line. These objects represent Empirical CDF, Standard Normal CDF.

La figura muestra la similitud entre la cdf empírica del vector de datos centrado y ampliado y la cdf de la distribución normal estándar.

Especificar la distribución hipotética utilizando una matriz de dos columnas

Cargue los datos de muestra. Cree un vector que contenga la primera columna de los datos de las notas de los alumnos en un examen.

load examgrades;
x = grades(:,1);

Especifique la distribución hipotética como una matriz de dos columnas. La columna 1 contiene el vector de datos x. La columna 2 contiene los valores de la cdf evaluados en cada valor de x para una distribución hipotética de Student $t$ con un parámetro de ubicación de 75, un parámetro de escala de 10 y un grado de libertad.

test_cdf = [x,cdf('tlocationscale',x,75,10,1)];

Pruebe si los datos proceden de la distribución hipotética.

h = kstest(x,'CDF',test_cdf)

h = logical
   1

El valor devuelto de h = 1 indica que kstest rechaza la hipótesis nula al nivel de significación predeterminado del 5%.

Especificar la distribución hipotética utilizando un objeto de distribución de probabilidad

Cargue los datos de muestra. Cree un vector que contenga la primera columna de los datos de las notas de los alumnos en un examen.

load examgrades;
x = grades(:,1);

Cree un objeto de distribución de probabilidad para probar si los datos proceden de una distribución de Student $t$ con un parámetro de ubicación de 75, un parámetro de escala de 10 y un grado de libertad.

test_cdf = makedist('tlocationscale','mu',75,'sigma',10,'nu',1);

Pruebe la hipótesis nula de que los datos proceden de la distribución hipotética.

h = kstest(x,'CDF',test_cdf)

h = logical
   1

El valor devuelto de h = 1 indica que kstest rechaza la hipótesis nula al nivel de significación predeterminado del 5%.

Probar la hipótesis con distintos niveles de significación

Cargue los datos de muestra. Cree un vector que contenga la primera columna con las notas de los alumnos en un examen.

load examgrades;
x = grades(:,1);

test_cdf = makedist('tlocationscale','mu',75,'sigma',10,'nu',1);

Pruebe la hipótesis nula de que los datos proceden de la distribución hipotética a un nivel de significación del 1%.

[h,p] = kstest(x,'CDF',test_cdf,'Alpha',0.01)

h = logical
   1

p = 0.0021

El valor devuelto de h = 1 indica que kstest rechaza la hipótesis nula al nivel de significación del 1%.

Realizar una prueba de hipótesis unilateral

Cargue los datos de muestra. Cree un vector que contenga la tercera columna de la matriz de datos sobre rentabilidad de acciones.

load stockreturns;
x = stocks(:,3);

Pruebe la hipótesis nula de que los datos proceden de una distribución normal estándar, frente a la hipótesis alternativa de que la cdf de la población de los datos es mayor que la cdf normal estándar.

[h,p,k,c] = kstest(x,'Tail','larger')

h = logical
   1

p = 5.0854e-05

k = 0.2197

c = 0.1207

El valor devuelto de h = 1 indica que kstest rechaza la hipótesis nula a favor de la hipótesis alternativa en el nivel de significación predeterminado del 5%.

Represente la cdf empírica y la cdf normal estándar para compararlas visualmente.

[f,x_values] = ecdf(x);
J = plot(x_values,f);
hold on;
K = plot(x_values,normcdf(x_values),'r--');
set(J,'LineWidth',2);
set(K,'LineWidth',2);
legend([J K],'Empirical CDF','Standard Normal CDF','Location','SE');

Figure contains an axes object. The axes object contains 2 objects of type line. These objects represent Empirical CDF, Standard Normal CDF.

En la gráfica se muestra la diferencia entre la cdf empírica del vector de datos x y la cdf de la distribución normal estándar.

Argumentos de entrada

`x` — Datos de muestra
vector

Los datos de muestra, especificados como un vector.

Tipos de datos: single | double

Argumentos de par nombre-valor

Especifique pares de argumentos opcionales Name1=Value1,...,NameN=ValueN, donde Name es el nombre del argumento y Value es el valor correspondiente. Los argumentos nombre-valor deben aparecer después de otros argumentos, pero el orden de los pares no importa.

En versiones anteriores a R2021a, use comas para separar cada nombre y valor y encierre Name entre comillas.

Ejemplo: 'Tail','larger','Alpha',0.01 especifica una prueba utilizando la hipótesis alternativa de que la cdf de la población de la cual se extraen los datos de la muestra es mayor que la cdf de la distribución hipotética, realizada al nivel de significancia del 1%.

`Alpha` — Nivel de significación
`0.05` (predeterminado) | valor de escalar en el rango (0,1)

Nivel de significación de la prueba de hipótesis, especificado como el par separado por comas que consta de 'Alpha' y un valor de escalar en el rango (0,1).

Ejemplo: 'Alpha',0.01

Tipos de datos: single | double

`CDF` — cdf de distribuciones continuas hipotéticas
matriz | objeto de distribución de probabilidad

cdf de la distribución continua hipotética, especificada por el par separado por comas que consta de 'CDF' y una matriz de dos columnas o un objeto de distribución de probabilidad continua. Cuando CDF es una matriz, la columna 1 contiene un conjunto de posibles valores x y la columna 2 contiene los valores de función de distribución acumulativa hipotéticos G(x) correspondientes. El cálculo es más eficiente si CDF se especifica de manera que la columna 1 contenga los valores del vector de datos x. Si hay valores en x que no se encuentran en la columna 1 de CDF, kstest se aproxima a G(x) mediante interpolación. Todos los valores en x deben estar dentro del intervalo entre el valor más pequeño y el valor más grande en la primera columna de CDF. De forma predeterminada, kstest realiza pruebas de una distribución normal estándar.

La prueba de Kolmogorov-Smirnov de una muestra solo es válida para funciones de distribución acumulativa continua y requiere que se predetermine CDF. El resultado no es preciso si CDF se estima a partir de los datos. Para probar x frente a una distribución normal, lognormal, de valores extremos, Weibull o exponencial sin especificar parámetros de distribución, utilice lillietest en su lugar.

Tipos de datos: single | double

`Tail` — Tipo de hipótesis alternativa
`'unequal'` (predeterminado) | `'larger'` | `'smaller'`

Tipo de hipótesis alternativa que se desea evaluar, especificada como el par separado por comas que consta de 'Tail' y uno de los siguientes:

`'unequal'`	Pruebe que la hipótesis alternativa de que la cdf de la población de la cual se extrae `x` no es igual a la cdf de la distribución hipotética.
`'larger'`	Pruebe que la hipótesis alternativa de que la cdf de la población de la cual se extrae `x` es mayor que la cdf de la distribución hipotética.
`'smaller'`	Pruebe que la hipótesis alternativa de que la cdf de la población de la cual se extrae `x` es menor que la cdf de la distribución hipotética.

Si los valores en el vector de datos x tienden a ser más grandes de lo esperado de la distribución hipotética, la función de distribución empírica de x tiende a ser más pequeña, y viceversa.

Ejemplo: 'Tail','larger'

Argumentos de salida

`h` — Resultado de la prueba de hipótesis
`1` | `0`

Resultado de la prueba de hipótesis, devuelto como un valor lógico.

Si h= 1, esto indica el rechazo de la hipótesis nula al nivel de significación Alpha.
Si h= 0, esto indica un error al rechazar la hipótesis nula al nivel de significación Alpha.

`p` — Valor p
valor de escalar en el rango [0,1]

Valor p de la prueba, devuelto como un valor de escalar en el rango [0,1]. p es la probabilidad de observar una estadística de prueba tan extrema o más que el valor observado bajo la hipótesis nula. Los valores pequeños de p ponen en duda la validez de la hipótesis nula.

`ksstat` — Estadística de prueba
valor de escalar no negativo

Estadística de la prueba de hipótesis, devuelta como un valor de escalar no negativo.

`cv` — Valor crítico
valor de escalar no negativo

Valor crítico, devuelto como un valor de escalar no negativo.

Más acerca de