Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Análisis exploratorio de datos

En este ejemplo se muestra cómo explorar la distribución de datos mediante estadísticas descriptivas.

Genere datos de ejemplo.

Genere un vector que contenga datos de muestra generados aleatoriamente.

rng default  % For reproducibility x = [normrnd(4,1,1,100),normrnd(6,0.5,1,200)];

Trace un histograma.

Trace un histograma de los datos de muestra con un ajuste de densidad normal. Esto proporciona una comparación visual de los datos de ejemplo y una distribución normal ajustada a los datos.

histfit(x)

La distribución de los datos parece quedar sesgada. Una distribución normal no parece una buena opción para estos datos de muestra.

Obtenga una gráfica de probabilidad normal.

Obtenga una gráfica de probabilidad normal. Esta gráfica proporciona otra forma de comparar visualmente los datos de ejemplo con una distribución normal ajustada a los datos.

probplot('normal',x)

La gráfica de probabilidad también muestra la desviación de los datos de la normalidad.

Calcule los cuantiles.

Calcule los cuantiles de los datos de ejemplo.

p = 0:0.25:1; y = quantile(x,p); z = [p;y]
z = 2×5

         0    0.2500    0.5000    0.7500    1.0000
    1.0557    4.7375    5.6872    6.1526    7.5784

Cree un diagrama de caja para visualizar las estadísticas.

boxplot(x)

El diagrama de caja muestra los cuantiles 0,25, 0,5 y 0,75. La larga cola inferior y los signos más muestran la falta de simetría en los valores de los datos de muestra.

Calcular estadísticas descriptivas.

Calcule la media y la mediana de los datos.

y = [mean(x),median(x)]
y = 1×2

    5.3438    5.6872

Los valores medio y mediano parecen estar cerca unos de otros, pero una media menor que la mediana suele indicar que los datos se dejan sesgados.

Calcule la asimetría y la curtosis de los datos.

y = [skewness(x),kurtosis(x)]
y = 1×2

   -1.0417    3.5895

Un valor de asimetría negativo significa que los datos se dejan sesgados. Los datos tienen una mayor miopía que una distribución normal porque el valor de curtosis es mayor que 3.

Calcular puntuaciones z.

Identifique posibles valores atípicos calculando las puntuaciones z y encontrando los que son mayores que 3 o menores que-3.

Z = zscore(x); find(abs(Z)>3);

Según las puntuaciones z, las observaciones 3 y 35 podrían ser valores atípicos.

Consulte también

| | | | | | |

Temas relacionados