Main Content

Correlación lineal

Introducción

La correlación cuantifica la fuerza de una relación lineal entre dos variables. Cuando no hay correlación entre dos variables, no hay tendencia para que los valores de las variables aumenten o disminuyan al unísono. Sin embargo, dos variables que no están correlacionadas no son necesariamente independientes, porque pueden tener una relación no lineal.

Puede usar la correlación lineal para investigar si existe una relación lineal entre las variables sin tener que asumir o ajustar un modelo específico a sus datos. Dos variables que tienen una correlación lineal pequeña o inexistente pueden tener una relación no lineal fuerte. Sin embargo, calcular la correlación lineal antes de ajustar un modelo es una forma útil de identificar variables que tienen una relación simple. Otra forma de explorar cómo se relacionan las variables es crear gráficas de dispersión de los datos.

La covarianza cuantifica la fuerza de una relación lineal entre dos variables en unidades relacionadas con sus varianzas. Las correlaciones son covarianzas estandarizadas, lo que proporciona una cantidad sin dimensiones que mide el grado de una relación lineal, separada de la escala de cualquiera de las variables.

Las siguientes funciones de MATLAB® calculan coeficientes de correlación y covarianzas de muestra. Estos coeficientes de muestra son estimaciones de los verdaderos coeficientes de correlación y la covarianza de la población de la que se extrae la muestra de datos.

Función

Descripción

corrcoef

Matriz de coeficientes de correlación

cov

Matriz de covarianzas

xcorr

Secuencia de correlación cruzada de un proceso aleatorio (incluye autocorrelación)

Covarianza

Utilice la función cov de MATLAB para calcular la matriz de covarianzas de muestra para una matriz de datos (en la que cada columna representa una cantidad separada).

La matriz de covarianzas de muestra tiene las siguientes propiedades:

  • cov(X) es simétrica.

  • diag(cov(X)) es un vector de varianzas para cada columna de datos. Las varianzas representan una medida de la difusión o dispersión de los datos en la columna correspondiente. (La función var calcula la varianza).

  • sqrt(diag(cov(X))) es un vector de desviaciones estándar. (La función std calcula la desviación estándar).

  • Los elementos fuera de la diagonal de la matriz de covarianzas representan las covarianzas entre las columnas de datos individuales.

Aquí, X puede ser un vector o una matriz. Para una matriz m por n, la matriz de covarianzas es n por n.

Para obtener un ejemplo de cálculo de la covarianza, cargue los datos de la muestra en count.dat que contenga una matriz de 24 por 3:

load count.dat

Calcule la matriz de covarianzas de estos datos:

cov(count)

MATLAB responde con el siguiente resultado:

ans =
    1.0e+003 *
       0.6437  0.9802  1.6567
       0.9802  1.7144  2.6908
       1.6567  2.6908  4.6278

La matriz de covarianzas de estos datos tiene la siguiente forma:

[s211s212s213s221s222s223s231s232s233]s2ij=s2ji

Aquí, s2ij es la covarianza de muestra entre la columna i y la columna j de los datos. Dado que la matriz count contiene tres columnas, la matriz de covarianzas es de 3 por 3.

Nota

En el caso especial de que un vector sea el argumento de cov, la función devuelve la varianza.

Coeficientes de correlación

La función corrcoef crea una matriz de coeficientes de correlación de muestra para una matriz de datos (donde cada columna representa una cantidad independiente). Los coeficientes de correlación oscilan entre -1 y 1, donde

  • Los valores cercanos a 1 indican que hay una relación lineal positiva entre las columnas de datos.

  • Los valores cercanos a -1 indican que una columna de datos tiene una relación lineal negativa con otra columna de datos (anticorrelación).

  • Los valores cercanos o iguales a 0 sugieren que no hay ninguna relación lineal entre las columnas de datos.

Para una matriz m por n, la matriz de coeficientes de correlación es n por n. La disposición de los elementos en la matriz de coeficientes de correlación se corresponde con la ubicación de los elementos en la matriz de covarianzas, como se describe en Covarianza.

Para obtener un ejemplo de cálculo de los coeficientes de correlación, cargue los datos de muestra en count.dat que contiene una matriz de 24 por 3:

load count.dat

Escriba la siguiente sintaxis para calcular los coeficientes de correlación:

corrcoef(count)

Esto da como resultado la siguiente matriz de 3 por 3 de coeficientes de correlación:

ans = 
    1.0000    0.9331    0.9599
    0.9331    1.0000    0.9553
    0.9599    0.9553    1.0000

Dado que todos los coeficientes de correlación están cerca de 1, hay una fuerte correlación positiva entre cada par de columnas de datos en la matriz count.