Correlación lineal
Introducción
La correlación cuantifica la fuerza de una relación lineal entre dos variables. Cuando no hay correlación entre dos variables, no hay tendencia para que los valores de las variables aumenten o disminuyan al unísono. Sin embargo, dos variables que no están correlacionadas no son necesariamente independientes, porque pueden tener una relación no lineal.
Puede usar la correlación lineal para investigar si existe una relación lineal entre las variables sin tener que asumir o ajustar un modelo específico a sus datos. Dos variables que tienen una correlación lineal pequeña o inexistente pueden tener una relación no lineal fuerte. Sin embargo, calcular la correlación lineal antes de ajustar un modelo es una forma útil de identificar variables que tienen una relación simple. Otra forma de explorar cómo se relacionan las variables es crear gráficas de dispersión de los datos.
La covarianza cuantifica la fuerza de una relación lineal entre dos variables en unidades relacionadas con sus varianzas. Las correlaciones son covarianzas estandarizadas, lo que proporciona una cantidad sin dimensiones que mide el grado de una relación lineal, separada de la escala de cualquiera de las variables.
Las siguientes funciones de MATLAB® calculan coeficientes de correlación y covarianzas de muestra. Estos coeficientes de muestra son estimaciones de los verdaderos coeficientes de correlación y la covarianza de la población de la que se extrae la muestra de datos.
Covarianza
Utilice la función cov
de MATLAB para calcular la matriz de covarianzas de muestra para una matriz de datos (en la que cada columna representa una cantidad separada).
La matriz de covarianzas de muestra tiene las siguientes propiedades:
cov(X)
es simétrica.diag(cov(X))
es un vector de varianzas para cada columna de datos. Las varianzas representan una medida de la difusión o dispersión de los datos en la columna correspondiente. (La funciónvar
calcula la varianza).sqrt(diag(cov(X)))
es un vector de desviaciones estándar. (La funciónstd
calcula la desviación estándar).Los elementos fuera de la diagonal de la matriz de covarianzas representan las covarianzas entre las columnas de datos individuales.
Aquí, X
puede ser un vector o una matriz. Para una matriz m por n, la matriz de covarianzas es n por n.
Para obtener un ejemplo de cálculo de la covarianza, cargue los datos de la muestra en count.dat
que contenga una matriz de 24 por 3:
load count.dat
Calcule la matriz de covarianzas de estos datos:
cov(count)
MATLAB responde con el siguiente resultado:
ans = 1.0e+003 * 0.6437 0.9802 1.6567 0.9802 1.7144 2.6908 1.6567 2.6908 4.6278
La matriz de covarianzas de estos datos tiene la siguiente forma:
Aquí, s2ij es la covarianza de muestra entre la columna i y la columna j de los datos. Dado que la matriz count
contiene tres columnas, la matriz de covarianzas es de 3 por 3.
Nota
En el caso especial de que un vector sea el argumento de cov
, la función devuelve la varianza.
Coeficientes de correlación
La función corrcoef
crea una matriz de coeficientes de correlación de muestra para una matriz de datos (donde cada columna representa una cantidad independiente). Los coeficientes de correlación oscilan entre -1 y 1, donde
Los valores cercanos a 1 indican que hay una relación lineal positiva entre las columnas de datos.
Los valores cercanos a -1 indican que una columna de datos tiene una relación lineal negativa con otra columna de datos (anticorrelación).
Los valores cercanos o iguales a 0 sugieren que no hay ninguna relación lineal entre las columnas de datos.
Para una matriz m por n, la matriz de coeficientes de correlación es n por n. La disposición de los elementos en la matriz de coeficientes de correlación se corresponde con la ubicación de los elementos en la matriz de covarianzas, como se describe en Covarianza.
Para obtener un ejemplo de cálculo de los coeficientes de correlación, cargue los datos de muestra en count.dat
que contiene una matriz de 24 por 3:
load count.dat
Escriba la siguiente sintaxis para calcular los coeficientes de correlación:
corrcoef(count)
Esto da como resultado la siguiente matriz de 3 por 3 de coeficientes de correlación:
ans = 1.0000 0.9331 0.9599 0.9331 1.0000 0.9553 0.9599 0.9553 1.0000
Dado que todos los coeficientes de correlación están cerca de 1, hay una fuerte correlación positiva entre cada par de columnas de datos en la matriz count
.