Tres coeficientes de correlación

Algo que no consideré inicialmente es exponer un concepto sumamente importante, tal como es la definición de correlación. En sentido, saltaremos un paso hacia atrás para dar dos más adelante, todo con el objetivo de tener una mayor comprensión de los modelos de interdependencia, tal como lo vimos en los artículos pasados.

Pues sin mayor vacilación, entendemos a la correlación como una medida estadística que indica la relación o asociación entre dos variables. En otras palabras, es una medida que indica el grado en que dos variables se mueven juntas. La podemos expresar matemáticamente de la siguiente manera:

$$ r_{XY} = \dfrac{Cov(X,Y)}{\sqrt{Var(X)}*\sqrt{Var(Y)}}$$

Donde el numerador es la covarianza de las dos variables y el denominador es el producto de las desviaciones estándar de las dos variables. Este valor fluctúa entre -1 y 1, de manera que cuando alcanza un valor de 1 indica una correlación positiva perfecta, lo que significa que las dos variables están perfectamente relacionadas de manera positiva (es decir, cuando una variable aumenta, la otra también aumenta en la misma proporción). Por otro lado, un valor de -1 indica una correlación negativa perfecta, lo que significa que las dos variables están perfectamente relacionadas de manera negativa (es decir, cuando una variable aumenta, la otra disminuye en la misma proporción). Un valor de 0 indica que no hay correlación entre las dos variables.

La anterior es conocido como el coeficiente de correlación de Pearson, pues fue él quien en 1896 introdujó el coeficiente de correlación para determinar una medida que pudiera medir la relación lineal entre dos variables continuas que pudiera ser utilizada par hacer predicciones. Con el tiempo, este coeficiente alcanzó mayor relevancia y se convirtió en una herramienta esencial en la investigación científica y ha sido utilizada para explorar una amplia variedad de relaciones en diferentes campos del conocimiento.

Pero sabías qué existe otros coeficientes de correlación. En efecto, uno de ellos es el coeficiente de correlación de Spearman, que fue desarrollada allá por 1904 en un contexto de estudios de psicología y educación para comprender la relación entre diferentes variables que no se distribuían normalmente. En particular, Charles Spearman estaba interesado en comprender la relación entre diferentes habilidades cognitivas, como la memoria, la percepción y la capacidad de razonamiento.

La correlación de Spearman se define como una medida de correlación no paramétrica utilizada para evaluar la relación entre dos variables. A diferencia de la correlación de Pearson, que se basa en la distribución normal de los datos, la correlación de Spearman se puede utilizar con datos de cualquier tipo de distribución. De tal manera que se basa en el rango de los datos en lugar de los valores reales. Es decir, los valores de las variables se convierten en sus respectivos rangos y se calcula la correlación entre los rangos. Por tal motivo, la correlación de Spearman comúnmente se utiliza en estudios que involucran variables ordinales o categóricas.

El coeficiente de Spearman se determina de la siguiente manera:

$$r_R = 1 - \dfrac{6 \sum_i d_i^2}{n(n^2-1)}$$

Donde $n$ es el número de observaciones, $d_i$ es la diferencia de rango del elemento $n$. De esta manera, la correlación de Spearman puede ser positiva (lo que significa que los rangos de ambas variables se mueven en la misma dirección) o negativa (lo que significa que los rangos de ambas variables se mueven en direcciones opuestas; es decir, la correlación de Spearman varía entre -1 y 1, donde un valor de -1 indica una correlación negativa perfecta, un valor de 1 indica una correlación positiva perfecta y un valor de 0 indica que no hay correlación.

Otro coeficiente de correlación muy importante es la correlación de Kendall, que es del tipo no paramétrica y mide la fuerza de la relación entre dos variables ordinales. Esta medida lleva el nombre de Maurice Kendall, un estadístico británico que la desarrolló en la década de 1930, al tratar de comprender la relación entre dos variables ordinales que no necesariamente seguían una distribución normal o lineal. De esta manera, Kendall desarrolló un coeficiente de correlación que se basa en el número de concordancias y discordancias entre las dos variables, y lo llamó "coeficiente de concordancia de Kendall". Este coeficiente puede oscilar entre -1 y 1, donde -1 indica una fuerte discordancia, 1 indica una fuerte concordancia y 0 indica que no hay relación entre las dos variables.

A manera de comparación de los tres coeficientes de correlación mencionados, se tiene los siguientes puntos:

§ Tipo de relación: La correlación de Pearson mide la relación lineal entre dos variables continuas, mientras que la correlación de Spearman mide la relación monótona entre dos variables, y la correlación de Kendall mide la relación ordinal entre dos variables.

§ Valores de coeficiente: El coeficiente de correlación de Pearson varía entre -1 y 1, el coeficiente de correlación de Spearman y Kendall varía entre -1 y 1 también, pero se interpretan de manera diferente. Un valor de 1 en cualquier medida de correlación indica una correlación perfecta positiva, mientras que un valor de -1 indica una correlación perfecta negativa, y un valor de 0 indica que no hay correlación.

§ Requisitos de datos: La correlación de Pearson se basa en la normalidad de los datos y la igualdad de varianzas, mientras que la correlación de Spearman y Kendall son más robustas y pueden ser utilizadas con datos no normales y sin supuestos sobre la distribución.

§ Tipo de variable: La correlación de Pearson se aplica a dos variables continuas, mientras que la correlación de Spearman se aplica a dos variables continuas o ordinales, y la correlación de Kendall se aplica a dos variables ordinales.

§ Cálculo: La correlación de Pearson se calcula utilizando la covarianza y desviación estándar de ambas variables, mientras que la correlación de Spearman y Kendall se calculan utilizando los rangos de ambas variables.

Por otro lado, en la siguiente tabla se resumen las principales diferencias entre las medidas de correlación:

Medida de correlación	Tipo de datos	Sensibilidad a valores extremos	Tipo de correlación	Interpretación de la correlación
Pearson	Datos continuos	Sensible	Lineal	Rango: -1 a 1
Spearman	Datos ordinales	Robusta	Monótona	Rango: -1 a 1
Kendall	Datos ordinales	Robusta	Monótona	Rango: -1 a 1

Finalmente, hemos explorado tres medidas de correlaciones que tratan de medir la asociación de dos variables, cada una con sus diferencias. No considero que alguna sea mejor que otra, pero lo cierto es que el tiempo ha mostrado que la correlación de Pearson es más utilizada y referida en la estadística multivariante, en particular, en los modelos de interdependencia como el PCA y el modelo factorial.

Buscar en Ruptura Económica

Ruptura económica

Tres coeficientes de correlación

Entradas populares de este blog

Renta Ricardiana

LA CRÍTICA DE LUCAS

La Regalía minera en Perú