Tres coeficientes de correlación
Algo que no consideré inicialmente es exponer un concepto sumamente importante, tal como es la definición de correlación. En sentido, saltaremos un paso hacia atrás para dar dos más adelante, todo con el objetivo de tener una mayor comprensión de los modelos de interdependencia, tal como lo vimos en los artículos pasados.
Pues sin mayor vacilación, entendemos a la correlación como una medida
estadística que indica la relación o asociación entre dos variables. En otras
palabras, es una medida que indica el grado en que dos variables se mueven
juntas. La podemos expresar matemáticamente de la siguiente manera:
Donde el numerador es la covarianza de las dos variables y el denominador es
el producto de las desviaciones estándar de las dos variables. Este valor fluctúa
entre -1 y 1, de manera que cuando alcanza un valor de 1 indica una correlación
positiva perfecta, lo que significa que las dos variables están perfectamente
relacionadas de manera positiva (es decir, cuando una variable aumenta, la otra
también aumenta en la misma proporción). Por otro lado, un valor de -1 indica
una correlación negativa perfecta, lo que significa que las dos variables están
perfectamente relacionadas de manera negativa (es decir, cuando una variable
aumenta, la otra disminuye en la misma proporción). Un valor de 0 indica que no
hay correlación entre las dos variables.
La anterior es conocido como el coeficiente de correlación de Pearson, pues
fue él quien en 1896 introdujó el coeficiente de correlación para determinar
una medida que pudiera medir la relación lineal entre dos variables continuas
que pudiera ser utilizada par hacer predicciones. Con el tiempo, este coeficiente
alcanzó mayor relevancia y se convirtió en una herramienta esencial en la
investigación científica y ha sido utilizada para explorar una amplia variedad
de relaciones en diferentes campos del conocimiento.
Pero sabías qué existe otros coeficientes de correlación. En efecto, uno de ellos es el coeficiente de correlación de Spearman, que fue desarrollada allá por 1904 en un contexto de estudios de psicología y educación para comprender la relación entre diferentes variables que no se distribuían normalmente. En particular, Charles Spearman estaba interesado en comprender la relación entre diferentes habilidades cognitivas, como la memoria, la percepción y la capacidad de razonamiento.
La correlación de Spearman se define como una medida de correlación no paramétrica utilizada para evaluar la relación entre dos variables. A diferencia de la correlación de Pearson, que se basa en la distribución normal de los datos, la correlación de Spearman se puede utilizar con datos de cualquier tipo de distribución. De tal manera que se basa en el rango de los datos en lugar de los valores reales. Es decir, los valores de las variables se convierten en sus respectivos rangos y se calcula la correlación entre los rangos. Por tal motivo, la correlación de Spearman comúnmente se utiliza en estudios que involucran variables ordinales o categóricas.
El coeficiente de Spearman se determina de la siguiente manera:
Donde
Otro coeficiente de correlación muy importante es la correlación de Kendall, que es del tipo no paramétrica y mide la fuerza de la relación entre dos variables ordinales. Esta medida lleva el nombre de Maurice Kendall, un estadístico británico que la desarrolló en la década de 1930, al tratar de comprender la relación entre dos variables ordinales que no necesariamente seguían una distribución normal o lineal. De esta manera, Kendall desarrolló un coeficiente de correlación que se basa en el número de concordancias y discordancias entre las dos variables, y lo llamó "coeficiente de concordancia de Kendall". Este coeficiente puede oscilar entre -1 y 1, donde -1 indica una fuerte discordancia, 1 indica una fuerte concordancia y 0 indica que no hay relación entre las dos variables.
A manera de comparación de los tres coeficientes de correlación
mencionados, se tiene los siguientes puntos:
§ Tipo de relación: La correlación de Pearson mide la relación lineal
entre dos variables continuas, mientras que la correlación de Spearman mide la
relación monótona entre dos variables, y la correlación de Kendall mide la
relación ordinal entre dos variables.
§ Valores de coeficiente: El coeficiente de correlación de Pearson
varía entre -1 y 1, el coeficiente de correlación de Spearman y Kendall varía
entre -1 y 1 también, pero se interpretan de manera diferente. Un valor de 1 en
cualquier medida de correlación indica una correlación perfecta positiva,
mientras que un valor de -1 indica una correlación perfecta negativa, y un
valor de 0 indica que no hay correlación.
§ Requisitos de datos: La correlación de Pearson se basa en la
normalidad de los datos y la igualdad de varianzas, mientras que la correlación
de Spearman y Kendall son más robustas y pueden ser utilizadas con datos no
normales y sin supuestos sobre la distribución.
§ Tipo de variable: La correlación de Pearson se aplica a dos
variables continuas, mientras que la correlación de Spearman se aplica a dos
variables continuas o ordinales, y la correlación de Kendall se aplica a dos
variables ordinales.
§ Cálculo: La correlación de Pearson se calcula utilizando
la covarianza y desviación estándar de ambas variables, mientras que la
correlación de Spearman y Kendall se calculan utilizando los rangos de ambas
variables.
Por otro lado, en la siguiente tabla se resumen las principales diferencias entre las medidas de correlación:
Medida de correlación | Tipo de datos | Sensibilidad a valores extremos | Tipo de correlación | Interpretación de la correlación |
---|---|---|---|---|
Pearson | Datos continuos | Sensible | Lineal | Rango: -1 a 1 |
Spearman | Datos ordinales | Robusta | Monótona | Rango: -1 a 1 |
Kendall | Datos ordinales | Robusta | Monótona | Rango: -1 a 1 |
Finalmente, hemos explorado tres medidas de correlaciones que tratan de medir la asociación de dos variables, cada una con sus diferencias. No considero que alguna sea mejor que otra, pero lo cierto es que el tiempo ha mostrado que la correlación de Pearson es más utilizada y referida en la estadística multivariante, en particular, en los modelos de interdependencia como el PCA y el modelo factorial.