Tres coeficientes de correlación

Algo que no consideré inicialmente es exponer un concepto sumamente importante, tal como es la definición de correlación. En sentido, saltaremos un paso hacia atrás para dar dos más adelante, todo con el objetivo de tener una mayor comprensión de los modelos de interdependencia, tal como lo vimos en los artículos pasados. Pues sin mayor vacilación, entendemos a la correlación como una medida estadística que indica la relación o asociación entre dos variables. En otras palabras, es una medida que indica el grado en que dos variables se mueven juntas. La podemos expresar matemáticamente de la siguiente manera: rXY=Cov(X,Y)Var(X)Var(Y) Donde el numerador es la covarianza de las dos variables y el denominador es el producto de las desviaciones estándar de las dos variables. Este valor fluctúa entre -1 y 1, de manera que cuando alcanza un valor de 1 indica una correlación positiva perfecta, lo que significa que las dos variables están perfectamente r...

¿Qué es el Análisis factorial?

Me ha pasado que cuando buscaba el concepto del análisis factorial, los resultados mostraban que era una herramienta o una técnica estadística. Esto me resultaba confuso hasta que me propuse a investigar al respecto. Bueno, lo cierto es que puede entenderse como ambos (duh!), ya que el análisis factorial proporciona un marco para la exploración y el análisis de la estructura subyacente de un conjunto de datos multivariados.

Se dice que es una técnica pues el análisis factorial es un procedimiento estadístico que se utiliza para reducir la complejidad de un conjunto de datos (nube de puntos) mediante la identificación de factores subyacentes que explican las relaciones entre las variables observadas. La técnica se basa en la matriz de correlaciones entre las variables y busca identificar los factores latentes que explican esta correlación. El análisis factorial puede realizarse utilizando diferentes métodos, como el método de los componentes principales o el método de máxima verosimilitud.

Por otro lado, como herramienta, el análisis factorial permite explorar la estructura subyacente de un conjunto de datos multivariados y comprender mejor las relaciones entre las variables observadas. La técnica puede utilizarse para identificar patrones en los datos, reducir la dimensionalidad de los mismos y hacer inferencias sobre las variables latentes que subyacen en las observaciones.

Ahora, el análisis factorial está enmarcado en la estadística porque considera a priori una estructura factorial suponiendo una distribución de los datos (generalmente normalidad multivariada). Es decir, una representación matemática (combinación lineal) que se utiliza para describir la estructura subyacente (variables no observables) de un conjunto de datos multivariados (variables observables).

En términos generales, el modelo factorial se puede representar de la siguiente manera:

X=LF+E

Donde X  es la matriz de los datos observados, L es una matriz de carga factorial que representa la relación entre los factores latentes (F) y las variables observadas, y E  es una matriz de errores de medición, el cual se asume que sigue una distribución normal multivariada.

Por un lado, la matriz de carga factorial L, o también denominado loadings en inglés, representa las correlaciones entre los factores latentes (F) y las variables observadas (X). Cada elemento de la matriz de carga factorial indica la contribución del factor latente correspondiente a la variable observada. En otras palabras, indican la fuerza de la asociación entre cada variable y cada factor.

Las cargas factoriales o loadings se expresan como coeficientes que van desde -1 a 1 y se utilizan para interpretar los factores latentes; estas se pueden interpretar como pesos que indican cuánto contribuye cada variable a la definición de cada factor, de manera que, si la carga factorial de una variable en un factor es alta, esto indica que la variable está fuertemente asociada con ese factor. Por otro lado, si la carga factorial de una variable en un factor es baja, esto indica que la variable está poco relacionada con ese factor. 

Los valores de la matriz de carga factorial se estiman a partir de los datos observados mediante un procedimiento de estimación como el método de máxima verosimilitud. Su importancia radica en el hecho que permite interpretar los factores latentes y entender qué variables están más relacionadas con cada factor. Esto puede ayudar a identificar patrones subyacentes en los datos y a entender mejor las relaciones entre las variables observadas. Las cargas factoriales o loadings también se utilizan para determinar la estructura del modelo factorial y para seleccionar el número adecuado de factores que expliquen la variación en los datos.

Por otro lado, la matriz de factores latentes (F)  representa los valores de los factores latentes subyacentes en los datos. Esta matriz también denominada de las puntuaciones factoriales o scores (en inglés), vienen a ser los valores numéricos que representan la posición de cada caso (individuo u objeto) en cada uno de los factores latentes estimados en el modelo factorial. Los scores se calculan a partir de las cargas factoriales de las variables observadas y se utilizan para describir la posición relativa de cada caso en relación con los factores latentes, de manera que sirve para la interpretación del modelo factorial porque permiten analizar cómo se relacionan los casos con los factores latentes.

Los scores se calculan utilizando las cargas factoriales de las variables observadas y representan la contribución de cada variable a cada factor latente; es decir, los scores no representan directamente las variables observadas, sino que son una combinación lineal de las mismas en función de sus cargas factoriales. Por lo tanto, la interpretación de los scores debe hacerse en función de las variables observadas y de la estructura del modelo factorial utilizado.

Se calculan mediante la siguiente expresión:

F=XL(LL)1

Donde X es la matriz de los datos observados y L es una matriz de carga factorial. De esta manera, la matriz de scores factoriales (F) representa los valores estimados de los factores latentes para cada caso i en el factor j. Cada elemento en la matriz Ffij,  representa el valor estimado del factor j para el caso i.

Finalmente, la matriz de errores de medición (E) representa la parte no explicada de la varianza de las variables observadas, se supone normalidad multivariada. Esta matriz se supone no correlacionada con los factores latentes y puede ser estimada a partir de los datos observados y la matriz de carga factorial. Sin embargo, también existen versiones del análisis factorial que permiten trabajar con datos no normales, como el análisis factorial no paramétrico o el análisis factorial robusto.

 

 



Entradas populares de este blog

Renta Ricardiana

LA CRÍTICA DE LUCAS

La Regalía minera en Perú