¿Qué es el Análisis factorial?
Me ha pasado que cuando buscaba el concepto del análisis factorial, los resultados mostraban que era una herramienta o una técnica estadística. Esto me resultaba confuso hasta que me propuse a investigar al respecto. Bueno, lo cierto es que puede entenderse como ambos (duh!), ya que el análisis factorial proporciona un marco para la exploración y el análisis de la estructura subyacente de un conjunto de datos multivariados.
Se dice que es una técnica pues el
análisis factorial es un procedimiento estadístico que se utiliza para reducir
la complejidad de un conjunto de datos (nube de puntos) mediante la
identificación de factores subyacentes que explican las relaciones entre las
variables observadas. La técnica se basa en la matriz de correlaciones entre
las variables y busca identificar los factores latentes que explican esta
correlación. El análisis factorial puede realizarse utilizando diferentes
métodos, como el método de los componentes principales o el método de máxima
verosimilitud.
Por otro lado, como herramienta, el análisis factorial permite explorar la
estructura subyacente de un conjunto de datos multivariados y comprender mejor
las relaciones entre las variables observadas. La técnica puede utilizarse para
identificar patrones en los datos, reducir la dimensionalidad de los mismos y
hacer inferencias sobre las variables latentes que subyacen en las
observaciones.
Ahora, el análisis factorial está enmarcado en la estadística porque
considera a priori una estructura factorial suponiendo una distribución de los
datos (generalmente normalidad multivariada). Es decir, una representación
matemática (combinación lineal) que se utiliza para describir la estructura
subyacente (variables no observables) de un conjunto de datos multivariados (variables
observables).
En términos generales, el modelo factorial se puede representar de la siguiente manera:
$$ X=LF'+E $$Por un lado, la matriz de carga factorial \(L\), o también denominado loadings en inglés, representa las correlaciones entre los factores latentes (\(F\)) y las variables observadas (\(X\)). Cada elemento de la matriz de carga factorial indica la contribución del factor latente correspondiente a la variable observada. En otras palabras, indican la fuerza de la asociación entre cada variable y cada factor.
Las
cargas factoriales o loadings se expresan como coeficientes que van
desde -1 a 1 y se utilizan para interpretar los factores latentes; estas se
pueden interpretar como pesos que indican cuánto contribuye cada variable a la
definición de cada factor, de manera que, si la carga factorial de una variable
en un factor es alta, esto indica que la variable está fuertemente asociada con
ese factor. Por otro lado, si la carga factorial de una variable en un factor
es baja, esto indica que la variable está poco relacionada con ese factor.
Los
valores de la matriz de carga factorial se estiman a partir de los datos
observados mediante un procedimiento de estimación como el método de máxima
verosimilitud. Su importancia radica en el hecho que permite interpretar los
factores latentes y entender qué variables están más relacionadas con cada
factor. Esto puede ayudar a identificar patrones subyacentes en los datos y a
entender mejor las relaciones entre las variables observadas. Las cargas factoriales
o loadings también se utilizan para determinar la estructura del modelo
factorial y para seleccionar el número adecuado de factores que expliquen la
variación en los datos.
Por
otro lado, la matriz de factores latentes (\(F\)) representa los
valores de los factores latentes subyacentes en los datos. Esta matriz también
denominada de las puntuaciones factoriales o scores (en inglés), vienen
a ser los valores numéricos que representan la posición de cada caso (individuo
u objeto) en cada uno de los factores latentes estimados en el modelo
factorial. Los scores se calculan a partir de las cargas factoriales de
las variables observadas y se utilizan para describir la posición relativa de
cada caso en relación con los factores latentes, de manera que sirve para la
interpretación del modelo factorial porque permiten analizar cómo se relacionan
los casos con los factores latentes.
Los
scores se calculan utilizando las cargas factoriales de las variables
observadas y representan la contribución de cada variable a cada factor latente;
es decir, los scores no representan directamente las variables
observadas, sino que son una combinación lineal de las mismas en función de sus
cargas factoriales. Por lo tanto, la interpretación de los scores debe hacerse
en función de las variables observadas y de la estructura del modelo factorial
utilizado.
Se calculan mediante la siguiente expresión:
$$F = XL'(LL')^{-1}$$
Donde \(X\) es la matriz de los datos observados y \(L\) es una matriz de carga factorial. De esta manera, la matriz de scores factoriales (\(F\)) representa los valores estimados de los factores latentes para cada caso \(i\) en el factor \(j\). Cada elemento en la matriz \(F\), \(f_{ij}\), representa el valor estimado del factor \(j\) para el caso \(i\).
Finalmente, la matriz de errores de medición (\(E\)) representa la parte no explicada de la varianza de las variables observadas, se supone normalidad multivariada. Esta matriz se supone no correlacionada con los factores latentes y puede ser estimada a partir de los datos observados y la matriz de carga factorial. Sin embargo, también existen versiones del análisis factorial que permiten trabajar con datos no normales, como el análisis factorial no paramétrico o el análisis factorial robusto.