¿Qué es el Análisis de Componentes Principales?
Cuando comenzamos a adentrarnos en el estudio de la estadística multivariante, nos topamos con un tema conocido como análisis de componentes principales o PCA, como se le conoce comúnmente en el mundo de la ciencia. Los orígenes del PCA se remontan al trabajo de Karl Pearson, quien en los albores del siglo XX desarrolló una técnica para reducir la dimensionalidad de los datos. Sin embargo, no fue hasta 1933 que el término se acuñó por Harold Hotelling.
El PCA es una técnica del análisis multivariante o multivariado que se
utiliza para encontrar patrones en conjuntos de datos de alta dimensionalidad o
para reducir la dimensionalidad de una nube de puntos. Es generalmente utilizada
en campos como la estadística, la econometría, la ingeniería y en, general, las
ciencias sociales.
El objetivo del PCA es transformar un conjunto de datos complejos o muy
amplios en uno más sencillo, reduciendo la cantidad de variables y destacando
las relaciones más importantes entre ellas. Esto se logra mediante la
extracción de las componentes principales de los datos, que son combinaciones
lineales de las variables originales.
La idea detrás del PCA es encontrar una proyección de los datos en un nuevo
espacio dimensional en el que se maximice la varianza de los datos. En otras palabras,
el PCA busca encontrar la dirección en la que los datos varían más y, por lo
tanto, proporcionan la mayor cantidad de información. Esta dirección se llama
la primera componente principal. Luego, se procede a buscar la siguiente
dirección para encontrar la segunda componente principal y así sucesivamente.
Cada componente principal contiene cierta cantidad de la varianza de los
datos, es decir, de información. Sin embargo, la cantidad que se recoge se
reduce a medida que se buscan más componentes principales. De esta manera, la
quinta componente principal no contendrá la misma información que la primera.
Es en esta premisa en la que se basa la capacidad del PCA para explicar la
información de los datos originales en menos dimensiones.
Ahora, uno de los requisitos básicos, por decirlo así, es que todas las
variables presenten un nivel de correlación alto o medianamente alto. En
general, la información se encuentra resumida en la matriz de covarianzas y
varianzas, y en particular, en la matriz de correlaciones; lo que indica que,
si no hay algún tipo de relación lineal entre las variables, entonces no hay
información para extraer del PCA. Por otro lado, si las variables están
altamente correlacionadas, esto significa que existe una relación lineal fuerte
entre ellas, lo que indica que las variables comparten información en común.