Tres coeficientes de correlación

Algo que no consideré inicialmente es exponer un concepto sumamente importante, tal como es la definición de correlación. En sentido, saltaremos un paso hacia atrás para dar dos más adelante, todo con el objetivo de tener una mayor comprensión de los modelos de interdependencia, tal como lo vimos en los artículos pasados. Pues sin mayor vacilación, entendemos a la correlación como una medida estadística que indica la relación o asociación entre dos variables. En otras palabras, es una medida que indica el grado en que dos variables se mueven juntas. La podemos expresar matemáticamente de la siguiente manera: rXY=Cov(X,Y)Var(X)Var(Y) Donde el numerador es la covarianza de las dos variables y el denominador es el producto de las desviaciones estándar de las dos variables. Este valor fluctúa entre -1 y 1, de manera que cuando alcanza un valor de 1 indica una correlación positiva perfecta, lo que significa que las dos variables están perfectamente r...

¿Qué es el Análisis de Componentes Principales?

Cuando comenzamos a adentrarnos en el estudio de la estadística multivariante, nos topamos con un tema conocido como análisis de componentes principales o PCA, como se le conoce comúnmente en el mundo de la ciencia. Los orígenes del PCA se remontan al trabajo de Karl Pearson, quien en los albores del siglo XX desarrolló una técnica para reducir la dimensionalidad de los datos. Sin embargo, no fue hasta 1933 que el término se acuñó por Harold Hotelling.

El PCA es una técnica del análisis multivariante o multivariado que se utiliza para encontrar patrones en conjuntos de datos de alta dimensionalidad o para reducir la dimensionalidad de una nube de puntos. Es generalmente utilizada en campos como la estadística, la econometría, la ingeniería y en, general, las ciencias sociales.

El objetivo del PCA es transformar un conjunto de datos complejos o muy amplios en uno más sencillo, reduciendo la cantidad de variables y destacando las relaciones más importantes entre ellas. Esto se logra mediante la extracción de las componentes principales de los datos, que son combinaciones lineales de las variables originales.

La idea detrás del PCA es encontrar una proyección de los datos en un nuevo espacio dimensional en el que se maximice la varianza de los datos. En otras palabras, el PCA busca encontrar la dirección en la que los datos varían más y, por lo tanto, proporcionan la mayor cantidad de información. Esta dirección se llama la primera componente principal. Luego, se procede a buscar la siguiente dirección para encontrar la segunda componente principal y así sucesivamente.

Cada componente principal contiene cierta cantidad de la varianza de los datos, es decir, de información. Sin embargo, la cantidad que se recoge se reduce a medida que se buscan más componentes principales. De esta manera, la quinta componente principal no contendrá la misma información que la primera. Es en esta premisa en la que se basa la capacidad del PCA para explicar la información de los datos originales en menos dimensiones.

Ahora, uno de los requisitos básicos, por decirlo así, es que todas las variables presenten un nivel de correlación alto o medianamente alto. En general, la información se encuentra resumida en la matriz de covarianzas y varianzas, y en particular, en la matriz de correlaciones; lo que indica que, si no hay algún tipo de relación lineal entre las variables, entonces no hay información para extraer del PCA. Por otro lado, si las variables están altamente correlacionadas, esto significa que existe una relación lineal fuerte entre ellas, lo que indica que las variables comparten información en común.

Entradas populares de este blog

Renta Ricardiana

LA CRÍTICA DE LUCAS

La Regalía minera en Perú