Del desorden de datos a la transparencia: cómo el Análisis de Componentes Principales simplifica los datos complejos

 

Existen diversas herramientas que se pueden emplear en estudios y casos prácticos relacionados con la banca. En artículos anteriores hemos visto algunos ejemplos de modelos de Machine Learning siendo aplicados para resolver problemáticas en el sector bancario. En esta ocasión haremos una revisión, más bien conceptual-práctica, de una técnica que actualmente tiene un uso muy extendido en diversos campos científicos a partir de la analítica de datos, el Análisis de Componentes Principales o PCA por sus siglas en inglés (Principal Component Analysis). 

¿Qué es un PCA? 

El PCA o Análisis de Componentes Principales es una herramienta que permite identificar y extraer la parte más “significativa” de un set de datos, reestructurándolos y pudiendo eliminar el ruido de este. Como aplicaciones comunes de un PCA encontramos la reducción de dimensiones (variables), compresión de datos, extracción de características y visualización de datos. (Kurita, T. 2020). 

Ejemplificación de la reducción de 3 dimensiones (variables) a 2 dimensiones. 

Figura 1. Ejemplificación de la reducción de 3 dimensiones (variables) a 2 dimensiones. 

De manera general, el PCA calcula una serie de nuevas variables llamadas Componentes Principales, que surgen a partir de las (n) variables originales, como una combinación lineal de estas últimas, estructurándolas de manera ortogonal con el objetivo de extraer la mayor cantidad de varianza sin la necesidad de usar todas las variables originales. De aquí viene el término “reducción de dimensiones”.  

La característica fundamental del conjunto original de datos que permite la aplicación de esta herramienta es la correlación que presentan las observaciones de las variables, que inherentemente incluyen también ruido. En caso de una relación lineal directa encontraremos valores mayores a 0 hasta 1, en caso contrario, es decir que la relación sea inversa serán valores menores a 0 hasta -1. Si el valor de correlación es cero, significa la ausencia de relación lineal. 

Correlación entre los datos de una matriz de 4 dimensiones. 

Figura 2. Correlación entre los datos de una matriz de 4 dimensiones. 

La construcción de un Componente Principal 

Las combinaciones lineales de los datos originales son una operación matemática que involucra el suma-producto de cada variable por un coeficiente (peso) determinado. En el caso del Componente Principal, la combinación lineal resultante es una nueva variable que se obtiene mediante la combinación ponderada de las variables originales. Hay que recordar que se buscan las combinaciones lineales que maximicen la expresión de varianza de los datos proyectados en estas nuevas variables. Como consecuencia de la ortogonalidad conseguida en el empleo de la herramienta, las nuevas variables están incorreladas entre sí.  

Debemos tener en cuenta que los pesos por los que se multiplican los valores originales son los autovectores (eigenvectores) de la matriz de covarianza o de la matriz de correlación de los datos. Los pesos indican la dirección y magnitud en la que se proyectan las variables originales para obtener los componentes principales. La idea principal es seleccionar la MENOR cantidad de Componentes Principales que expliquen la MAYOR proporción de varianza de los datos originales.  

El empleo de esta herramienta se vuelve especialmente útil cuando buscamos identificar patrones en sets de datos de muchas dimensiones, pues en estos casos la representación gráfica puede ser más compleja de interpretar. Así, podemos expresar las similitudes y diferencias en los datos sin necesidad de gráficos. (Dupont, M. 2020) 

Construcción de un componente principal.Construcción de un componente principal.Construcción de un componente principal.

Figura 3. Construcción de un componente principal. En a) se muestra la matriz X descompuesta en dos matrices T (matriz de scores) y P (matriz de cargas). En b) se encuentra la contribución de los valores Y_n multiplicados por su peso w_n al Componente Principal 1. Finalmente, c) indica como cada variable está construida con una varianza S_n específica, así como un error de varianza e_n

Metodología 

De forma general y simplificada, los pasos que lleva un Análisis de Componentes Principales son los siguientes: 

  1. Obtención de la información.  
  2. Sustracción de la Media. La media que se sustrae es el promedio de cada dimensión, esto produce un set de datos con media cero. 
  3. Calcular la Matriz de Covarianza. Tiene dimensiones n x n. 
  4. Calcular los autovalores y autovectores de la matriz de covarianza.  
  5. Elección de los componentes. El autovector con el autovalor más alto es el primer componente principal del conjunto de datos. Esta es la relación más significativa entre las dimensiones de los datos. Si los autovalores son pequeños, la información es más exacta. La cantidad de varianza explicada por todos los componentes principales respecto del set de datos original es del 100%. La cantidad que aporta cada uno de los componentes principales se calcula como la ratio entre su autovalor y la suma de todos los autovalores. Con esta referencia escogemos la cantidad de componentes principales sabiendo su % de explicación de varianza del sistema. 
  6. Nuevo set de datos. Una vez que se han seleccionado los componentes principales (PC) podemos representar nuestro conjunto de datos en un espacio cuyos ejes son dichos componentes. Las coordenadas en cada eje o PC vienen dadas por la formula: 

PC_1 = w_1Y_1 + w_2Y_2 + … + w_nY_n 

Interpretación geométrica 

El PCA proyecta los datos a lo largo de las direcciones en donde los datos exhiben la mayor varianza, estas direcciones están determinadas por los autovectores de la matriz de covarianza (correspondientes a los autovalores). Finalmente, la magnitud de los autovalores corresponde a la varianza de los datos a lo largo de los autovectores. (Mishra, S. P. 2017). 

Representación gráfica de dos componentes principales calculados a partir de datos en 3 dimensiones. 

Figura 4. Representación gráfica de dos componentes principales calculados a partir de datos en 3 dimensiones. 

Del concepto a la práctica

En 2009, alentados por el desarrollo y crecimiento de mercado de la banca electrónica, Chien-Ta y Desheng publicaron un artículo titulado “Online banking performance evaluation using data envelopment analysis (DEA) and principal component analysis” en donde realizaron un estudio híbrido para medir el rendimiento de la banca electrónica a partir de esas dos herramientas en bancos domésticos de Taiwán.  

El objetivo era explorar la posibilidad de expandir el uso de internet para reducir costes de operación en las centrales bancarias, así como disminuir la distribución de sucursales, siendo uno de los estudios pioneros en esta materia. Los autores usaron el DEA para cada banco estimando una puntuación de eficiencia agregada según métricas web, ingresos e insumos. El PCA se empleó para clasificar los bancos según eficiencias relativas entre ellos, permitiendo discretizar las debilidades y fortalezas de estas compañías alrededor de la banca electrónica.  

Gráfico de pesos de componentes principales (modelos) del artículo original de Ho, B. C.-T., y Wu, D. D. (2009).

Figura 5. Gráfico de pesos de componentes principales (modelos) del artículo original de Ho, B. C.-T., y Wu, D. D. (2009). 

La clasificación de cada uno de los resultados de los modelos DEA se puede ver en la figura 5.  Se muestran representados en los dos primeros componentes principales, interpretados de sur a norte y de oeste a este. Horizontalmente, de oeste a este, se representa la “medida general de eficiencia”; aquellos más eficientes en general se ubicarán en la dirección de la derecha. De cero hacia el norte y el sur, respectivamente, se encuentran los modelos “orientados al coste” y “orientados a Internet”. Por lo tanto, aquellos más eficientes en términos de costes se encontrarán en el norte, mientras que aquellos más eficientes en términos de la red estarán en el sur. Finalmente, se muestran unos vectores que se computan como la ponderación de los valores para todos los bancos y dan una referencia respecto a la eficiencia en coste, orientación a internet y medida general de eficiencia general. Estos vectores direccionales ayudan a mostrar las diferencias clave entre los bancos.  

Posteriormente, tomando dos componentes principales (con una explicación del 76.5% de la varianza inicial de los datos) se muestran en la Figura 6 los ranking de los bancos, quedando de la siguiente manera: 

Gráfico de pesos de componentes principales (bancos) del artículo original de Ho, B. C.-T., y Wu, D. D. (2009).

Figura 6. Gráfico de pesos de componentes principales (bancos) del artículo original de Ho, B. C.-T., y Wu, D. D. (2009). 

En la Figura 6 se presentan apuntes varios, Chinatrust Bank (CHINATRU), que se destaca por alcanzar una eficiencia del 100% en 30 de los 45 modelos analizados. En contraste, en el extremo izquierdo se encuentra King’s Town Bank (KINGSTON), cuya puntuación de eficiencia es muy baja en todos los modelos considerados. Estos resultados evidencian un claro aumento en la eficiencia de izquierda a derecha en la figura, lo que valida la interpretación del primer componente principal como una medida global de eficiencia. 

Por otro lado, el segundo componente principal se define como un determinante que diferencia las eficiencias orientadas al coste de las orientadas a Internet. Un ejemplo es Cathay United Bank (CATHAY), ubicado en la mitad superior del gráfico, lo que sugiere que no está orientado hacia Internet.  Además, los bancos en la parte inferior del gráfico representan aquellos que son eficientes en Internet pero tienen una eficiencia de costes relativamente menor. 

En cuanto a los bancos más eficientes en general, Chinatrust Bank (CHINATRU) es un ejemplo relevante, ya que utiliza tanto la eficiencia de costes como los servicios en línea de manera ventajosa. También encontramos ejemplos como Taipei Fubon Bank (TPFUBON), Cathay United Bank (CATHAY) y Lank Bank, que se ubican en el Vector I y son buenos en eficiencia medida en general y en eficiencia de costes sin una ventaja particular en Internet. 

Finalmente, E. Sun Bank (ESUN) y Taishin Bank (TAISHIN) son ejemplos representativos de los bancos ubicados en el vector IV, que destacan tanto en la eficiencia global como en el alcance web.  

El estudio ofrecía, en el momento de su publicación, una fotografía de la ubicación de los bancos en términos de eficiencia es relación con la banca electrónica, sin embargo, es importante mencionar que debido a la restricción y confidencialidad de mucha de la información necesaria para este tipo de estudios debe tomarse únicamente como un trabajo ejemplificativo en esta entrada más que una medición cuantitativa estricta. 

Conclusiones 

Como se ha podido explicar a lo largo de este artículo, el Análisis de Componentes Principales es una herramienta con grandes capacidades en el estudio de patrones o comportamientos presentes en conjuntos de datos con una alta cantidad de variables. La reducción de dimensionalidad puede ayudar a simplificar la explicación de estos patrones combinando aquellas variables que tienen correlación permitiendo clasificar u ordenar los objetos de estudio según sus características más destacables.  

En cualquier caso, no debe obviarse la potencial pérdida de información que puede ocurrir en comparación de la información original, por lo que debe tenerse cierta expertise en el campo de estudio para paliar la pérdida de precisión en el análisis, así como considerar otras herramientas en el escenario en que las relaciones entre las variables no sean lineales.  

Referencias 

Kurita, T. (2020). Principal Component Analysis (PCA). Computer Vision, 1–4. doi:10.1007/978-3-030-03243-2_649-1  

Dupont M, et. al. Chemometrics for Environmental Monitoring: A Review. Analytical methods. 2020;12. doi:10.1039/D0AY01389G. 

Mishra, S. P., Sarkar, U., Taraphder, S., Datta, S., Swain, D., Saikhom, R., … & Laishram, M. (2017). Multivariate statistical data analysis-principal component analysis (PCA). International Journal of Livestock Research, 7(5), 60-78. 

Ho, B. C.-T., & Wu, D. D. (2009). Online banking performance evaluation using data envelopment analysis and principal component analysis. Computers and Operations Research, 36(6), 1835-1842. 

Te puede interesar

Sistema asesor trading cuantitativo

  En el ámbito del mercado financiero actual, marcado por su alta volatilidad y complejidad, así como por la emergencia…

Fondos de inversión TECH o tecnológicos

Fondos de inversión TECH o tecnológicos

Los fondos de inversión TECH o tecnológicos suponen una opción muy interesante para inversores. Es conocido que en el mundo…

Valor en Riesgo por Montecarlo (VaR using Monte Carlo Simulation)

Valor en Riesgo por Montecarlo (VaR using Monte Carlo Simulation)

Este es el cuarto de una serie de artículos cuyo objetivo final es entender el Valor en riesgo por Montecarlo…

Te puede interesar

Sistema asesor trading cuantitativo

  En el ámbito del mercado financiero actual, marcado por su alta volatilidad y complejidad, así como por la emergencia…

Fondos de inversión TECH o tecnológicos

Fondos de inversión TECH o tecnológicos

Los fondos de inversión TECH o tecnológicos suponen una opción muy interesante para inversores. Es conocido que en el mundo…

Valor en Riesgo por Montecarlo (VaR using Monte Carlo Simulation)

Valor en Riesgo por Montecarlo (VaR using Monte Carlo Simulation)

Este es el cuarto de una serie de artículos cuyo objetivo final es entender el Valor en riesgo por Montecarlo…