Construyendo PCA desde cero

PCA desde cero

Potencia tu comprensión del Análisis de Componentes Principales con una derivación paso a paso

Globos de aire caliente. Imagen del autor.

El Análisis de Componentes Principales (PCA) es una técnica antigua comúnmente utilizada para la reducción de dimensionalidad. A pesar de ser un tema conocido entre los científicos de datos, la derivación de PCA a menudo se pasa por alto, dejando valiosos conocimientos sobre la naturaleza de los datos y la relación entre el cálculo, la estadística y el álgebra lineal.

En este artículo, derivaremos PCA a través de un experimento mental, comenzando con dos dimensiones y extendiéndonos a dimensiones arbitrarias. A medida que progresemos en cada derivación, veremos la armoniosa interacción de ramas aparentemente distintas de las matemáticas, culminando en una elegante transformación de coordenadas. Esta derivación desentrañará la mecánica de PCA y revelará la fascinante interconexión de conceptos matemáticos. ¡Embarquémonos en esta iluminadora exploración de PCA y su belleza!

Calentando en dos dimensiones

Como seres humanos que vivimos en un mundo tridimensional, generalmente comprendemos conceptos bidimensionales, y aquí es donde comenzaremos en este artículo. Comenzar en dos dimensiones simplificará nuestro primer experimento mental y nos permitirá comprender mejor la naturaleza del problema.

Teoría

Tenemos un conjunto de datos que se parece algo a esto (ten en cuenta que cada característica debe estar escalada para tener una media de 0 y una varianza de 1):

(1) Datos correlacionados. Imagen del autor.

Inmediatamente notamos que estos datos se sitúan en un sistema de coordenadas descrito por x1 y x2, y estas variables están correlacionadas. Nuestro objetivo es encontrar un nuevo sistema de coordenadas informado por la estructura de covarianza de los datos. En particular, el primer vector de base en el sistema de coordenadas debe explicar la mayoría de la varianza al proyectar los datos originales sobre él.

Nuestro primer paso es encontrar un vector tal que cuando proyectemos los datos originales sobre el vector, se preserve la máxima cantidad de varianza. En otras palabras, el vector ideal apunta en la dirección de máxima varianza, según lo definido por el…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

10 millones se registran en la aplicación rival de Twitter de Meta, Threads.

La experiencia de microblogging similar a Twitter sugiere que Meta Platforms se ha estado preparando para desafiar di...

Inteligencia Artificial

La Sintonización de Símbolos de Google es una nueva técnica de ajuste fino que permite el aprendizaje en contexto en LLMs

Gracias a la ampliación de modelos de lenguaje, el aprendizaje automático ha experimentado un aumento revolucionario,...

Investigación

La Administración de Biden selecciona al presidente de Google para el esfuerzo de investigación de chips.

La Casa Blanca eligió al presidente de Alphabet, John Hennessy, y a otros cuatro expertos de la industria tecnológica...

Aprendizaje Automático

Meta AI presenta MusicGen un modelo de generación de música simple y controlable impulsado tanto por texto como por melodía.

Crear composiciones musicales a partir de descripciones de texto, como “canción de rock de los años 90 con un r...

Inteligencia Artificial

Las 10 principales startups de IA generativa en el mundo

Introducción La inteligencia artificial generativa está atrayendo la curiosidad de personas de todo el mundo. Los per...