Construyendo PCA desde cero

PCA desde cero

Potencia tu comprensión del Análisis de Componentes Principales con una derivación paso a paso

Globos de aire caliente. Imagen del autor.

El Análisis de Componentes Principales (PCA) es una técnica antigua comúnmente utilizada para la reducción de dimensionalidad. A pesar de ser un tema conocido entre los científicos de datos, la derivación de PCA a menudo se pasa por alto, dejando valiosos conocimientos sobre la naturaleza de los datos y la relación entre el cálculo, la estadística y el álgebra lineal.

En este artículo, derivaremos PCA a través de un experimento mental, comenzando con dos dimensiones y extendiéndonos a dimensiones arbitrarias. A medida que progresemos en cada derivación, veremos la armoniosa interacción de ramas aparentemente distintas de las matemáticas, culminando en una elegante transformación de coordenadas. Esta derivación desentrañará la mecánica de PCA y revelará la fascinante interconexión de conceptos matemáticos. ¡Embarquémonos en esta iluminadora exploración de PCA y su belleza!

Calentando en dos dimensiones

Como seres humanos que vivimos en un mundo tridimensional, generalmente comprendemos conceptos bidimensionales, y aquí es donde comenzaremos en este artículo. Comenzar en dos dimensiones simplificará nuestro primer experimento mental y nos permitirá comprender mejor la naturaleza del problema.

Teoría

Tenemos un conjunto de datos que se parece algo a esto (ten en cuenta que cada característica debe estar escalada para tener una media de 0 y una varianza de 1):

(1) Datos correlacionados. Imagen del autor.

Inmediatamente notamos que estos datos se sitúan en un sistema de coordenadas descrito por x1 y x2, y estas variables están correlacionadas. Nuestro objetivo es encontrar un nuevo sistema de coordenadas informado por la estructura de covarianza de los datos. En particular, el primer vector de base en el sistema de coordenadas debe explicar la mayoría de la varianza al proyectar los datos originales sobre él.

Nuestro primer paso es encontrar un vector tal que cuando proyectemos los datos originales sobre el vector, se preserve la máxima cantidad de varianza. En otras palabras, el vector ideal apunta en la dirección de máxima varianza, según lo definido por el…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Construyendo PCA desde cero

Potencia tu comprensión del Análisis de Componentes Principales con una derivación paso a paso

Calentando en dos dimensiones

Teoría

Was this article helpful?

Cómo construir un pipeline de detección de cambios de datos completamente automatizado

Tres desafíos en la implementación de modelos generativos en producción

Inteligencia Artificial

10 millones se registran en la aplicación rival de Twitter de Meta, Threads.

La Sintonización de Símbolos de Google es una nueva técnica de ajuste fino que permite el aprendizaje en contexto en LLMs

La Administración de Biden selecciona al presidente de Google para el esfuerzo de investigación de chips.

Meta AI presenta MusicGen un modelo de generación de música simple y controlable impulsado tanto por texto como por melodía.

Investigadores de Adobe proponen DMV3D un nuevo enfoque de generación 3D que utiliza un modelo de reconstrucción 3D basado en Transformador para eliminar el ruido de la difusión de múltiples vistas.

Las 10 principales startups de IA generativa en el mundo