La arquitectura Transformer de los modelos GPT
La arquitectura Transformer de GPT
Aprende los detalles de la arquitectura Transformer
En 2017, los autores de Google publicaron un artículo llamado La atención es todo lo que necesitas, en el cual presentaron la arquitectura Transformer. Esta nueva arquitectura alcanzó un éxito sin precedentes en tareas de traducción de lenguaje, y el artículo rápidamente se convirtió en una lectura esencial para cualquier persona inmersa en el área. Al igual que muchos otros, cuando leí el artículo por primera vez, pude ver el valor de sus ideas innovadoras, pero no me di cuenta de lo disruptivo que sería el artículo para otras áreas bajo el amplio paraguas de la IA. En pocos años, los investigadores adaptaron la arquitectura Transformer a muchas tareas diferentes a la traducción de lenguaje, incluyendo clasificación de imágenes, generación de imágenes y problemas de plegamiento de proteínas. En particular, la arquitectura Transformer revolucionó la generación de texto y allanó el camino para los modelos GPT y el crecimiento exponencial que estamos experimentando actualmente en IA.
Dado lo omnipresentes que son los modelos Transformer en la actualidad, tanto en la industria como en la academia, comprender los detalles de cómo funcionan es una habilidad importante para todo practicante de IA. Este artículo se centrará principalmente en la arquitectura de los modelos GPT, que se construyen utilizando un subconjunto de la arquitectura Transformer original, pero también cubrirá el Transformer original al final. Para el código del modelo, partiré de la implementación más clara que he encontrado para el Transformer original: El Transformer Anotado de la Universidad de Harvard. Mantendré las partes relevantes para un transformer de tipo GPT y eliminaré las partes que no lo son. A lo largo del camino, evitaré realizar cambios innecesarios en el código, para que puedas comparar fácilmente la versión de código similar a GPT con el original y comprender las diferencias.
Este artículo está dirigido a científicos de datos y ingenieros de aprendizaje automático experimentados. En particular, asumo que tienes un buen conocimiento de álgebra tensorial, que has implementado redes neuronales desde cero y que te sientes cómodo con Python. Además, aunque he hecho todo lo posible para que este artículo sea independiente, te resultará más fácil entenderlo si has leído mi artículo anterior sobre Cómo funcionan los modelos GPT.
El código de esta publicación se puede encontrar en el proyecto asociado en GitHub.
- Hackeando la función JSON_ARRAYAGG de MySQL para crear dimensiones dinámicas y de múltiples valores
- Genera ideas de imanes de atracción con ChatGPT
- Investigadores de UC Berkeley y Deepmind proponen SuccessVQA una reformulación de la detección de éxito que es compatible con VLM pre-entrenados como Flamingo.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ¡Sí! OpenTelemetry es una parte crítica para asegurar tus sistemas.
- Investigadores de Stanford presentan la Difusión Localmente Condicionada un método para la generación composicional de texto a imagen utilizando modelos de difusión.
- Raíces cúbicas utilizando cuadráticas genéticas adaptadas
- Conoce Quivr Un proyecto de código abierto diseñado para almacenar y recuperar información desestructurada como un segundo cerebro
- Guía de Chroma DB | Una Tienda de Vectores para tus LLMs Generativos de IA
- Cómo obtener esa oferta de trabajo de regreso
- Conoce CutLER (Cut-and-LEaRn) Un enfoque simple de IA para entrenar modelos de detección de objetos y segmentación de instancias sin anotaciones humanas