La arquitectura Transformer de los modelos GPT

La arquitectura Transformer de GPT

Aprende los detalles de la arquitectura Transformer

En 2017, los autores de Google publicaron un artículo llamado La atención es todo lo que necesitas, en el cual presentaron la arquitectura Transformer. Esta nueva arquitectura alcanzó un éxito sin precedentes en tareas de traducción de lenguaje, y el artículo rápidamente se convirtió en una lectura esencial para cualquier persona inmersa en el área. Al igual que muchos otros, cuando leí el artículo por primera vez, pude ver el valor de sus ideas innovadoras, pero no me di cuenta de lo disruptivo que sería el artículo para otras áreas bajo el amplio paraguas de la IA. En pocos años, los investigadores adaptaron la arquitectura Transformer a muchas tareas diferentes a la traducción de lenguaje, incluyendo clasificación de imágenes, generación de imágenes y problemas de plegamiento de proteínas. En particular, la arquitectura Transformer revolucionó la generación de texto y allanó el camino para los modelos GPT y el crecimiento exponencial que estamos experimentando actualmente en IA.

Dado lo omnipresentes que son los modelos Transformer en la actualidad, tanto en la industria como en la academia, comprender los detalles de cómo funcionan es una habilidad importante para todo practicante de IA. Este artículo se centrará principalmente en la arquitectura de los modelos GPT, que se construyen utilizando un subconjunto de la arquitectura Transformer original, pero también cubrirá el Transformer original al final. Para el código del modelo, partiré de la implementación más clara que he encontrado para el Transformer original: El Transformer Anotado de la Universidad de Harvard. Mantendré las partes relevantes para un transformer de tipo GPT y eliminaré las partes que no lo son. A lo largo del camino, evitaré realizar cambios innecesarios en el código, para que puedas comparar fácilmente la versión de código similar a GPT con el original y comprender las diferencias.

Este artículo está dirigido a científicos de datos y ingenieros de aprendizaje automático experimentados. En particular, asumo que tienes un buen conocimiento de álgebra tensorial, que has implementado redes neuronales desde cero y que te sientes cómodo con Python. Además, aunque he hecho todo lo posible para que este artículo sea independiente, te resultará más fácil entenderlo si has leído mi artículo anterior sobre Cómo funcionan los modelos GPT.

El código de esta publicación se puede encontrar en el proyecto asociado en GitHub.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Este artículo de IA de Georgia Tech propone un método de inteligencia artificial para ayudar a identificar nuevos candidatos para posibles superconductores de manera más rápida y confiable’.

La arquitectura Transformer de los modelos GPT

Aprende los detalles de la arquitectura Transformer

Was this article helpful?

Hackeando la función JSON_ARRAYAGG de MySQL para crear dimensiones dinámicas y de múltiples valores

Este artículo de IA de Georgia Tech propone un método de inteligencia artificial para ayudar a identificar nuevos candidatos para posibles superconductores de manera más rápida y confiable’.

Inteligencia Artificial

Ajusta y despliega Mistral 7B con Amazon SageMaker JumpStart

¿Reemplazará la IA a la humanidad?

Superando las Alucinaciones en IA Cómo Factually Augmented RLHF Optimiza la Coherencia de Visión y Lenguaje en Modelos Multimodales Grandes

Las características de IA SaaS se encuentran con aplicaciones sin fosos

Conozca a PepCNN una herramienta de aprendizaje profundo para predecir los residuos de unión de péptidos en proteínas utilizando características de secuencia, estructura y modelos de lenguaje.

Los adolescentes se esfuerzan por ampliar la alfabetización en IA