La arquitectura Transformer de los modelos GPT

La arquitectura Transformer de GPT

Aprende los detalles de la arquitectura Transformer

Foto de fabio en Unsplash

En 2017, los autores de Google publicaron un artículo llamado La atención es todo lo que necesitas, en el cual presentaron la arquitectura Transformer. Esta nueva arquitectura alcanzó un éxito sin precedentes en tareas de traducción de lenguaje, y el artículo rápidamente se convirtió en una lectura esencial para cualquier persona inmersa en el área. Al igual que muchos otros, cuando leí el artículo por primera vez, pude ver el valor de sus ideas innovadoras, pero no me di cuenta de lo disruptivo que sería el artículo para otras áreas bajo el amplio paraguas de la IA. En pocos años, los investigadores adaptaron la arquitectura Transformer a muchas tareas diferentes a la traducción de lenguaje, incluyendo clasificación de imágenes, generación de imágenes y problemas de plegamiento de proteínas. En particular, la arquitectura Transformer revolucionó la generación de texto y allanó el camino para los modelos GPT y el crecimiento exponencial que estamos experimentando actualmente en IA.

Dado lo omnipresentes que son los modelos Transformer en la actualidad, tanto en la industria como en la academia, comprender los detalles de cómo funcionan es una habilidad importante para todo practicante de IA. Este artículo se centrará principalmente en la arquitectura de los modelos GPT, que se construyen utilizando un subconjunto de la arquitectura Transformer original, pero también cubrirá el Transformer original al final. Para el código del modelo, partiré de la implementación más clara que he encontrado para el Transformer original: El Transformer Anotado de la Universidad de Harvard. Mantendré las partes relevantes para un transformer de tipo GPT y eliminaré las partes que no lo son. A lo largo del camino, evitaré realizar cambios innecesarios en el código, para que puedas comparar fácilmente la versión de código similar a GPT con el original y comprender las diferencias.

Este artículo está dirigido a científicos de datos y ingenieros de aprendizaje automático experimentados. En particular, asumo que tienes un buen conocimiento de álgebra tensorial, que has implementado redes neuronales desde cero y que te sientes cómodo con Python. Además, aunque he hecho todo lo posible para que este artículo sea independiente, te resultará más fácil entenderlo si has leído mi artículo anterior sobre Cómo funcionan los modelos GPT.

El código de esta publicación se puede encontrar en el proyecto asociado en GitHub.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Ajusta y despliega Mistral 7B con Amazon SageMaker JumpStart

Hoy, nos complace anunciar la capacidad de ajustar el modelo Mistral 7B utilizando Amazon SageMaker JumpStart. Ahora ...

Inteligencia Artificial

¿Reemplazará la IA a la humanidad?

Descubramos si la inteligencia artificial es realmente inteligente y tiene el potencial de superar a los humanos.

Inteligencia Artificial

Superando las Alucinaciones en IA Cómo Factually Augmented RLHF Optimiza la Coherencia de Visión y Lenguaje en Modelos Multimodales Grandes

Mediante un entrenamiento adicional utilizando combinaciones de imágenes y texto o ajustándolas mediante conjuntos de...

Inteligencia Artificial

Las características de IA SaaS se encuentran con aplicaciones sin fosos

Varias empresas de SaaS han anunciado recientemente características de IA generativa, lo cual representa una amenaza ...

Inteligencia Artificial

Los adolescentes se esfuerzan por ampliar la alfabetización en IA

Algunos adolescentes están pidiendo a sus escuelas que brinden experiencias de aprendizaje de IA más amplias.