GPT – Explicado de manera intuitiva y exhaustiva

GPT - Una explicación intuitiva y exhaustiva

Procesamiento del Lenguaje Natural | Aprendizaje Automático | Chat GPT

Explorando la arquitectura de los Transformers Generativos Previo al Entrenamiento de OpenAI.

“Experto en Mezclas” por el autor utilizando MidJourney. Todas las imágenes son del autor, salvo que se especifique lo contrario.

En este artículo exploraremos la evolución de los modelos GPT de OpenAI. Hablaremos brevemente sobre el transformer, describiremos las variaciones del transformer que dieron lugar al primer modelo GPT, luego pasaremos por GPT1, GPT2, GPT3 y GPT4 para construir una comprensión conceptual completa del estado del arte.

¿Para quién es útil? Cualquier persona interesada en el procesamiento del lenguaje natural (NLP, por sus siglas en inglés) o los avances en IA de vanguardia.

¿Qué tan avanzado es este artículo? No es un artículo complejo, principalmente es conceptual. Dicho esto, hay muchos conceptos, por lo que puede parecer intimidante para científicos de datos menos experimentados.

Prerrequisitos: En este artículo hablaré brevemente sobre los transformers, pero puedes consultar mi artículo dedicado al tema para obtener más información.

Transformers: Explicados de manera intuitiva y exhaustiva

Explorando la ola moderna del aprendizaje automático: desmontando el transformer paso a paso

towardsdatascience.com

Una breve introducción a los Transformers

Antes de adentrarnos en GPT, quiero explicar brevemente qué es el transformer. En su sentido más básico, el transformer es un modelo de estilo codificador-decodificador.

<img alt="Un transformer trabajando en una tarea de traducción. La entrada (Soy un gerente) se comprime en una representación abstracta que codifica el significado de toda la entrada. El decodificador trabaja de forma recurrente, alimentándose a sí mismo, para construir la salida. De mi artículo sobre transformers

El codificador convierte una entrada en una representación abstracta que el decodificador utiliza para generar iterativamente la salida.

<img alt="Representación de alto nivel de cómo se relaciona la salida del codificador con el decodificador. El decodificador hace referencia a la entrada codificada en cada bucle recursivo de la salida. De mi artículo sobre transformers

Tanto el codificador como el decodificador utilizan representaciones abstractas del texto que se crean mediante la auto-atención con múltiples cabezas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Investigación

Entrenando máquinas para aprender más como lo hacen los humanos

Los investigadores identifican una propiedad que ayuda a los modelos de visión por computadora a aprender a represent...

Inteligencia Artificial

¿Podemos superar la fragilidad inmediata en los modelos de lenguaje grandes? La IA de Google presenta la calibración por lotes para un rendimiento mejorado.

Los modelos de lenguaje grandes han surgido recientemente como herramientas poderosas para diversas tareas de compren...

Inteligencia Artificial

El modelo de IA puede ayudar a determinar dónde se originó el cáncer de un paciente

Las predicciones del modelo OncoNPC podrían permitir a los médicos elegir tratamientos específicos para tumores difíc...