Del Texto más allá de las Palabras

Del Texto más allá de las Palabras' -> 'Beyond Words

Una breve historia de los Modelos de Lenguaje Grande (LLMs)

Foto de Andy Kelly en Unsplash

Parece probable que una vez que el método de pensamiento de las máquinas haya comenzado, no tardaría mucho en superar nuestras débiles capacidades… Serían capaces de conversar entre sí para agudizar sus ingenios. En algún momento, por lo tanto, deberíamos esperar que las máquinas tomen el control.

– Alan Turing (1912–1954)

Hola lectores, hoy vivimos en la era de los Modelos de Lenguaje Grande (LLMs), los cuales potencian software como GPT4, ChatGPT, DALL·E, y muchas otras tecnologías de IA. Estas tecnologías son responsables de algunos de los avances más significativos en la historia de la humanidad, y por lo tanto estamos al borde de un cambio societal importante. Pronto, posiblemente dentro de nuestra vida, los sistemas de IA que desarrollamos y utilizamos ampliamente podrían volverse mucho más inteligentes que la inteligencia combinada de todos los humanos. Esto podría ser una bendición para la humanidad en un extremo, mientras que en el otro extremo se espera una maldición.

Se puede llamar bendición debido a las innumerables posibilidades que se descubren y aún están por descubrir, las cuales tienen el potencial de empoderar a la humanidad, liberándola de la pobreza generalizada, el sufrimiento y la atemporal aspiración humana, la “felicidad”.

Llámalo maldición debido al poder ejercido por la AGI superinteligente (Inteligencia Artificial General), que tiene el potencial de eliminar intencional o involuntariamente toda la civilización humana. Esta amenaza puede manifestarse en forma de totalitarismo orwelliano, como se describe en la novela “1984”, o en la distopía de Huxley en la novela “Un mundo feliz”, donde él afirma: “Las personas llegarán a amar su opresión, a adorar las tecnologías que anulan su capacidad de pensar”.

Actualmente estamos experimentando una transición rápida y profunda de una fase de existencia a otra, y somos muy conscientes del destino que les espera a las especies que no logran adaptarse a un mundo cambiante: enfrentan la extinción. Por lo tanto, es importante que estudiemos estos temas de todo corazón, sumergiéndonos en su exploración, obtenemos el conocimiento y la perspicacia necesarios para navegar el camino extraordinario que se encuentra ante nosotros. Comencemos nuestro viaje de exploración a través de este artículo, “De Texto a Más Allá de las Palabras: Una Breve Historia de los Modelos de Lenguaje Grande”.

Introducción

Imagina tener un amigo inteligente que pueda entender lo que estás diciendo y responder de una manera que tenga sentido. Los modelos de lenguaje son como esos amigos inteligentes, pero en forma de programas informáticos. Utilizan técnicas avanzadas para aprender de mucho texto y volverse realmente buenos en la comprensión y generación de lenguaje. Pueden hacer cosas como completar frases, traducir idiomas, responder preguntas y analizar el sentimiento o la emoción en el texto.

El Origen: Surgimiento de los Modelos de Lenguaje Grande

Estudiar los primeros modelos de lenguaje fue importante porque sentaron las bases para avances posteriores. Nos enseñaron más sobre cómo funciona el lenguaje y cómo las computadoras pueden aprender de él. Pero no podían entender completamente las complejidades del lenguaje humano. Utilizaban enfoques diferentes para dar sentido a las palabras y las frases.

Un enfoque consistía en utilizar reglas, que eran como instrucciones sobre cómo procesar el lenguaje. Estas reglas fueron creadas por expertos y le decían a la computadora cómo analizar y generar lenguaje. Pero estos sistemas basados en reglas tenían dificultades con las complejidades del lenguaje humano y a menudo no podían entender el significado completo.

Otro enfoque consistía en utilizar estadísticas, lo que significa observar patrones en muchos ejemplos de lenguaje. Las computadoras aprenderían de estos patrones y harían suposiciones sobre qué palabras deberían venir a continuación. Si bien este enfoque era mejor para manejar algunas complejidades del lenguaje, aún tenía limitaciones para comprender el contexto y generar frases significativas.

Más tarde, surgió un modelo más avanzado, que utilizaba nuevas técnicas que lo hacían mucho mejor en la comprensión y generación de lenguaje. Este nuevo modelo podía capturar las conexiones entre las palabras y entender el contexto de manera mucho más efectiva. Se llamó Transformer.

El Transformer: Un Avance para los Modelos de Lenguaje

Foto de Praswin Prakashan en Unsplash

Bueno, por supuesto, no estamos hablando de Bumblebee, aquí estamos hablando de un modelo de aprendizaje profundo en problemas de secuencia a secuencia como la traducción neuronal automática, las primeras propuestas utilizaban RNN (Redes Neuronales Recurrentes) en una arquitectura de codificador-decodificador. Sin embargo, estas arquitecturas tenían dificultades para retener información desde el principio de secuencias largas cuando se agregaban nuevos elementos. El estado oculto del codificador típicamente se asociaba con la palabra más reciente en la oración de entrada. En consecuencia, si el decodificador solo se basara en el último estado oculto, perdería información importante sobre los elementos iniciales. Para abordar esta limitación, se introdujo el mecanismo de atención.

En lugar de depender únicamente del último estado del codificador, el mecanismo de atención permite que el decodificador acceda a todos los estados del codificador, capturando información de toda la secuencia de entrada. Esto implica extraer una suma ponderada de los estados anteriores del codificador, permitiendo al decodificador asignar importancia a cada elemento de la entrada al predecir el siguiente elemento de salida. Aunque este enfoque aún tiene una limitación: cada secuencia debe procesarse un elemento a la vez. Tanto el codificador como el decodificador deben esperar a que se completen los t-1 pasos antes de procesar el t-ésimo paso. En consecuencia, al tratar con conjuntos de datos grandes, este enfoque se vuelve lento y computacionalmente ineficiente.

El modelo Transformer utiliza un mecanismo de auto-atención para extraer características de cada palabra, determinando su importancia en relación con otras palabras en la oración. A diferencia de las unidades recurrentes, esta extracción de características involucra sumas ponderadas y activaciones, lo que lo hace altamente paralelizable y eficiente.

Este uso del mecanismo de atención se presentó en el artículo “Attention is all you need” (Vaswani, Ashish & Shazeer, Noam & Parmar, Niki & Uszkoreit, Jakob & Jones, Llion & Gomez, Aidan & Kaiser, Lukasz & Polosukhin, Illia. (2017))[1]. Este artículo logró un avance significativo en el uso del mecanismo de atención, que fue la mejora clave para un modelo conocido como Transformer.

Los modelos más famosos y actuales que surgieron en tareas de procesamiento del lenguaje natural (NLP) consisten en docenas de transformers y una de sus variantes fue GPT-2.

Predecesores de los Modelos de Lenguaje Grande

Aquí exploraremos dos modelos influyentes, Word2Vec y GloVe, que revolucionaron la representación de palabras en NLP. Además, profundizaremos en las redes neuronales recurrentes (RNN) y su capacidad para procesar datos secuenciales. Descubramos los aspectos clave de estos modelos y sus contribuciones al campo del procesamiento del lenguaje.

  • Word2Vec: Un modelo popular presentado en 2013. Representa palabras como vectores densos en un espacio de alta dimensión, capturando significados de palabras. Al entrenar con datos de texto extensos, aprende a predecir las palabras circundantes dada una palabra objetivo. Word2Vec transformó la representación de palabras en el procesamiento del lenguaje natural, permitiendo una mejor comprensión de los significados de las palabras.
  • GloVe: Introducido en 2014, es otro modelo influyente. Representa palabras como vectores en un espacio continuo y utiliza estadísticas globales sobre la co-ocurrencia de palabras. Al considerar el contexto de las palabras, GloVe captura tanto relaciones semánticas como sintácticas, mejorando la comprensión del lenguaje.
  • Redes Neuronales Recurrentes (RNN): Las RNN son redes neuronales que procesan datos secuenciales como oraciones. Mantienen una memoria interna para capturar información previa. Las RNN sobresalen en generar una salida relevante basada en una secuencia de entrada, pero tienen dificultades con dependencias a largo plazo y la comprensión de un contexto extenso.

Estos modelos demostraron la importancia de aprender representaciones distribuidas de palabras, capturando relaciones semánticas y modelando datos secuenciales. Esto sentó las bases para modelos de lenguaje a gran escala avanzados como GPT-3 y más allá, empujando los límites del procesamiento del lenguaje.

Evolución de los modelos a gran escala

Tracemos la línea de tiempo de los avances en los modelos de lenguaje a gran escala, desde GPT-1 hasta GPT-3 y más allá.

  • GPT-1 (Generative Pre-Trained Transformer 1): En 2018, OpenAI presentó GPT-1, un modelo de lenguaje a gran escala pionero basado en transformers. Fue entrenado con grandes cantidades de datos de texto de internet y mostró habilidades impresionantes en el lenguaje, destacando en diversas tareas.
  • GPT-2 (Generative Pre-Trained Transformer 2): Lanzado en 2019, GPT-2 elevó los modelos de lenguaje a gran escala a nuevos niveles. Con un conjunto de datos más grande que GPT-1 y 1.5 mil millones de parámetros, demostró habilidades excepcionales en la generación de texto. Aunque inicialmente restringido debido a preocupaciones, OpenAI luego hizo el modelo completo accesible al público.
  • GPT-3 (Generative Pre-Trained Transformer 3): Revelado en 2020, GPT-3 representó un avance revolucionario en la modelización del lenguaje a gran escala. Se convirtió en uno de los modelos más grandes jamás creados, con 175 mil millones de parámetros. GPT-3 demostró habilidades extraordinarias en la generación de lenguaje y ofreció un rendimiento excepcional en diversas tareas, desde responder preguntas hasta generación de código y conversaciones realistas. ChatGPT se basa en la arquitectura de GPT-3. El término “ChatGPT” se utiliza a menudo para referirse a la implementación específica del modelo GPT-3 diseñada para conversaciones interactivas y sistemas de diálogo.

Además, Sam Altman, el CEO de OpenAI, en una de sus entrevistas, confirmó que el GPT-4 tendrá alrededor de 100 billones de parámetros. Por lo tanto, será otro gran avance en el desarrollo de la super AGI.

¿Se verán afectados los empleos?

Bueno, no dudamos que este gran avance en el campo de la Inteligencia Artificial va a crear nuevos empleos. Pero, ¿eso también significa que algunos de los empleos que vemos hoy en día en todo el mundo podrían no existir mañana?

Vamos a ver qué respondió Sam Altman a una de las preguntas similares en una de sus entrevistas.

“Una gran categoría que puede verse impactada de manera masiva, supongo que diría, es la categoría de servicio al cliente, en la que podría ver que hay muchos menos empleos relativamente pronto. No estoy seguro de eso, pero podría creerlo. Quiero ser claro; creo que estos sistemas harán que muchos empleos simplemente desaparezcan. Cada revolución tecnológica lo hace. Mejorarán muchos empleos y los harán mucho mejores y más divertidos y mejor pagados, y crearán nuevos empleos que nos resultarán difíciles de imaginar aunque empecemos a ver los primeros destellos de ellos.

Creo que, como sociedad, estamos confundidos sobre si queremos trabajar más o trabajar menos. Y ciertamente, sobre si a la mayoría de las personas les gustan sus empleos y obtienen valor de ellos o no. Algunas personas sí. Amo mi trabajo; sospecho que tú también. Eso es un verdadero privilegio, no todos pueden decir eso. Si podemos llevar a más personas del mundo a mejores empleos y trabajar en algo que pueda ser un concepto más amplio, no algo que debas hacer para poder comer, sino algo que haces como una expresión creativa y una forma de encontrar satisfacción y felicidad y lo que sea. Incluso si esos empleos se ven extremadamente diferentes a los empleos de hoy, creo que eso es genial.”

— Sam Altman, CEO de OpenAI

Entonces, esto resume bastante bien mi artículo. Disculpas si fue demasiado largo, espero que te haya gustado. Hablamos sobre el surgimiento de los LLM y presenciamos su recorrido “De Texto a Más Allá de las Palabras. Una cosa que sabemos con certeza es que estos modelos seguirán mejorando a un ritmo mucho más rápido día a día. Pero eso no garantiza que no afectarán nuestras vidas de manera negativa. Habrá nuevos empleos, pero algunos empleos actuales también desaparecerán; podremos hacer 10 veces más, pero entonces habrá 10 veces más por hacer. Solo hay una verdad, y es que el mundo no volverá a ser el mismo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Meet FreeU Una nueva técnica de IA para mejorar la calidad generativa sin entrenamiento adicional ni ajuste fino

Los modelos de difusión probabilística, una categoría de vanguardia de modelos generativos, se han convertido en un p...

Inteligencia Artificial

Por qué Bankrate renunció a los artículos generados por IA

En enero, Bankrate y su sitio hermano, CNET, causaron sensación al publicar abiertamente cientos de artículos generad...

Inteligencia Artificial

Nuevo curso técnico de inmersión profunda Fundamentos de IA generativa en AWS

Generative AI Foundations en AWS es un nuevo curso de inmersión técnica que te proporciona los fundamentos conceptual...

Inteligencia Artificial

Girando hacia el futuro La nueva guía de ondas está cambiando la forma en que se transfiere y se manipula los datos.

Los físicos han desarrollado un método para ingeniar el giro electromagnético en metasuperficies, abordando las neces...