3 preguntas Jacob Andreas sobre modelos de lenguaje grandes

3 questions by Jacob Andreas on large language models.

El científico de CSAIL describe la investigación de procesamiento de lenguaje natural a través de modelos avanzados de aprendizaje automático e investigación sobre cómo el lenguaje puede mejorar otros tipos de inteligencia artificial.

Jacob Andreas is broadly interested in using language as a communicative and computational tool.

Las palabras, los datos y los algoritmos se combinan,
Un artículo sobre LLMs, tan divino.
Un vistazo al mundo lingüístico,
Donde las máquinas del lenguaje se despliegan.

Fue una inclinación natural encargar a un gran modelo de lenguaje (LLM) como CHATGPT la creación de un poema que profundice en el tema de los grandes modelos de lenguaje, y posteriormente utilizar dicho poema como pieza introductoria para este artículo.

Entonces, ¿cómo se ensambló dicho poema en un paquete ordenado, con palabras que riman y pequeñas porciones de frases ingeniosas?

Acudimos directamente a la fuente: el profesor asistente del MIT y principal investigador de CSAIL, Jacob Andreas, cuya investigación se centra en avanzar en el campo del procesamiento del lenguaje natural, tanto en el desarrollo de modelos de aprendizaje automático de última generación como en la exploración del potencial del lenguaje como medio para mejorar otras formas de inteligencia artificial. Esto incluye trabajos pioneros en áreas como el uso del lenguaje natural para enseñar a los robots y aprovechar el lenguaje para permitir que los sistemas de visión por computadora articulen la lógica detrás de sus procesos de toma de decisiones. Interrogamos a Andreas sobre los mecanismos, implicaciones y perspectivas futuras de la tecnología en cuestión.

P: El lenguaje es un ecosistema rico en matices sutiles que los humanos utilizan para comunicarse entre sí, como el sarcasmo, la ironía y otras formas de lenguaje figurativo. Existen numerosas formas de transmitir significado más allá de lo literal. ¿Es posible que los grandes modelos de lenguaje comprendan las complejidades del contexto? ¿Qué significa que un modelo logre el “aprendizaje en contexto”? Además, ¿cómo procesan los transformadores multilingües las variaciones y dialectos de diferentes idiomas además del inglés?

R: Cuando pensamos en los contextos lingüísticos, estos modelos son capaces de razonar sobre documentos y fragmentos de texto mucho, mucho más largos y amplios que realmente cualquier cosa que hayamos sabido construir antes. Pero eso es solo un tipo de contexto. Con los humanos, la producción y comprensión del lenguaje tiene lugar en un contexto fundamentado. Por ejemplo, sé que estoy sentado en esta mesa. Hay objetos a los que puedo referirme, y los modelos de lenguaje que tenemos ahora típicamente no pueden ver nada de eso cuando interactúan con un usuario humano.

Existe un contexto social más amplio que informa gran parte de nuestro uso del lenguaje, del cual estos modelos no son, al menos de inmediato, sensibles ni conscientes. No está claro cómo proporcionarles información sobre el contexto social en el que tiene lugar su generación y modelado del lenguaje. Otra cosa importante es el contexto temporal. Estamos grabando este video en un momento específico en el que ciertos hechos son verdaderos. Los modelos que tenemos ahora fueron entrenados en, nuevamente, una instantánea de internet que se detuvo en un momento particular, para la mayoría de los modelos que tenemos ahora, probablemente hace un par de años, y no saben nada de lo que ha sucedido desde entonces. Ni siquiera saben en qué momento en el tiempo están generando texto. Descubrir cómo proporcionar todos esos diferentes tipos de contextos también es una pregunta interesante.

Tal vez uno de los componentes más sorprendentes aquí sea este fenómeno llamado aprendizaje en contexto. Si tomo un pequeño conjunto de datos de ML [aprendizaje automático] y lo alimento al modelo, como una crítica de cine y la calificación de estrellas asignada a la película por el crítico, al dar solo un par de ejemplos de estas cosas, los modelos de lenguaje generan la capacidad tanto de generar críticas de cine con un sonido plausible como de predecir las calificaciones de estrellas. En general, si tengo un problema de aprendizaje automático, tengo mis entradas y mis salidas. A medida que le das una entrada al modelo, le das una entrada más y le pides que prediga la salida, los modelos a menudo pueden hacer esto muy bien.

Esta es una forma de hacer aprendizaje automático super interesante y fundamentalmente diferente, donde tengo este modelo general de propósito único en el que puedo insertar muchos conjuntos de datos de aprendizaje automático pequeños, y sin tener que entrenar un nuevo modelo en absoluto, clasificador o generador o cualquier cosa especializada en mi tarea particular. Esto es algo en lo que realmente hemos estado pensando mucho en mi grupo, y en algunas colaboraciones con colegas de Google, tratando de entender exactamente cómo surge este fenómeno de aprendizaje en contexto.

P: Nos gusta creer que los humanos están (al menos en cierta medida) en busca de lo que se conoce objetiva y moralmente como verdadero. Los grandes modelos de lenguaje, quizás con brújulas morales mal definidas o aún no comprendidas, no están obligados a la verdad. ¿Por qué tienden los grandes modelos de lenguaje a alucinar hechos o afirmar con confianza inexactitudes? ¿Limita eso la utilidad para aplicaciones donde la precisión de los hechos es fundamental? ¿Existe una teoría líder sobre cómo resolver esto?

R: Está bien documentado que estos modelos alucinan hechos, que no siempre son confiables. Recientemente, le pedí a ChatGPT que describiera algunas de las investigaciones de nuestro grupo. Nombró cinco documentos, cuatro de los cuales no son documentos que realmente existen, y uno de los cuales es un documento real que fue escrito por un colega mío que vive en el Reino Unido, con quien nunca he coautorizado. La veracidad sigue siendo un gran problema. Incluso más allá de eso, las cosas que implican razonamiento en un sentido realmente general, las cosas que implican cálculos complicados, inferencias complicadas, aún parecen ser realmente difíciles para estos modelos. Puede haber limitaciones fundamentales de esta arquitectura de transformador, y creo que se necesita mucho más trabajo de modelado para mejorar las cosas.

Aún es en parte una pregunta abierta por qué sucede, pero posiblemente, solo arquitectónicamente, hay razones por las que es difícil para estos modelos construir modelos coherentes del mundo. Pueden hacerlo un poco. Puedes hacerles preguntas factuales, preguntas de trivialidades, y la mayoría de las veces las responden correctamente, tal vez incluso más a menudo que un usuario humano promedio en la calle. Pero a diferencia de un usuario humano promedio, no está claro si hay algo que vive dentro de este modelo de lenguaje que corresponde a una creencia sobre el estado del mundo. Creo que esto se debe tanto a razones arquitectónicas, que los transformadores no tienen, obviamente, en ningún lugar para poner esa creencia, como a datos de entrenamiento, que estos modelos se entrenan en internet, que fue creado por un grupo de personas diferentes en diferentes momentos que creen cosas diferentes sobre el estado del mundo. Por lo tanto, es difícil esperar que los modelos representen esas cosas coherentemente.

Dicho todo esto, no creo que esta sea una limitación fundamental de los modelos de lenguaje neural o incluso de los modelos de lenguaje más generales en general, sino algo que es cierto sobre los modelos de lenguaje actuales. Ya estamos viendo que los modelos se acercan a poder construir representaciones de hechos, representaciones del estado del mundo, y creo que hay margen de mejora.

P: El ritmo de progreso desde GPT-2 a GPT-3 a GPT-4 ha sido vertiginoso. ¿Cómo se ve el ritmo de la trayectoria a partir de aquí? ¿Será exponencial, o una curva en S que disminuirá el progreso a corto plazo? Si es así, ¿hay factores limitantes en términos de escala, cálculo, datos o arquitectura?

R: Ciertamente, a corto plazo, lo que más me preocupa tiene que ver con estos problemas de verdad y coherencia que mencioné antes, que incluso los mejores modelos que tenemos hoy en día generan hechos incorrectos. Generan código con errores, y debido a la forma en que funcionan estos modelos, lo hacen de una manera particularmente difícil de detectar para los humanos porque la salida del modelo tiene todas las estadísticas superficiales correctas. Cuando pensamos en el código, todavía es una pregunta abierta si en realidad es menos trabajo para alguien escribir una función a mano o pedirle a un modelo de lenguaje que genere esa función y luego hacer que la persona verifique que la implementación de esa función fue realmente correcta.

Hay un poco de peligro en apresurarse a implementar estas herramientas de inmediato, y es que terminaremos en un mundo donde todo es un poco peor, pero donde en realidad es muy difícil para las personas verificar de manera confiable las salidas de estos modelos. Dicho esto, estos son problemas que se pueden superar. El ritmo al que las cosas se están moviendo, especialmente, hay mucho espacio para abordar estos problemas de factualidad, coherencia y corrección del código generado a largo plazo. Realmente son herramientas, herramientas que podemos usar para liberarnos como sociedad de muchas tareas desagradables, trabajos tediosos o trabajos de servidumbre que han sido difíciles de automatizar y eso es algo emocionante.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Algorithmsartificial intelligenceComputer Science and Artificial Intelligence Laboratory (CSAIL)Computer science and technologyElectrical Engineering & Computer Science (eecs)EthicsFacultyhuman-computer interactionInterviewLanguageMachine LearningMIT Schwarzman College of ComputingNatural Language ProcessingSchool of EngineeringTechnology and society

Was this article helpful?

93 out of 132 found this helpful

3 preguntas Jacob Andreas sobre modelos de lenguaje grandes

Was this article helpful?

Celebrando el impacto de IDSS

Estudio Los modelos de IA no logran reproducir los juicios humanos sobre violaciones de reglas.

Aprendizaje Automático

Tres formas en que la IA generativa puede reforzar la ciberseguridad

Principales tendencias en pruebas de aplicaciones basadas en IA que necesitas conocer

Investigadores de Inception, MBZUAI y Cerebras lanzan en código abierto 'Jais' el modelo de lenguaje árabe más avanzado del mundo

¿Cuál es la conexión entre los Transformers y las Máquinas de Vectores de Soporte? Revelando el sesgo implícito y la geometría de optimización en las arquitecturas de los Transformers

Dominando la generación de datos sintéticos aplicaciones y mejores prácticas

Si el arte es cómo expresamos nuestra humanidad, ¿dónde encaja la IA?