Los investigadores del MIT hacen que los modelos de lenguaje sean autoaprendices escalables.

MIT researchers make language models scalable self-learners.

Los científicos utilizaron un conjunto de datos de inferencia lógica basado en lenguaje natural para crear modelos de lenguaje más pequeños que superaron a contrapartes mucho mayores.

“Our research is about improving the ability of computer programs to understand and process natural language — the way humans speak and write,” says MIT CSAIL postdoc Hongyin Luo. “Our self-trained, 350-million-parameter entailment models, without human-generated labels, outperform supervised language models with 137 to 175 billion parameters.”

Sócrates dijo una vez: “No es el tamaño de una cosa, sino la calidad lo que realmente importa. Porque es en la naturaleza de la sustancia, no en su volumen, donde se encuentra el verdadero valor”.

¿Siempre importa el tamaño para los modelos de lenguaje grandes (LLMs)? En un paisaje tecnológico deslumbrado por LLMs que ocupan el centro del escenario, un equipo de investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT piensa que los modelos más pequeños no deberían ser pasados por alto, especialmente para los productos de comprensión del lenguaje natural ampliamente desplegados en la industria.

Con ese fin, los investigadores idearon un enfoque para los problemas de ineficiencia y privacidad asociados con los modelos de IA grandes basados en texto: un modelo consciente de la lógica que supera a sus contrapartes 500 veces más grandes en algunas tareas de comprensión del lenguaje sin anotaciones generadas por humanos, al mismo tiempo que preserva la privacidad y la robustez con un alto rendimiento.

Los LLMs, que han mostrado algunas habilidades prometedoras en la generación de lenguaje, arte y código, son computacionalmente costosos, y sus requisitos de datos pueden poner en riesgo la privacidad al utilizar interfaces de programación de aplicaciones para la carga de datos. Los modelos más pequeños han sido históricamente menos capaces, especialmente en tareas de multitarea y supervisión débil, en comparación con sus contrapartes más grandes.

Entonces, ¿qué ayuda a estos modelos más pequeños a actuar tan poderosos? Algo llamado “implicación textual”, una forma de ayudar a estos modelos a comprender una variedad de tareas de lenguaje, donde si una oración (la premisa) es verdadera, entonces es probable que la otra oración (la hipótesis) también sea verdadera. Por ejemplo, si la premisa es “todos los gatos tienen cola”, entonces la hipótesis “un gato atigrado tiene una cola” estaría implicada por la premisa. Este concepto se utiliza para entrenar un “modelo de implicación” que resultó ser menos sesgado que otros modelos de lenguaje, según la investigación previa del equipo. Luego crearon “prompts” que los modelos pueden usar para averiguar si cierta información está implicada por una oración o frase dada de acuerdo con diferentes tareas. Este método mejoró la capacidad del modelo para adaptarse a diferentes tareas sin ningún entrenamiento adicional, conocido como adaptación sin cero disparo.

En el ámbito de la “comprensión del lenguaje natural”, hay diversas aplicaciones que dependen de determinar la relación entre dos piezas de texto. Por ejemplo, en la clasificación de sentimientos, se puede inferir o implicar una declaración como “Creo que la película es buena” a partir de una crítica de película que dice “Me gusta la historia y la actuación es genial”, lo que indica un sentimiento positivo. Otra es la clasificación de noticias, donde se puede inferir el tema de un artículo de noticias a partir de su contenido. Por ejemplo, una declaración como “el artículo de noticias trata sobre deportes” puede estar implicada si el contenido principal del artículo informa sobre un partido de la NBA. La clave fue que muchas tareas existentes de comprensión del lenguaje natural podrían ser reformuladas como tareas de implicación (es decir, inferencia lógica en lenguaje natural).

“Nuestra investigación trata sobre mejorar la capacidad de los programas informáticos para entender y procesar el lenguaje natural, la forma en que hablan y escriben los humanos. Nuestros modelos de implicación autoentrenados con 350 millones de parámetros, sin etiquetas generadas por humanos, superan a los modelos de lenguaje supervisados con 137 a 175 mil millones de parámetros”, dice Hongyin Luo, investigador postdoctoral del MIT CSAIL, autor principal de un nuevo artículo sobre el estudio. “Esto tiene el potencial de remodelar el panorama de la IA y el aprendizaje automático, proporcionando una solución más escalable, confiable y rentable para el modelado del lenguaje”, dice Luo. “Al demostrar que los modelos más pequeños pueden funcionar al mismo nivel que los más grandes para la comprensión del lenguaje, este trabajo allana el camino para tecnologías de IA más sostenibles y preservadoras de la privacidad”.

El equipo descubrió que podían mejorar aún más el rendimiento del modelo utilizando una técnica llamada “autoentrenamiento”, donde el modelo utiliza sus propias predicciones para enseñarse a sí mismo, aprendiendo efectivamente sin supervisión humana y datos de entrenamiento anotados adicionales. El método de autoentrenamiento mejoró significativamente el rendimiento en varias tareas posteriores, incluyendo análisis de sentimientos, preguntas y respuestas, y clasificación de noticias. Superó tanto a LaMDA y FLAN de Google en capacidades sin cero disparo, modelos GPT y otros algoritmos supervisados.

Sin embargo, uno de los desafíos del autoentrenamiento es que el modelo a veces puede generar etiquetas incorrectas o ruidosas que dañan el rendimiento. Para superar esto, desarrollaron un nuevo algoritmo llamado ‘SimPLE’ (edición simple de pseudoetiquetas), un proceso para revisar y modificar las pseudoetiquetas realizadas en las rondas iniciales de aprendizaje. Corrigiendo cualquier instancia etiquetada incorrectamente, mejoró la calidad general de las etiquetas auto-generadas. Esto no solo hizo que los modelos fueran más efectivos para entender el lenguaje, sino también más robustos cuando se enfrentaron a datos adversos.

Como ocurre con la mayoría de las investigaciones, hay algunas limitaciones. El autoentrenamiento en tareas de clasificación multiclase no funcionó tan bien como en tareas de comprensión del lenguaje natural binarias, lo que indica el desafío de aplicar modelos de implicación a tareas de elección múltiple.

“Esta investigación presenta una manera eficiente y efectiva de entrenar modelos de lenguaje grandes (LLMs) mediante la formulación de tareas de comprensión del lenguaje natural como problemas de implicación contextual y empleando un mecanismo de autoentrenamiento de pseudoetiquetas para incorporar grandes cantidades de datos de texto no etiquetados en el proceso de entrenamiento”, agrega James Glass, científico investigador senior de CSAIL, quien también es autor del artículo. “Si bien el campo de LLMs está experimentando cambios rápidos y dramáticos, esta investigación muestra que es posible producir modelos de lenguaje relativamente compactos que funcionen muy bien en tareas de comprensión de referencia en comparación con sus pares de tamaño similar, o incluso modelos de lenguaje mucho más grandes”.

Según Leonid Karlinsky, miembro del equipo de investigación del MIT-IBM Watson AI Lab: “La tarea de implicación es un proxy popular para evaluar la “comprensión” de un contexto dado por un modelo de IA. Se utiliza en muchas áreas analizando modelos con entradas unimodales, como LLM, y multimodales, como VLM [modelos de lenguaje visual], simplificando la tarea de preguntas y respuestas sobre un contexto de entrada dado a un problema de clasificación binaria: ¿este contexto implica o no una conclusión determinada (por ejemplo, texto)? Este artículo hace dos contribuciones en este espacio. En primer lugar, propone una manera de mejorar el rendimiento de NLU sin ajuste adicional y la robustez a los ataques adversarios a través de la sintonización con tareas de implicación sintetizadas (especializadas) generadas para la tarea de NLU primaria. En segundo lugar, ofrece un método SimPLE auto-supervisado que incluye la pseudoclasificación y el filtrado basado en la confianza para mejorar aún más el rendimiento de NLU de grandes LLM”.

Luo y Glass escribieron el artículo junto con Yoon Kim, miembro de CSAIL y profesor asistente en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT, y Jiaxin Ge de la Universidad de Pekín. Su trabajo se presentará en la reunión de la Asociación de Lingüística Computacional en Toronto, Ontario, en julio. Esta investigación fue apoyada por una subvención del programa de AI de Innovación de Hong Kong.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Algorithmsartificial intelligenceComputer Science and Artificial Intelligence Laboratory (CSAIL)Computer science and technologyDataElectrical Engineering & Computer Science (eecs)Machine LearningMIT Schwarzman College of ComputingNatural Language ProcessingResearchSchool of Engineering

Was this article helpful?

93 out of 132 found this helpful

Los investigadores del MIT hacen que los modelos de lenguaje sean autoaprendices escalables.

Was this article helpful?

Tres postdoctorados en física del MIT en español reciben becas de la Fundación Botton.

Preguntas y respuestas Gabriela Sá Pessoa sobre la política brasileña, los derechos humanos en la Amazonía y la inteligencia artificial

Ciencia de Datos

Investigadores de CMU y NYU proponen LLMTime un método de inteligencia artificial para la predicción de series temporales de cero disparo con modelos de lenguaje grandes (LLMs)

Investigadores de UC Santa Cruz proponen una nueva herramienta de prueba de asociación de texto a imagen que cuantifica los estereotipos implícitos entre conceptos y valencia y los presentes en las imágenes

Investigadores de Stanford presentan RT-Sketch Mejorando el aprendizaje de imitación visual a través de bocetos dibujados a mano como especificaciones de objetivo

Presentación de Investigación de Google AI, Translatotron 3 Una arquitectura novedosa de traducción de voz a voz sin supervisión

Investigadores de Microsoft proponen DeepSpeed-VisualChat Un salto adelante en el entrenamiento de modelos de lenguaje multi-modal escalables.

Cómo mirar las tareas comunes de aprendizaje automático con una mirada fresca