Este documento de IA desbloquea el secreto del aprendizaje en contexto cómo los modelos de lenguaje codifican funciones en la magia de vectores

Este documento de IA revela el secreto del aprendizaje contextual cómo los modelos de lenguaje codifican funciones en la magia de los vectores

En los modelos de lenguaje transformadores autoregresivos, se identifica un mecanismo neuronal que representa una función de entrada-salida como un vector compacto conocido como vector de función (FV). Se aplica el análisis de mediación causal a diversas tareas de aprendizaje en contexto, revelando que un número reducido de cabezas de atención transportan FV, que se mantienen robustos en diversos contextos, permitiendo la ejecución de tareas en entornos de texto natural sin entrenamiento previo. Los FV contienen información sobre el espacio de salida de las funciones y se pueden combinar para desencadenar nuevas tareas complejas, lo que indica la presencia de abstracciones internas para funciones de propósito general en LLM.

Investigadores de la Universidad Northeastern amplían el estudio del aprendizaje en contexto (ICL) en LLM y profundizan en los transformadores para descubrir la existencia de FV. Se referencia a numerosos estudios relacionados, incluidos aquellos sobre formas de prompt de ICL, modelos de meta-aprendizaje e inferencia de tareas bayesianas, al tiempo que se obtienen ideas de la investigación sobre el vocabulario decodificado de los transformadores. También se aprovecha de análisis del comportamiento de copiado en contexto y emplea métodos de análisis de mediación causal desarrollados por Pearl y otros para aislar FV.

El estudio investiga la existencia de FV en modelos de lenguaje transformadores autoregresivos grandes entrenados con extensos datos de texto natural. Amplía el concepto de ICL y explora los mecanismos subyacentes en los transformadores que dan origen a FV. La investigación anterior sobre ICL, incluidas las formas de prompt y la escala, informa este estudio. Se presentan los FV como representaciones vectoriales compactas para tareas de entrada-salida. El análisis de mediación causal identifica FV y comprende sus características, incluida la robustez frente a cambios de contexto y el potencial de composición semántica.

El método emplea el análisis de mediación causal para explorar FV en modelos de lenguaje transformadores autoregresivos. Realiza pruebas para evaluar si los estados ocultos codifican tareas y evaluar la portabilidad de texto natural midiendo la precisión en la generación de salida. Se crean más de 40 trabajos para probar la extracción de FV en diferentes configuraciones, centrándose en seis tareas representativas. El papel se refiere a investigaciones anteriores sobre ICL y representaciones de funciones en modelos de lenguaje.

La investigación actual identifica FV en modelos de lenguaje transformadores autoregresivos mediante análisis de mediación causal. Los FV sirven como representaciones de tareas compactas que son resistentes al contexto y pueden desencadenar procedimientos específicos en diversos entornos. Demuestra fuertes efectos causales en capas medias y es adecuado para la composición vectorial semántica para tareas complejas. El enfoque supera a métodos alternativos, enfatizando que LLM posee abstracciones internas de funciones versátiles aplicables en diferentes contextos.

El enfoque propuesto identifica con éxito la presencia de FV dentro de los modelos de lenguaje transformadores autoregresivos mediante análisis de mediación causal. Estas representaciones compactas de tareas de entrada-salida demuestran ser robustas en diferentes contextos y presentan fuertes efectos causales en las capas medias de los modelos de lenguaje. Si bien los FV a menudo contienen información que codifica el espacio de salida de la función, su reconstrucción es más compleja. Además, los FV se pueden combinar para desencadenar nuevas tareas complejas, mostrando un potencial para la composición vectorial semántica. Los hallazgos sugieren la existencia de abstracciones internas de funciones de propósito general en diversos contextos.

Las futuras direcciones de investigación incluyen adentrarse en la estructura interna de los FV para discernir su información codificada y contribuciones a la ejecución, su utilidad en tareas complejas y su potencial de componibilidad. Es importante explorar la generalización de FV en diversos modelos, tareas y capas. Se necesitan estudios comparativos con otros métodos de construcción de FV e investigaciones sobre sus relaciones con técnicas de representación de tareas. Además, se requiere una mayor exploración de la aplicación de FV en tareas de procesamiento de lenguaje natural, como la generación de texto y la respuesta a preguntas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Este documento de IA desbloquea el secreto del aprendizaje en contexto cómo los modelos de lenguaje codifican funciones en la magia de vectores

Was this article helpful?

Molino de Turing la supercomputadora de IA impulsa el motor económico del Reino Unido

Cómo la IA impulsa las Fintech 7 industrias prometedoras impulsadas por la IA para seguir

Inteligencia Artificial

Visión a través del sonido para los ciegos

5 Programas de Certificación en IA en línea - Explora e Inscríbete

Investigadores de la Universidad de Texas en Austin presentan LIBERO Una prueba de aprendizaje de robot a lo largo de la vida para estudiar la transferencia de conocimiento en la toma de decisiones y la robótica a gran escala.

Este documento de IA muestra cómo la toxicidad de ChatGPT puede aumentar hasta seis veces cuando se le asigna una personalidad

Introducción al Aprendizaje Automático Explorando sus muchas formas

Construyendo sistemas complejos utilizando ChatGPT