Investigadores de Meta AI presentan RA-DIT Un nuevo enfoque de inteligencia artificial para adaptar modelos de lenguaje con capacidades de recuperación mejoradas para tareas intensivas en conocimiento.
‘Investigadores de Meta AI presentan RA-DIT Un nuevo enfoque de IA para adaptar modelos de lenguaje con mejores capacidades de recuperación para tareas intensivas en conocimiento’
Al abordar las limitaciones de los modelos de lenguaje grandes (LLMs) al capturar conocimientos menos comunes y los altos costos computacionales de la pre-entrenamiento extenso, los investigadores de Meta introducen el Ajuste de Instrucción Dual Mejorado por Recuperación (RA-DIT). RA-DIT es una metodología de ajuste fino ligera diseñada para dotar a cualquier LLM de capacidades de recuperación eficientes. Opera a través de dos etapas distintas de ajuste fino, cada una de las cuales ofrece mejoras sustanciales en el rendimiento. Al optimizar el uso de información recuperada por el LM y la relevancia del contenido del recuperador, RA-DIT ofrece una solución prometedora para mejorar los LLMs con capacidades de recuperación.
RA-DIT proporciona un método de ajuste fino en dos etapas y ligero para mejorar los LLMs con capacidades de recuperación. Optimiza los LLMs para utilizar mejor la información recuperada y refina los recuperadores para proporcionar resultados más relevantes desde el punto de vista contextual, preferidos por el LLM. RA-DIT supera a los modelos de recuperación-augmentada existentes en referencias de aprendizaje de cero y pocos ejemplos conocimiento-intensivas, demostrando su superioridad en la incorporación de conocimientos externos en los LLMs para un rendimiento mejorado.
Los investigadores introdujeron RA-DIT para dotar a los LLMs con capacidades de recuperación. RA-DIT implica dos etapas principales de ajuste fino: primero, mejorar la utilización de información recuperada por un LLM pre-entrenado y, segundo, refinar el recuperador para proporcionar resultados más contextualmente relevantes, preferidos por el LLM. Su enfoque emplea el modelo de lenguaje LLAMA, pre-entrenado en un conjunto de datos extenso, y utiliza una arquitectura de recuperador de doble codificador inicializada con el modelo DRAGON. Además, su método menciona la utilización de la recuperación en contexto paralelo para un cálculo más eficiente de las predicciones del LLM.
- 5 casos de uso de IA generativa que las empresas pueden implementar hoy
- Superando las Alucinaciones en IA Cómo Factually Augmented RLHF Optimiza la Coherencia de Visión y Lenguaje en Modelos Multimodales Grandes
- Una guía paso a paso para seleccionar y ejecutar tu propio modelo generativo
Su método logra mejoras notable en el rendimiento, con RA-DIT 65B estableciendo nuevos puntos de referencia en tareas de aprendizaje intensivas en conocimientos de cero y pocos ejemplos, superando a los Modelos de Lenguaje de Recuperación-Augmentada en contexto (RALMs) existentes por un margen significativo. RA-DIT demuestra la eficacia del ajuste de instrucción ligero para mejorar el rendimiento de RALMs, especialmente en escenarios que requieren acceso a fuentes de conocimiento externas extensas.
RA-DIT destaca en tareas de aprendizaje intensivas en conocimientos de cero y pocos ejemplos, superando a los Modelos de Lenguaje de Recuperación-Augmentada en contexto (RALMs) existentes hasta en un 8,9% en la configuración de cero ejemplos y un 1,4% en la configuración de cinco ejemplos en promedio. El modelo con mejor rendimiento, RA-DIT 65B, muestra mejoras sustanciales en tareas que requieren la utilización de conocimientos y conciencia contextual. RA-DIT preserva el conocimiento paramétrico y las capacidades de razonamiento, superando a los modelos LLAMA base en 7 de los 8 conjuntos de evaluación de razonamiento de sentido común. El análisis de ablación y la recuperación en contexto paralelo adicional resaltan aún más la efectividad de RA-DIT para mejorar los modelos de lenguaje de recuperación-augmentada, especialmente para el acceso a conocimiento extenso.
En conclusión, su enfoque introduce RA-DIT, que mejora el rendimiento de los modelos de lenguaje pre-entrenados con capacidades de recuperación. RA-DIT logra resultados de vanguardia en evaluaciones de cero y pocos ejemplos en puntos de referencia intensivos en conocimientos, superando a los Modelos de Lenguaje de Recuperación-Augmentada en contexto sin ajustar y compitiendo eficazmente con métodos pre-entrenados ampliamente. Mejora significativamente el rendimiento en tareas que requieren la utilización de conocimientos y la conciencia contextual. RA-DIT 65B supera a los modelos existentes, demostrando la efectividad del ajuste de instrucción ligero para los modelos de lenguaje de recuperación-augmentada, especialmente en escenarios que involucran fuentes de conocimiento externas vastas.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Todo lo que necesitas saber sobre la serie de modelos de lenguaje (LLMs) Qwen Large
- Desde el Internet de las Cosas hasta el Internet de Todo La Convergencia de la IA y el 6G para una Inteligencia Conectada
- La mejor aventura de IA residencia de OpenAI
- Google DeepMind lanza Open X-Embodiment, que incluye un conjunto de datos de robótica con más de 1 millón de trayectorias y un modelo de IA generalista (𝗥𝗧-X) para ayudar a avanzar en cómo los robots pueden aprender nuevas habilidades.
- Los 12 principios fundamentales de la gobernanza de la IA
- Reka AI presenta a Yasa-1 un asistente de lenguaje multimodal con sensores visuales y auditivos que puede tomar acciones mediante la ejecución de código.
- Investigadores de la Universidad Tsinghua y Microsoft presentan ToRA un agente de razonamiento integrado con herramientas de inteligencia artificial para la resolución de problemas matemáticos.