Investigadores de Meta AI presentan RA-DIT Un nuevo enfoque de inteligencia artificial para adaptar modelos de lenguaje con capacidades de recuperación mejoradas para tareas intensivas en conocimiento.

‘Investigadores de Meta AI presentan RA-DIT Un nuevo enfoque de IA para adaptar modelos de lenguaje con mejores capacidades de recuperación para tareas intensivas en conocimiento’

Al abordar las limitaciones de los modelos de lenguaje grandes (LLMs) al capturar conocimientos menos comunes y los altos costos computacionales de la pre-entrenamiento extenso, los investigadores de Meta introducen el Ajuste de Instrucción Dual Mejorado por Recuperación (RA-DIT). RA-DIT es una metodología de ajuste fino ligera diseñada para dotar a cualquier LLM de capacidades de recuperación eficientes. Opera a través de dos etapas distintas de ajuste fino, cada una de las cuales ofrece mejoras sustanciales en el rendimiento. Al optimizar el uso de información recuperada por el LM y la relevancia del contenido del recuperador, RA-DIT ofrece una solución prometedora para mejorar los LLMs con capacidades de recuperación.

RA-DIT proporciona un método de ajuste fino en dos etapas y ligero para mejorar los LLMs con capacidades de recuperación. Optimiza los LLMs para utilizar mejor la información recuperada y refina los recuperadores para proporcionar resultados más relevantes desde el punto de vista contextual, preferidos por el LLM. RA-DIT supera a los modelos de recuperación-augmentada existentes en referencias de aprendizaje de cero y pocos ejemplos conocimiento-intensivas, demostrando su superioridad en la incorporación de conocimientos externos en los LLMs para un rendimiento mejorado.

Los investigadores introdujeron RA-DIT para dotar a los LLMs con capacidades de recuperación. RA-DIT implica dos etapas principales de ajuste fino: primero, mejorar la utilización de información recuperada por un LLM pre-entrenado y, segundo, refinar el recuperador para proporcionar resultados más contextualmente relevantes, preferidos por el LLM. Su enfoque emplea el modelo de lenguaje LLAMA, pre-entrenado en un conjunto de datos extenso, y utiliza una arquitectura de recuperador de doble codificador inicializada con el modelo DRAGON. Además, su método menciona la utilización de la recuperación en contexto paralelo para un cálculo más eficiente de las predicciones del LLM.

Su método logra mejoras notable en el rendimiento, con RA-DIT 65B estableciendo nuevos puntos de referencia en tareas de aprendizaje intensivas en conocimientos de cero y pocos ejemplos, superando a los Modelos de Lenguaje de Recuperación-Augmentada en contexto (RALMs) existentes por un margen significativo. RA-DIT demuestra la eficacia del ajuste de instrucción ligero para mejorar el rendimiento de RALMs, especialmente en escenarios que requieren acceso a fuentes de conocimiento externas extensas.

RA-DIT destaca en tareas de aprendizaje intensivas en conocimientos de cero y pocos ejemplos, superando a los Modelos de Lenguaje de Recuperación-Augmentada en contexto (RALMs) existentes hasta en un 8,9% en la configuración de cero ejemplos y un 1,4% en la configuración de cinco ejemplos en promedio. El modelo con mejor rendimiento, RA-DIT 65B, muestra mejoras sustanciales en tareas que requieren la utilización de conocimientos y conciencia contextual. RA-DIT preserva el conocimiento paramétrico y las capacidades de razonamiento, superando a los modelos LLAMA base en 7 de los 8 conjuntos de evaluación de razonamiento de sentido común. El análisis de ablación y la recuperación en contexto paralelo adicional resaltan aún más la efectividad de RA-DIT para mejorar los modelos de lenguaje de recuperación-augmentada, especialmente para el acceso a conocimiento extenso.

En conclusión, su enfoque introduce RA-DIT, que mejora el rendimiento de los modelos de lenguaje pre-entrenados con capacidades de recuperación. RA-DIT logra resultados de vanguardia en evaluaciones de cero y pocos ejemplos en puntos de referencia intensivos en conocimientos, superando a los Modelos de Lenguaje de Recuperación-Augmentada en contexto sin ajustar y compitiendo eficazmente con métodos pre-entrenados ampliamente. Mejora significativamente el rendimiento en tareas que requieren la utilización de conocimientos y la conciencia contextual. RA-DIT 65B supera a los modelos existentes, demostrando la efectividad del ajuste de instrucción ligero para los modelos de lenguaje de recuperación-augmentada, especialmente en escenarios que involucran fuentes de conocimiento externas vastas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Investigadores de Meta AI presentan RA-DIT Un nuevo enfoque de inteligencia artificial para adaptar modelos de lenguaje con capacidades de recuperación mejoradas para tareas intensivas en conocimiento.

Was this article helpful?

5 casos de uso de IA generativa que las empresas pueden implementar hoy

Procesamiento inteligente de documentos con los servicios de AI de AWS y Amazon Bedrock

Inteligencia Artificial

¿Qué es la innatismo y importa para la inteligencia artificial? (Parte 2)

Investigadores de Yale y Google DeepMind desbloquean el éxito en la resolución de problemas matemáticos con técnicas avanzadas de ajuste fino en modelos de lenguaje amplios

Cómo Reveal's Logikcull utilizó Amazon Comprehend para detectar y redactar información de identificación personal (PII) de documentos legales a gran escala.

Top 40 Herramientas de IA Generativa 2023

Estos ingeniosos drones pueden unirse en el aire para formar un robot más grande y fuerte

MusicGen Reimaginado Los avances desconocidos de Meta en la música AI