Investigadores de Meta AI presentan RA-DIT Un nuevo enfoque de inteligencia artificial para adaptar modelos de lenguaje con capacidades de recuperación mejoradas para tareas intensivas en conocimiento.

‘Investigadores de Meta AI presentan RA-DIT Un nuevo enfoque de IA para adaptar modelos de lenguaje con mejores capacidades de recuperación para tareas intensivas en conocimiento’

Al abordar las limitaciones de los modelos de lenguaje grandes (LLMs) al capturar conocimientos menos comunes y los altos costos computacionales de la pre-entrenamiento extenso, los investigadores de Meta introducen el Ajuste de Instrucción Dual Mejorado por Recuperación (RA-DIT). RA-DIT es una metodología de ajuste fino ligera diseñada para dotar a cualquier LLM de capacidades de recuperación eficientes. Opera a través de dos etapas distintas de ajuste fino, cada una de las cuales ofrece mejoras sustanciales en el rendimiento. Al optimizar el uso de información recuperada por el LM y la relevancia del contenido del recuperador, RA-DIT ofrece una solución prometedora para mejorar los LLMs con capacidades de recuperación.

RA-DIT proporciona un método de ajuste fino en dos etapas y ligero para mejorar los LLMs con capacidades de recuperación. Optimiza los LLMs para utilizar mejor la información recuperada y refina los recuperadores para proporcionar resultados más relevantes desde el punto de vista contextual, preferidos por el LLM. RA-DIT supera a los modelos de recuperación-augmentada existentes en referencias de aprendizaje de cero y pocos ejemplos conocimiento-intensivas, demostrando su superioridad en la incorporación de conocimientos externos en los LLMs para un rendimiento mejorado.

Los investigadores introdujeron RA-DIT para dotar a los LLMs con capacidades de recuperación. RA-DIT implica dos etapas principales de ajuste fino: primero, mejorar la utilización de información recuperada por un LLM pre-entrenado y, segundo, refinar el recuperador para proporcionar resultados más contextualmente relevantes, preferidos por el LLM. Su enfoque emplea el modelo de lenguaje LLAMA, pre-entrenado en un conjunto de datos extenso, y utiliza una arquitectura de recuperador de doble codificador inicializada con el modelo DRAGON. Además, su método menciona la utilización de la recuperación en contexto paralelo para un cálculo más eficiente de las predicciones del LLM.

Su método logra mejoras notable en el rendimiento, con RA-DIT 65B estableciendo nuevos puntos de referencia en tareas de aprendizaje intensivas en conocimientos de cero y pocos ejemplos, superando a los Modelos de Lenguaje de Recuperación-Augmentada en contexto (RALMs) existentes por un margen significativo. RA-DIT demuestra la eficacia del ajuste de instrucción ligero para mejorar el rendimiento de RALMs, especialmente en escenarios que requieren acceso a fuentes de conocimiento externas extensas.

RA-DIT destaca en tareas de aprendizaje intensivas en conocimientos de cero y pocos ejemplos, superando a los Modelos de Lenguaje de Recuperación-Augmentada en contexto (RALMs) existentes hasta en un 8,9% en la configuración de cero ejemplos y un 1,4% en la configuración de cinco ejemplos en promedio. El modelo con mejor rendimiento, RA-DIT 65B, muestra mejoras sustanciales en tareas que requieren la utilización de conocimientos y conciencia contextual. RA-DIT preserva el conocimiento paramétrico y las capacidades de razonamiento, superando a los modelos LLAMA base en 7 de los 8 conjuntos de evaluación de razonamiento de sentido común. El análisis de ablación y la recuperación en contexto paralelo adicional resaltan aún más la efectividad de RA-DIT para mejorar los modelos de lenguaje de recuperación-augmentada, especialmente para el acceso a conocimiento extenso.

En conclusión, su enfoque introduce RA-DIT, que mejora el rendimiento de los modelos de lenguaje pre-entrenados con capacidades de recuperación. RA-DIT logra resultados de vanguardia en evaluaciones de cero y pocos ejemplos en puntos de referencia intensivos en conocimientos, superando a los Modelos de Lenguaje de Recuperación-Augmentada en contexto sin ajustar y compitiendo eficazmente con métodos pre-entrenados ampliamente. Mejora significativamente el rendimiento en tareas que requieren la utilización de conocimientos y la conciencia contextual. RA-DIT 65B supera a los modelos existentes, demostrando la efectividad del ajuste de instrucción ligero para los modelos de lenguaje de recuperación-augmentada, especialmente en escenarios que involucran fuentes de conocimiento externas vastas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¿Qué es la innatismo y importa para la inteligencia artificial? (Parte 2)

La cuestión de la innatitud, tanto en biología como en inteligencia artificial, es crucial para el futuro de la IA si...

Inteligencia Artificial

Cómo Reveal's Logikcull utilizó Amazon Comprehend para detectar y redactar información de identificación personal (PII) de documentos legales a gran escala.

Hoy en día, la información personal identificable (PII) está en todas partes. La PII se encuentra en correos electrón...

Inteligencia Artificial

Top 40 Herramientas de IA Generativa 2023

ChatGPT – GPT-4 GPT-4 es el último LLM de OpenAI, que es más innovador, preciso y seguro que sus predecesores. Tambié...

Inteligencia Artificial

Estos ingeniosos drones pueden unirse en el aire para formar un robot más grande y fuerte

Investigadores de la Universidad de Tokio en Japón han desarrollado drones que pueden ensamblar y desmontar en pleno ...

Inteligencia Artificial

MusicGen Reimaginado Los avances desconocidos de Meta en la música AI

En febrero de 2023, Google causó sensación con su IA de música generativa MusicLM. En ese momento, dos cosas quedaron...