Investigadores de Meta y UNC-Chapel Hill introducen Branch-Solve-Merge un programa revolucionario que mejora el rendimiento de modelos de lenguaje grandes en tareas complejas de lenguaje.

Investigadores de Meta y UNC-Chapel Hill presentan Branch-Solve-Merge, un revolucionario programa que potencia el rendimiento de modelos de lenguaje en tareas complejas.

BRANCH-SOLVE-MERGE (BSM) es un programa para mejorar los Grandes Modelos de Lenguaje (LLM) en tareas complejas de lenguaje natural. BSM incluye módulos de ramificación, resolución y fusión para planificar, resolver y combinar sub tareas. Aplicado a la evaluación de respuestas de LLM y la generación de texto restringido con modelos como Vicuna, LLaMA-2-chat y GPT-4, BSM aumenta el acuerdo humano-LLM, reduce los sesgos y permite que LLaMA-2-chat iguale o supere a GPT-4 en la mayoría de los ámbitos. También aumenta la coherencia y la satisfacción en la generación de historias con restricciones.

Los LLM destacan en tareas de lenguaje multifacéticas pero a menudo necesitan ayuda con la complejidad. BSM, un programa de LLM, divide las tareas en pasos y parametriza cada uno con indicaciones distintas. Es un enfoque diferente a los enfoques secuenciales anteriores, apuntando a tareas como la evaluación de LLM y la generación de texto restringido que se benefician de la descomposición paralela. Este proceso ofrece una solución valiosa para evaluar LLM en tareas complejas de generación de texto, especialmente en escenarios basados en la planificación y con restricciones, abordando la necesidad de una evaluación holística.

Los LLM destacan en la generación de texto pero necesitan ayuda en tareas complejas y multiobjetivo. Investigadores de la UNC-Chapel Hill y Meta han introducido BSM, un método para abordar estos desafíos. BSM descompone las tareas en sub tareas paralelas utilizando módulos de ramificación, resolución y fusión. Aplicado a la evaluación de respuestas de LLM y la generación de texto restringido, BSM mejora la corrección, la consistencia y la satisfacción de las restricciones en estas tareas, beneficiando a diversos LLMs como LLaMA-2-chat, Vicuna y GPT-4. Ofrece una solución prometedora para mejorar el rendimiento de LLM en tareas de lenguaje intrincadas.

BSM descompone tareas complejas de lenguaje en tres módulos: ramificación, resolución y fusión. Aplicado a la evaluación de respuestas de LLM y la generación de texto restringido, BSM mejora la corrección y consistencia, y reduce los sesgos. Mejora el acuerdo humano-LLM hasta en un 26% y aumenta la satisfacción de las restricciones en un 12%. BSM es un enfoque versátil y basado en la descomposición que se puede aplicar a diversos LLMs, lo que lo convierte en una opción prometedora para mejorar la evaluación de LLM en diferentes tareas y escalas.

BSM mejora el acuerdo entre LLM y humano, logrando una mejora de 12 puntos para LLaMA-2-70B-chat en preguntas de turno 1 y turno 2. Supera a la Auto-Consistencia y reduce los sesgos en un 34% en sesgo de posición y sesgo de longitud. BSM permite que modelos de código abierto más débiles como LLaMA-2 compitan con GPT-4. El rendimiento de BSM se extiende a través de diferentes dominios, igualando o acercándose a GPT-4 en diferentes categorías, mejorando las puntuaciones de acuerdo y reduciendo los sesgos. También destaca en la evaluación de preguntas basadas en referencias, superando a LLaMA-2-70B-chat y GPT-4 en clases como Matemáticas, mejorando las puntuaciones de acuerdo y mitigando el sesgo de posición.

El método BSM aborda desafíos críticos en la evaluación de LLM y la generación de texto, mejorando la coherencia, la planificación y la descomposición de tareas. Los módulos de ramificación, resolución y fusión de BSM mejoran la evaluación de respuestas de LLM y la generación de texto restringido, lo que conduce a una mayor corrección, consistencia y acuerdo entre humano y LLM. BSM también mitiga los sesgos, mejora la coherencia de las historias y aumenta la satisfacción de las restricciones. Demuestra ser efectivo en diferentes LLMs y dominios, incluso superando a GPT-4 en diversas categorías. BSM es un enfoque versátil y prometedor para mejorar el rendimiento de LLM en múltiples tareas.

Consulta el artículo. Todo el crédito de esta investigación va para los investigadores de este proyecto. Además, no olvides unirte a nuestra comunidad de más de 32 mil en nuestro SubReddit de ML, nuestra comunidad de más de 40 mil en Facebook, nuestro canal de Discord, y nuestro boletín de noticias por correo electrónico, donde compartimos las últimas noticias de investigación de IA, proyectos de IA interesantes y más.

Si te gusta nuestro trabajo, te encantará nuestro boletín informativo..

También estamos en Telegram y WhatsApp.

La publicación Investigadores de Meta y UNC-Chapel Hill presentan Branch-Solve-Merge: un programa revolucionario que mejora el rendimiento de los modelos de lenguaje grandes en tareas complejas de lenguaje apareció originalmente en MarkTechPost.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Entendiendo Flash-Atención y Flash-Atención-2 El camino para ampliar la longitud del contexto de los modelos de lenguaje

Escalar el contexto de los grandes modelos de lenguaje (LLMs) sigue siendo uno de los mayores desafíos para ampliar e...

Inteligencia Artificial

NVIDIA impulsa el entrenamiento para algunos de los modelos más grandes de la Fundación Amazon Titan.

Todo sobre los grandes modelos de lenguaje es grande: los modelos gigantes se entrenan en conjuntos de datos masivos ...

Inteligencia Artificial

Investigadores de Microsoft presentan Table-GPT Elevando modelos de lenguaje para destacar en la comprensión de tablas bidimensionales y tareas relacionadas.

Con los recientes avances en el campo de la inteligencia artificial, los Modelos de Lenguaje Grande, incluyendo GPT y...

Noticias de Inteligencia Artificial

Los Nano-Tatuajes No Necesitan Baterías ni Cables

Los sensores de nano-tatuajes basados en la retrodispersión pueden comunicarse con dispositivos cercanos sin necesida...

Inteligencia Artificial

Proyecto de ley bipartidista propone un panel de expertos para abordar los riesgos y regulaciones de la inteligencia artificial.

El Representante Ted Lieu (D-CA) está liderando el esfuerzo para brindar al Congreso la experiencia necesaria para co...

Inteligencia Artificial

Investigadores de la Universidad de Boston lanzan la familia Platypus de LLMs afinados para lograr un refinamiento económico, rápido y potente de los LLMs base.

Los Modelos de Lenguaje Grande (LLMs) han causado sensación en el mundo. Estos modelos súper efectivos y eficientes s...