Este documento de IA evalúa la capacidad de los LLM para adaptarse a nuevas variantes de tareas existentes

Este documento evalúa cómo los LLM se adaptan a tareas nuevas

El rendimiento notable de los modelos de lenguaje (ML) sugiere que la predicción de la siguiente palabra a gran escala podría destilar eficazmente el conocimiento de los corpus de texto en agentes interactivos. Los ML han logrado resultados impresionantes en varios bancos de pruebas de procesamiento de lenguaje natural, superando a los métodos de vanguardia e incluso superando a los humanos en tareas que requieren razonamiento complejo. Sin embargo, es crucial determinar si su éxito se debe a habilidades de razonamiento generales para las tareas o al reconocimiento y recuerdo de tareas específicas encontradas durante el preentrenamiento.

La investigación anterior se ha centrado principalmente en la generalización a nivel de instancia, que puede complicarse debido a problemas de contaminación de datos. En este estudio, los investigadores investigan la generalización de los ML a nuevas variantes de tareas mediante la alteración de las condiciones o reglas bajo las cuales se realizan las tareas con buen desempeño. El procedimiento de razonamiento general para estas tareas permanece sin cambios, pero las asignaciones de entrada y salida específicas se modifican. Estas nuevas tareas, denominadas tareas contrafactuales, se desvían de las condiciones predeterminadas y miden la generalización a nivel de tarea del modelo.

Los investigadores proponen una serie de 11 tareas de evaluación contrafactuales que abarcan múltiples categorías y dominios. Estas tareas incluyen razonamiento deductivo, generación de código, dibujo y razonamiento espacial. Si bien el procedimiento de razonamiento es consistente en las tareas originales y sus variantes contrafactuales, las asignaciones de entrada y salida son diferentes. Esta evaluación tiene como objetivo evaluar la flexibilidad de los ML para adaptarse a nuevas variantes de tareas.

Se evalúa el rendimiento de GPT-4, GPT-3.5, Claude y PaLM-2 tanto en las condiciones predeterminadas como contrafactuales de las tareas. Los resultados indican que si bien los ML muestran un rendimiento contrafactual por encima de lo aleatorio, su rendimiento disminuye constantemente en comparación con la configuración predeterminada; esto sugiere que el éxito de los modelos en estas tareas se puede atribuir en parte a comportamientos específicos de las condiciones predeterminadas en lugar de habilidades abstractas y generalizables de razonamiento.

Los hallazgos también revelan relaciones emocionantes entre el comportamiento del modelo en las tareas predeterminadas y contrafactuales. Se observan correlaciones entre el rendimiento predeterminado y contrafactual, la efectividad de la generación de pensamiento en cadena sin entrenamiento previo y las interacciones entre los efectos de frecuencia a nivel de tarea e instancia. En general, las ligeras variaciones en las instanciaciones predeterminadas de las tareas presentan desafíos para los ML, lo que indica que el éxito de los modelos existentes no debe atribuirse únicamente a su capacidad general para la tarea objetivo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Equipo de robots en gira de exploración lunar

Un equipo suizo ha propuesto enviar equipos de robots complementarios en misiones exploratorias a la Luna en lugar de...

Aprendizaje Automático

Microsoft Bing acelera la entrega de anuncios con NVIDIA Triton.

El equipo de Jiusheng Chen acaba de acelerarse. Están entregando anuncios personalizados a los usuarios de Microsoft ...

Inteligencia Artificial

Google Street View al rescate el aprendizaje profundo abre el camino a edificios más seguros

Imágenes como las de Google Street View están adquiriendo un nuevo propósito en manos del profesor asistente de Intel...

Noticias de Inteligencia Artificial

La IA puede algún día realizar milagros médicos. Por ahora, ayuda a realizar trabajos administrativos.

Los médicos dicen que el mejor uso para la inteligencia artificial generativa en el cuidado de la salud es aliviar la...

Inteligencia Artificial

Conoce ConceptGraphs Una representación gráfica estructurada de vocabulario abierto para escenas en 3D

La captura y codificación de información sobre una escena visual, típicamente en el contexto de la visión por computa...