Este documento de IA evalúa la capacidad de los LLM para adaptarse a nuevas variantes de tareas existentes

Este documento evalúa cómo los LLM se adaptan a tareas nuevas

El rendimiento notable de los modelos de lenguaje (ML) sugiere que la predicción de la siguiente palabra a gran escala podría destilar eficazmente el conocimiento de los corpus de texto en agentes interactivos. Los ML han logrado resultados impresionantes en varios bancos de pruebas de procesamiento de lenguaje natural, superando a los métodos de vanguardia e incluso superando a los humanos en tareas que requieren razonamiento complejo. Sin embargo, es crucial determinar si su éxito se debe a habilidades de razonamiento generales para las tareas o al reconocimiento y recuerdo de tareas específicas encontradas durante el preentrenamiento.

La investigación anterior se ha centrado principalmente en la generalización a nivel de instancia, que puede complicarse debido a problemas de contaminación de datos. En este estudio, los investigadores investigan la generalización de los ML a nuevas variantes de tareas mediante la alteración de las condiciones o reglas bajo las cuales se realizan las tareas con buen desempeño. El procedimiento de razonamiento general para estas tareas permanece sin cambios, pero las asignaciones de entrada y salida específicas se modifican. Estas nuevas tareas, denominadas tareas contrafactuales, se desvían de las condiciones predeterminadas y miden la generalización a nivel de tarea del modelo.

Los investigadores proponen una serie de 11 tareas de evaluación contrafactuales que abarcan múltiples categorías y dominios. Estas tareas incluyen razonamiento deductivo, generación de código, dibujo y razonamiento espacial. Si bien el procedimiento de razonamiento es consistente en las tareas originales y sus variantes contrafactuales, las asignaciones de entrada y salida son diferentes. Esta evaluación tiene como objetivo evaluar la flexibilidad de los ML para adaptarse a nuevas variantes de tareas.

Se evalúa el rendimiento de GPT-4, GPT-3.5, Claude y PaLM-2 tanto en las condiciones predeterminadas como contrafactuales de las tareas. Los resultados indican que si bien los ML muestran un rendimiento contrafactual por encima de lo aleatorio, su rendimiento disminuye constantemente en comparación con la configuración predeterminada; esto sugiere que el éxito de los modelos en estas tareas se puede atribuir en parte a comportamientos específicos de las condiciones predeterminadas en lugar de habilidades abstractas y generalizables de razonamiento.

Los hallazgos también revelan relaciones emocionantes entre el comportamiento del modelo en las tareas predeterminadas y contrafactuales. Se observan correlaciones entre el rendimiento predeterminado y contrafactual, la efectividad de la generación de pensamiento en cadena sin entrenamiento previo y las interacciones entre los efectos de frecuencia a nivel de tarea e instancia. En general, las ligeras variaciones en las instanciaciones predeterminadas de las tareas presentan desafíos para los ML, lo que indica que el éxito de los modelos existentes no debe atribuirse únicamente a su capacidad general para la tarea objetivo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Este documento de IA evalúa la capacidad de los LLM para adaptarse a nuevas variantes de tareas existentes

Was this article helpful?

Optimizando el rendimiento de las máquinas virtuales de Azure mientras se reducen los costos Estrategias probadas para una eficiencia óptima

Una forma sencilla de mejorar las entrevistas de ciencia de datos

Inteligencia Artificial

Equipo de robots en gira de exploración lunar

Microsoft Bing acelera la entrega de anuncios con NVIDIA Triton.

Google Street View al rescate el aprendizaje profundo abre el camino a edificios más seguros

La IA puede algún día realizar milagros médicos. Por ahora, ayuda a realizar trabajos administrativos.

Conoce ConceptGraphs Una representación gráfica estructurada de vocabulario abierto para escenas en 3D

Investigadores de Eindhoven y la Universidad Northwestern han desarrollado un nuevo biosensor neuromórfico capaz de aprendizaje en el chip que no necesita entrenamiento externo.