Este documento de IA evalúa la capacidad de los LLM para adaptarse a nuevas variantes de tareas existentes
Este documento evalúa cómo los LLM se adaptan a tareas nuevas
El rendimiento notable de los modelos de lenguaje (ML) sugiere que la predicción de la siguiente palabra a gran escala podría destilar eficazmente el conocimiento de los corpus de texto en agentes interactivos. Los ML han logrado resultados impresionantes en varios bancos de pruebas de procesamiento de lenguaje natural, superando a los métodos de vanguardia e incluso superando a los humanos en tareas que requieren razonamiento complejo. Sin embargo, es crucial determinar si su éxito se debe a habilidades de razonamiento generales para las tareas o al reconocimiento y recuerdo de tareas específicas encontradas durante el preentrenamiento.
La investigación anterior se ha centrado principalmente en la generalización a nivel de instancia, que puede complicarse debido a problemas de contaminación de datos. En este estudio, los investigadores investigan la generalización de los ML a nuevas variantes de tareas mediante la alteración de las condiciones o reglas bajo las cuales se realizan las tareas con buen desempeño. El procedimiento de razonamiento general para estas tareas permanece sin cambios, pero las asignaciones de entrada y salida específicas se modifican. Estas nuevas tareas, denominadas tareas contrafactuales, se desvían de las condiciones predeterminadas y miden la generalización a nivel de tarea del modelo.
Los investigadores proponen una serie de 11 tareas de evaluación contrafactuales que abarcan múltiples categorías y dominios. Estas tareas incluyen razonamiento deductivo, generación de código, dibujo y razonamiento espacial. Si bien el procedimiento de razonamiento es consistente en las tareas originales y sus variantes contrafactuales, las asignaciones de entrada y salida son diferentes. Esta evaluación tiene como objetivo evaluar la flexibilidad de los ML para adaptarse a nuevas variantes de tareas.
- Optimizando el rendimiento de las máquinas virtuales de Azure mientras se reducen los costos Estrategias probadas para una eficiencia óptima
- Uplift Modeling – Una guía para científicos de datos sobre cómo optimizar una campaña de renovación de tarjetas de crédito
- Conoce DeepOnto Un paquete de Python para la ingeniería de ontologías con Aprendizaje Profundo
Se evalúa el rendimiento de GPT-4, GPT-3.5, Claude y PaLM-2 tanto en las condiciones predeterminadas como contrafactuales de las tareas. Los resultados indican que si bien los ML muestran un rendimiento contrafactual por encima de lo aleatorio, su rendimiento disminuye constantemente en comparación con la configuración predeterminada; esto sugiere que el éxito de los modelos en estas tareas se puede atribuir en parte a comportamientos específicos de las condiciones predeterminadas en lugar de habilidades abstractas y generalizables de razonamiento.
Los hallazgos también revelan relaciones emocionantes entre el comportamiento del modelo en las tareas predeterminadas y contrafactuales. Se observan correlaciones entre el rendimiento predeterminado y contrafactual, la efectividad de la generación de pensamiento en cadena sin entrenamiento previo y las interacciones entre los efectos de frecuencia a nivel de tarea e instancia. En general, las ligeras variaciones en las instanciaciones predeterminadas de las tareas presentan desafíos para los ML, lo que indica que el éxito de los modelos existentes no debe atribuirse únicamente a su capacidad general para la tarea objetivo.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Google AI propone un nuevo método para reducir la carga en los LLMs Estímulo de clasificación por pares
- Simplificando las pruebas de ingeniería de instrucciones mediante el uso de esta herramienta
- La IA generativa imagina nuevas estructuras de proteínas
- MosaicML ayuda a los usuarios de IA a aumentar la precisión, reducir costos y ahorrar tiempo
- ¡Gol! El equipo de NVIDIA se lleva el trofeo en Sistemas de Recomendación
- Los fabricantes de chips apilan ‘chiplets’ como bloques de Lego para impulsar la IA
- El mundo natural potencia el futuro de la visión por computadora