Evaluación de los Modelos de Lenguaje Grandes Conozca a AgentSims, un Marco de Inteligencia Artificial Basado en Tareas para Pruebas Completas y Objetivas

Evaluación de modelos de lenguaje con AgentSims, un marco de IA basado en tareas para pruebas completas y objetivas.

Los LLM han cambiado la forma en que se piensa en el procesamiento del lenguaje (NLP), pero persiste el problema de su evaluación. Los estándares antiguos eventualmente se vuelven irrelevantes, dado que los LLM pueden realizar NLU y NLG a niveles humanos (OpenAI, 2023) utilizando datos lingüísticos.

En respuesta a la necesidad urgente de nuevos puntos de referencia en áreas como las pruebas de conocimiento basadas en preguntas y respuestas (QA) de libros cerrados, exámenes estandarizados centrados en el ser humano, diálogo de múltiples turnos, razonamiento y evaluación de seguridad, la comunidad de NLP ha desarrollado nuevas tareas de evaluación y conjuntos de datos que cubren una amplia gama de habilidades.

No obstante, persisten los siguientes problemas con estos estándares actualizados:

Los formatos de las tareas imponen limitaciones a las habilidades evaluables. La mayoría de estas actividades utilizan un estilo de preguntas y respuestas de un solo turno, lo que las hace inadecuadas para medir la versatilidad de los LLM en su conjunto.
Es fácil manipular los puntos de referencia. Al determinar la eficacia de un modelo, es crucial que el conjunto de pruebas no se vea comprometido de ninguna manera. Sin embargo, con tanta información de LLM ya entrenada, es cada vez más probable que los casos de prueba se mezclen con los datos de entrenamiento.
Las métricas actualmente disponibles para las preguntas y respuestas abiertas son subjetivas. Las medidas tradicionales de preguntas y respuestas abiertas han incluido tanto calificaciones humanas objetivas como subjetivas. En la era de los LLM, las medidas basadas en la coincidencia de segmentos de texto ya no son relevantes.

Los investigadores están utilizando actualmente evaluadores automáticos basados en LLM bien alineados como GPT4 para reducir el alto costo de la calificación humana. Si bien los LLM tienen sesgos hacia ciertos rasgos, el mayor problema con este método es que no puede analizar modelos de nivel supra-GPT4.

Estudios recientes realizados por PTA Studio, la Universidad Estatal de Pensilvania, la Universidad Beihang, la Universidad Sun Yat-sen, la Universidad de Zhejiang y la Universidad Normal del Este de China presentan AgentSims, una arquitectura para la curación de tareas de evaluación para LLM que es interactiva, visualmente atractiva y basada en programación. El objetivo principal de AgentSims es facilitar el proceso de diseño de tareas al eliminar las barreras que los investigadores con diferentes niveles de experiencia en programación pueden enfrentar.

Los investigadores en el campo de LLM pueden aprovechar la extensibilidad y combinabilidad de AgentSims para examinar los efectos de combinar múltiples planes, sistemas de memoria y sistemas de aprendizaje. La interfaz de usuario de AgentSims para la generación de mapas y la gestión de agentes, fácil de usar, la hace accesible a especialistas en temas tan diversos como la economía del comportamiento y la psicología social. Un diseño amigable para el usuario como este es crucial para el crecimiento y desarrollo continuo del sector LLM.

El artículo de investigación afirma que AgentSims es mejor que los puntos de referencia actuales de LLM, que solo prueban un número pequeño de habilidades y utilizan datos de prueba y criterios abiertos a interpretación. Los científicos sociales y otros usuarios no técnicos pueden crear rápidamente entornos y diseñar trabajos utilizando los menús y funciones de arrastrar y soltar de la interfaz gráfica. Al modificar las clases de agente, planificación, memoria y uso de herramientas del código abstracto, los profesionales y desarrolladores de IA pueden experimentar con diversos sistemas de soporte de LLM. La tasa de éxito del objetivo de la tarea se puede determinar mediante la evaluación impulsada por objetivos. En resumen, AgentSims facilita el desarrollo comunitario interdisciplinario de puntos de referencia LLM robustos basados en simulaciones sociales variadas con objetivos explícitos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Presentamos LegalBench un punto de referencia de IA de código abierto construido de manera colaborativa para evaluar el razonamiento legal en modelos de lenguaje grandes en inglés.

Evaluación de los Modelos de Lenguaje Grandes Conozca a AgentSims, un Marco de Inteligencia Artificial Basado en Tareas para Pruebas Completas y Objetivas

Was this article helpful?

Maestría en Visual BERT | Desata el poder de tu primer encuentro

Presentamos LegalBench un punto de referencia de IA de código abierto construido de manera colaborativa para evaluar el razonamiento legal en modelos de lenguaje grandes en inglés.

Inteligencia Artificial

La lucha por reparar

NYU y NVIDIA colaboran en un gran modelo de lenguaje para predecir la readmisión de pacientes.

NVIDIA impulsa el entrenamiento para algunos de los modelos más grandes de la Fundación Amazon Titan.

Investigadores de la Universidad de Stanford presentan FlashFFTConv un nuevo sistema de inteligencia artificial para optimizar convoluciones FFT en secuencias largas.

De los Cristales de Tiempo a los Agujeros de Gusano ¿Cuándo es una Simulación Cuántica Real?

El (Largo) Cola Mueve al Perro Las Consecuencias Inesperadas del Arte Personalizado de la IA