Evaluación de los Modelos de Lenguaje Grandes Conozca a AgentSims, un Marco de Inteligencia Artificial Basado en Tareas para Pruebas Completas y Objetivas
Evaluación de modelos de lenguaje con AgentSims, un marco de IA basado en tareas para pruebas completas y objetivas.
Los LLM han cambiado la forma en que se piensa en el procesamiento del lenguaje (NLP), pero persiste el problema de su evaluación. Los estándares antiguos eventualmente se vuelven irrelevantes, dado que los LLM pueden realizar NLU y NLG a niveles humanos (OpenAI, 2023) utilizando datos lingüísticos.
En respuesta a la necesidad urgente de nuevos puntos de referencia en áreas como las pruebas de conocimiento basadas en preguntas y respuestas (QA) de libros cerrados, exámenes estandarizados centrados en el ser humano, diálogo de múltiples turnos, razonamiento y evaluación de seguridad, la comunidad de NLP ha desarrollado nuevas tareas de evaluación y conjuntos de datos que cubren una amplia gama de habilidades.
No obstante, persisten los siguientes problemas con estos estándares actualizados:
- Maestría en Visual BERT | Desata el poder de tu primer encuentro
- Desbloqueando la precisión en la edición de imágenes y escenas 3D guiadas por texto Conoce ‘Watch Your Steps
- Meta lanza Code Llama la última herramienta de IA para programar
- Los formatos de las tareas imponen limitaciones a las habilidades evaluables. La mayoría de estas actividades utilizan un estilo de preguntas y respuestas de un solo turno, lo que las hace inadecuadas para medir la versatilidad de los LLM en su conjunto.
- Es fácil manipular los puntos de referencia. Al determinar la eficacia de un modelo, es crucial que el conjunto de pruebas no se vea comprometido de ninguna manera. Sin embargo, con tanta información de LLM ya entrenada, es cada vez más probable que los casos de prueba se mezclen con los datos de entrenamiento.
- Las métricas actualmente disponibles para las preguntas y respuestas abiertas son subjetivas. Las medidas tradicionales de preguntas y respuestas abiertas han incluido tanto calificaciones humanas objetivas como subjetivas. En la era de los LLM, las medidas basadas en la coincidencia de segmentos de texto ya no son relevantes.
Los investigadores están utilizando actualmente evaluadores automáticos basados en LLM bien alineados como GPT4 para reducir el alto costo de la calificación humana. Si bien los LLM tienen sesgos hacia ciertos rasgos, el mayor problema con este método es que no puede analizar modelos de nivel supra-GPT4.
Estudios recientes realizados por PTA Studio, la Universidad Estatal de Pensilvania, la Universidad Beihang, la Universidad Sun Yat-sen, la Universidad de Zhejiang y la Universidad Normal del Este de China presentan AgentSims, una arquitectura para la curación de tareas de evaluación para LLM que es interactiva, visualmente atractiva y basada en programación. El objetivo principal de AgentSims es facilitar el proceso de diseño de tareas al eliminar las barreras que los investigadores con diferentes niveles de experiencia en programación pueden enfrentar.
Los investigadores en el campo de LLM pueden aprovechar la extensibilidad y combinabilidad de AgentSims para examinar los efectos de combinar múltiples planes, sistemas de memoria y sistemas de aprendizaje. La interfaz de usuario de AgentSims para la generación de mapas y la gestión de agentes, fácil de usar, la hace accesible a especialistas en temas tan diversos como la economía del comportamiento y la psicología social. Un diseño amigable para el usuario como este es crucial para el crecimiento y desarrollo continuo del sector LLM.
El artículo de investigación afirma que AgentSims es mejor que los puntos de referencia actuales de LLM, que solo prueban un número pequeño de habilidades y utilizan datos de prueba y criterios abiertos a interpretación. Los científicos sociales y otros usuarios no técnicos pueden crear rápidamente entornos y diseñar trabajos utilizando los menús y funciones de arrastrar y soltar de la interfaz gráfica. Al modificar las clases de agente, planificación, memoria y uso de herramientas del código abstracto, los profesionales y desarrolladores de IA pueden experimentar con diversos sistemas de soporte de LLM. La tasa de éxito del objetivo de la tarea se puede determinar mediante la evaluación impulsada por objetivos. En resumen, AgentSims facilita el desarrollo comunitario interdisciplinario de puntos de referencia LLM robustos basados en simulaciones sociales variadas con objetivos explícitos.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- De las palabras a los mundos Explorando la narración de videos con la descripción de video fina y detallada multimodal de IA
- Este artículo de IA de NTU Singapur presenta MeVIS un banco de pruebas a gran escala para la segmentación de video con expresiones de movimiento
- Cómo codificar características de tiempo periódicas
- Introducción e Implementación de Redes Siamesas
- Anunciando la vista previa de Amazon SageMaker Profiler Haga un seguimiento y visualice datos detallados de rendimiento de hardware para sus cargas de trabajo de entrenamiento de modelos.
- El algoritmo de Google hace que la encriptación FIDO sea segura contra ordenadores cuánticos
- El mito de la IA de ‘código abierto