LMSYS ORG presenta Chatbot Arena una plataforma de referencia de LLM con batallas anónimas y aleatorias realizadas por la multitud
LMSYS ORG presenta Chatbot Arena, una plataforma de LLM con batallas anónimas y aleatorias realizadas por la multitud.
Muchos proyectos de código abierto han desarrollado modelos lingüísticos completos que se pueden entrenar para llevar a cabo tareas específicas. Estos modelos pueden proporcionar respuestas útiles a las preguntas y comandos de los usuarios. Algunos ejemplos destacados incluyen Alpaca y Vicuna basados en LLaMA, y OpenAssistant y Dolly basados en Pythia.
Aunque nuevos modelos se lanzan cada semana, la comunidad aún lucha por evaluarlos adecuadamente. Debido a que las preocupaciones de los asistentes de LLM a menudo son vagas, es difícil crear un sistema de evaluación que pueda evaluar automáticamente la calidad de sus respuestas. Aquí a menudo se requiere una evaluación humana mediante comparación pareja. Un sistema de evaluación escalable, incremental y distintivo basado en comparación pareja sería ideal.
Pocos de los sistemas de evaluación actuales de LLM cumplen con todos estos requisitos. Los marcos de evaluación clásicos de LLM como HELM y lm-evaluation-harness proporcionan medidas multi-métricas para tareas estándar de investigación. Sin embargo, no evalúan bien las preguntas de formato libre porque no se basan en comparaciones pareja.
- Conoce a MPT-7B un nuevo modelo de lenguaje de código abierto entrenado en 1T tokens de texto y código seleccionados por MosaicML.
- Cómo mirar las tareas comunes de aprendizaje automático con una mirada fresca
- Una Bendición y un Monstruo Los Anunciantes Aceptan Cautelosamente la Inteligencia Artificial
LMSYS ORG es una organización que desarrolla modelos y sistemas grandes, abiertos, escalables y accesibles. Su nuevo trabajo presenta Chatbot Arena, una plataforma de evaluación de LLM basada en la multitud con batallas anónimas y aleatorias. Al igual que en el ajedrez y otros juegos competitivos, en Chatbot Arena se emplea el sistema de calificación Elo. El sistema de calificación Elo muestra promesa para proporcionar la calidad deseada mencionada anteriormente.
Comenzaron a recopilar información hace una semana cuando abrieron la arena con muchos LLM de código abierto conocidos. Se pueden ver algunos ejemplos de aplicaciones del mundo real de LLM en el método de recopilación de datos de crowdsourcing. Un usuario puede comparar y contrastar dos modelos anónimos mientras chatea con ellos simultáneamente en la arena.
FastChat, el sistema de servicio multi-modelo, alojó la arena en https://arena.lmsys.org. Una persona que ingresa a la arena se encontrará con una conversación con dos modelos sin nombre. Cuando los consumidores reciben comentarios de ambos modelos, pueden continuar la conversación o votar por el que prefieran. Después de emitir un voto, las identidades de los modelos se revelarán. Los usuarios pueden seguir conversando con los mismos dos modelos anónimos o comenzar una nueva batalla con dos modelos nuevos. El sistema registra todas las actividades de los usuarios. Solo cuando los nombres de los modelos se han ocultado se utilizan los votos en el análisis. Desde que la arena se puso en marcha hace una semana, se han contabilizado alrededor de 7,000 votos legítimos y anónimos.
En el futuro, quieren implementar algoritmos de muestreo mejorados, procedimientos de torneo y sistemas de servicio para acomodar una mayor variedad de modelos y proporcionar clasificaciones detalladas para diversas tareas.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Un Inventario Anidado para la Seguridad del Software, Gestión del Riesgo en la Cadena de Suministro
- 11 Mejores Herramientas de IA para Solopreneurs (el Kit de Herramientas de IA Definitivo)
- AI Surge El CEO de Stability AI predice pérdidas de empleo para los desarrolladores indios en un plazo de 2 años
- Una guía para principiantes sobre Ingeniería de Datos
- Los investigadores de Google AI presentan HyperDreamBooth un enfoque de IA que genera de manera eficiente pesos personalizados a partir de una sola imagen de una persona, es más pequeño y 25 veces más rápido que DreamBooth.
- ¿Cómo conseguir empleos de Data Science en FAANG en 2023?
- ¿Qué es la función SUBSTRING en SQL? [Explicado con ejemplos]