LMSYS ORG presenta Chatbot Arena una plataforma de referencia de LLM con batallas anónimas y aleatorias realizadas por la multitud

LMSYS ORG presenta Chatbot Arena, una plataforma de LLM con batallas anónimas y aleatorias realizadas por la multitud.

Muchos proyectos de código abierto han desarrollado modelos lingüísticos completos que se pueden entrenar para llevar a cabo tareas específicas. Estos modelos pueden proporcionar respuestas útiles a las preguntas y comandos de los usuarios. Algunos ejemplos destacados incluyen Alpaca y Vicuna basados en LLaMA, y OpenAssistant y Dolly basados en Pythia.

Aunque nuevos modelos se lanzan cada semana, la comunidad aún lucha por evaluarlos adecuadamente. Debido a que las preocupaciones de los asistentes de LLM a menudo son vagas, es difícil crear un sistema de evaluación que pueda evaluar automáticamente la calidad de sus respuestas. Aquí a menudo se requiere una evaluación humana mediante comparación pareja. Un sistema de evaluación escalable, incremental y distintivo basado en comparación pareja sería ideal.

Pocos de los sistemas de evaluación actuales de LLM cumplen con todos estos requisitos. Los marcos de evaluación clásicos de LLM como HELM y lm-evaluation-harness proporcionan medidas multi-métricas para tareas estándar de investigación. Sin embargo, no evalúan bien las preguntas de formato libre porque no se basan en comparaciones pareja.

LMSYS ORG es una organización que desarrolla modelos y sistemas grandes, abiertos, escalables y accesibles. Su nuevo trabajo presenta Chatbot Arena, una plataforma de evaluación de LLM basada en la multitud con batallas anónimas y aleatorias. Al igual que en el ajedrez y otros juegos competitivos, en Chatbot Arena se emplea el sistema de calificación Elo. El sistema de calificación Elo muestra promesa para proporcionar la calidad deseada mencionada anteriormente.

Comenzaron a recopilar información hace una semana cuando abrieron la arena con muchos LLM de código abierto conocidos. Se pueden ver algunos ejemplos de aplicaciones del mundo real de LLM en el método de recopilación de datos de crowdsourcing. Un usuario puede comparar y contrastar dos modelos anónimos mientras chatea con ellos simultáneamente en la arena.

FastChat, el sistema de servicio multi-modelo, alojó la arena en https://arena.lmsys.org. Una persona que ingresa a la arena se encontrará con una conversación con dos modelos sin nombre. Cuando los consumidores reciben comentarios de ambos modelos, pueden continuar la conversación o votar por el que prefieran. Después de emitir un voto, las identidades de los modelos se revelarán. Los usuarios pueden seguir conversando con los mismos dos modelos anónimos o comenzar una nueva batalla con dos modelos nuevos. El sistema registra todas las actividades de los usuarios. Solo cuando los nombres de los modelos se han ocultado se utilizan los votos en el análisis. Desde que la arena se puso en marcha hace una semana, se han contabilizado alrededor de 7,000 votos legítimos y anónimos.

En el futuro, quieren implementar algoritmos de muestreo mejorados, procedimientos de torneo y sistemas de servicio para acomodar una mayor variedad de modelos y proporcionar clasificaciones detalladas para diversas tareas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Meet TableGPT Un marco unificado ajustado que permite a los LLM comprender y operar en tablas utilizando comandos funcionales externos

Las tablas se utilizan con frecuencia para representar el vasto y complejo mundo de los datos y sirven como base para...

Inteligencia Artificial

Esta semana en IA, 31 de julio de 2023

Esta semana en IA en VoAGI proporciona un resumen semanal de los últimos acontecimientos en el mundo de la Inteligenc...

Inteligencia Artificial

Todo lo que necesitas saber sobre la serie de modelos de lenguaje (LLMs) Qwen Large

Los modelos de lenguaje grandes (LLMs) han remodelado significativamente el panorama de la Inteligencia Artificial (I...

Ciencias de la Computación

Singapur planea una red nacional para protegerse contra futuras amenazas cuánticas.

Las empresas de telecomunicaciones en Singapur planean renovar las redes de fibra existentes para protegerse a sí mis...

Inteligencia Artificial

Las métricas pueden engañar, pero los ojos no Este método de IA propone una métrica de calidad perceptual para la interpolación de cuadros de video

El avance en la tecnología de visualización ha hecho que nuestra experiencia de visualización sea más intensa y agrad...