La suite de referencia más grande de LLM MEGAVERSE

La impresionante suite insignia de LLM MEGAVERSE

Ahora, el benchmarking se extiende a más de 81 idiomas e incluso a 2 conjuntos de datos multimodales.

Una rápida revisión de la investigación publicada por Sunayana Sitaram de Microsoft.

TLDR (Resumen):

A medida que los LLM se vuelven más avanzados y completos, los marcos de evaluación deben mantenerse al día con sus capacidades de evaluación de rendimiento en múltiples modalidades, idiomas y variaciones en la forma en que se realiza la evaluación.

Microsoft ha publicado el último conjunto de pruebas de benchmarking: MEGAVERSE.

Incluye 22 conjuntos de datos, 81 idiomas y 2 conjuntos de datos multimodales.

Enlace al artículo:

Otros hallazgos importantes del artículo:

Se han desarrollado pruebas de benchmarking para el idioma inglés. El modelo más grande que evaluamos, GPT4 (OpenAI, 2023), se acerca pero en la mayoría de los casos no supera el rendimiento de los modelos de lenguaje finamente ajustados del estado del arte (SOTA), como TULRv6 (Patra et al., 2023). GPT4 tiene un rendimiento inferior en los guiones no latinos y en idiomas con recursos limitados.

El artículo puntúa cinco nuevos LLM del estado del arte (SOTA):

PaLM2 (Google, 2023)
Llama2 (3 variantes) (Touvron et al., 2023) y
LLaVA-v1.5 (Liu et al., 2023a)
GPT4
GPT-3.5-Turbo

Multimodal:

Modelo LLaVA-v1.5 (Liu et al., 2023a)
dos nuevos conjuntos de datos multimodales multilingües

Benchmarks desarrollados anteriormente:

BIG-bench de Srivastava et al. (2023) tiene 204 tareas y pruebas en múltiples idiomas.

Evaluación holística de modelos de lenguaje (HELM) de Liang et al. (2022) incluye tareas, dominios e idiomas, y métricas (por ejemplo, precisión, calibración, toxicidad). Incluye 30 modelos de lenguaje en 42 escenarios y 7 métricas.

BUFFET (Asai et al., 2023) incluye 54 idiomas en 15 conjuntos de datos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

La suite de referencia más grande de LLM MEGAVERSE

TLDR (Resumen):

Enlace al artículo:

Otros hallazgos importantes del artículo:

El artículo puntúa cinco nuevos LLM del estado del arte (SOTA):

Multimodal:

Benchmarks desarrollados anteriormente:

Was this article helpful?

Más allá de los límites humanos El surgimiento de la SuperInteligencia

Explorando alternativas de código abierto a los modelos de OpenAI

Inteligencia Artificial

ChatGPT investigado por la Comisión Federal de Comercio por posibles daños

Uniéndose a la lucha contra el sesgo en la atención médica

Descubre RAGs una aplicación de Streamlit que te permite crear una tubería RAG a partir de una fuente de datos utilizando lenguaje natural.

15+ Herramientas de IA para Desarrolladores (Septiembre 2023)

¿Realmente se expondrán o perderán 300 millones de empleos debido a la sustitución por IA?

Los investigadores de Microsoft revelan 'EmotionPrompt' mejorando la inteligencia emocional de la IA en múltiples modelos de lenguaje