La suite de referencia más grande de LLM MEGAVERSE

La impresionante suite insignia de LLM MEGAVERSE

Ahora, el benchmarking se extiende a más de 81 idiomas e incluso a 2 conjuntos de datos multimodales.

Una rápida revisión de la investigación publicada por Sunayana Sitaram de Microsoft.

TLDR (Resumen):

A medida que los LLM se vuelven más avanzados y completos, los marcos de evaluación deben mantenerse al día con sus capacidades de evaluación de rendimiento en múltiples modalidades, idiomas y variaciones en la forma en que se realiza la evaluación.

Microsoft ha publicado el último conjunto de pruebas de benchmarking: MEGAVERSE.

Incluye 22 conjuntos de datos, 81 idiomas y 2 conjuntos de datos multimodales.

Otros hallazgos importantes del artículo:

Se han desarrollado pruebas de benchmarking para el idioma inglés. El modelo más grande que evaluamos, GPT4 (OpenAI, 2023), se acerca pero en la mayoría de los casos no supera el rendimiento de los modelos de lenguaje finamente ajustados del estado del arte (SOTA), como TULRv6 (Patra et al., 2023). GPT4 tiene un rendimiento inferior en los guiones no latinos y en idiomas con recursos limitados.

El artículo puntúa cinco nuevos LLM del estado del arte (SOTA):

  • PaLM2 (Google, 2023)
  • Llama2 (3 variantes) (Touvron et al., 2023) y
  • LLaVA-v1.5 (Liu et al., 2023a)
  • GPT4
  • GPT-3.5-Turbo

Multimodal:

  • Modelo LLaVA-v1.5 (Liu et al., 2023a)
  • dos nuevos conjuntos de datos multimodales multilingües

Benchmarks desarrollados anteriormente:

BIG-bench de Srivastava et al. (2023) tiene 204 tareas y pruebas en múltiples idiomas.

Evaluación holística de modelos de lenguaje (HELM) de Liang et al. (2022) incluye tareas, dominios e idiomas, y métricas (por ejemplo, precisión, calibración, toxicidad). Incluye 30 modelos de lenguaje en 42 escenarios y 7 métricas.

BUFFET (Asai et al., 2023) incluye 54 idiomas en 15 conjuntos de datos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

ChatGPT investigado por la Comisión Federal de Comercio por posibles daños

En un desarrollo significativo, la Comisión Federal de Comercio (FTC) ha iniciado una investigación contra OpenAI, la...

Ciencia de Datos

Uniéndose a la lucha contra el sesgo en la atención médica

Leo Anthony Celi invita a la industria a ampliar su enfoque en la recolección y análisis de datos clínicos para todas...

Inteligencia Artificial

Descubre RAGs una aplicación de Streamlit que te permite crear una tubería RAG a partir de una fuente de datos utilizando lenguaje natural.

Los GPT se destacan en inteligencia artificial en cuanto a tareas de NLP. No obstante, las tuberías construidas e imp...

Inteligencia Artificial

15+ Herramientas de IA para Desarrolladores (Septiembre 2023)

GitHub Copilot GitHub Copilot se presenta como un asistente de codificación con inteligencia artificial líder en el m...

Inteligencia Artificial

¿Realmente se expondrán o perderán 300 millones de empleos debido a la sustitución por IA?

Los autores del informe de Goldman Sachs sugieren que 300 millones de empleos podrían verse afectados por la sustituc...

Inteligencia Artificial

Los investigadores de Microsoft revelan 'EmotionPrompt' mejorando la inteligencia emocional de la IA en múltiples modelos de lenguaje

La inteligencia emocional es una piedra angular históricamente ubicada dentro del vasto mosaico de cualidades humanas...