La suite de referencia más grande de LLM MEGAVERSE
La impresionante suite insignia de LLM MEGAVERSE
Ahora, el benchmarking se extiende a más de 81 idiomas e incluso a 2 conjuntos de datos multimodales.
Una rápida revisión de la investigación publicada por Sunayana Sitaram de Microsoft.
TLDR (Resumen):
A medida que los LLM se vuelven más avanzados y completos, los marcos de evaluación deben mantenerse al día con sus capacidades de evaluación de rendimiento en múltiples modalidades, idiomas y variaciones en la forma en que se realiza la evaluación.
Microsoft ha publicado el último conjunto de pruebas de benchmarking: MEGAVERSE.
- Más allá de los límites humanos El surgimiento de la SuperInteligencia
- IA generativa basada en datos Beneficios para los datos y el análisis
- Examinando y detectando sesgos en un conjunto de datos de incumplimiento de tarjetas de crédito
Incluye 22 conjuntos de datos, 81 idiomas y 2 conjuntos de datos multimodales.
Enlace al artículo:
Otros hallazgos importantes del artículo:
Se han desarrollado pruebas de benchmarking para el idioma inglés. El modelo más grande que evaluamos, GPT4 (OpenAI, 2023), se acerca pero en la mayoría de los casos no supera el rendimiento de los modelos de lenguaje finamente ajustados del estado del arte (SOTA), como TULRv6 (Patra et al., 2023). GPT4 tiene un rendimiento inferior en los guiones no latinos y en idiomas con recursos limitados.
El artículo puntúa cinco nuevos LLM del estado del arte (SOTA):
- PaLM2 (Google, 2023)
- Llama2 (3 variantes) (Touvron et al., 2023) y
- LLaVA-v1.5 (Liu et al., 2023a)
- GPT4
- GPT-3.5-Turbo
Multimodal:
- Modelo LLaVA-v1.5 (Liu et al., 2023a)
- dos nuevos conjuntos de datos multimodales multilingües
Benchmarks desarrollados anteriormente:
BIG-bench de Srivastava et al. (2023) tiene 204 tareas y pruebas en múltiples idiomas.
Evaluación holística de modelos de lenguaje (HELM) de Liang et al. (2022) incluye tareas, dominios e idiomas, y métricas (por ejemplo, precisión, calibración, toxicidad). Incluye 30 modelos de lenguaje en 42 escenarios y 7 métricas.
BUFFET (Asai et al., 2023) incluye 54 idiomas en 15 conjuntos de datos.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Inflection-2 supera a PaLM-2 de Google Un avance en los modelos de lenguaje de IA
- 5 Técnicas de Optimización de Código Para Acelerar tus Programas
- Esta investigación de IA proveniente de China presenta GS-SLAM un enfoque novedoso para mejorar el mapeo y la localización en 3D.
- Revolucionando el arte digital Investigadores de la Universidad Nacional de Seúl introducen un enfoque novedoso para la creación de collages utilizando el aprendizaje por refuerzo.
- Esta Investigación de IA presenta GAIA un referente que define el próximo hito en la competencia general de IA
- Aprende cómo evaluar el riesgo de los sistemas de IA
- Amazon presenta Q un chatbot de inteligencia artificial generativa que puede adaptarse específicamente a un negocio