Todo lo que debes saber sobre la evaluación de modelos de lenguaje grandes
Evaluación de modelos de lenguaje grandes
Modelos de Lenguaje Abiertos
De la perplejidad a la medición de la inteligencia general
A medida que los modelos de lenguaje de código abierto están cada vez más disponibles, es fácil perderse entre todas las opciones.
¿Cómo determinamos su rendimiento y los comparamos? ¿Y cómo podemos afirmar con confianza que un modelo es mejor que otro?
Este artículo proporciona algunas respuestas al presentar métricas de entrenamiento y evaluación, y puntos de referencia generales y específicos para tener una imagen clara del rendimiento de su modelo.
Si te lo perdiste, echa un vistazo al primer artículo de la serie Modelos de Lenguaje Abiertos:
- Cómo implementar el clustering jerárquico para campañas de marketing directo – con código Python
- Top 40+ Herramientas de IA Generativa (Septiembre 2023)
- Investigadores de la Universidad de Washington y AI2 presentan TIFA una métrica de evaluación automática que mide la fidelidad de una imagen generada por IA a través de VQA.
Una introducción suave a los Modelos de Lenguaje Grandes de Código Abierto
Por qué todos hablan de Llamas, Alpacas, Halcones y otros animales
towardsdatascience.com
Perplejidad
Los modelos de lenguaje definen una distribución de probabilidad sobre un vocabulario de palabras para seleccionar la palabra siguiente más probable en una secuencia. Dado un texto, un modelo de lenguaje asigna una probabilidad a cada palabra en el idioma, y se selecciona la más probable.
La perplejidad mide qué tan bien puede predecir un modelo de lenguaje la siguiente palabra en una secuencia dada. Como métrica de entrenamiento, muestra qué tan bien los modelos aprendieron su conjunto de entrenamiento.
No entraremos en detalles matemáticos, pero intuitivamente, minimizar la perplejidad significa maximizar la probabilidad predicha.
En otras palabras, el mejor modelo es aquel que no se sorprende cuando ve el nuevo texto porque lo está esperando, lo que significa que ya predijo bien qué palabras vendrán a continuación en la secuencia.
Aunque la perplejidad es útil, no considera el significado detrás de las palabras ni el contexto en el que se usan, y está influenciada por cómo tokenizamos nuestros datos: diferentes modelos de lenguaje con vocabularios y técnicas de tokenización variables pueden producir puntuaciones de perplejidad variables, lo que hace que las comparaciones directas sean menos significativas.
La perplejidad es una métrica útil pero limitada. La usamos principalmente para seguir el progreso durante el entrenamiento de un modelo o para comparar…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Abriendo la caja negra
- Las 10 habilidades de IA más importantes para conseguir un trabajo en 2023
- Base de datos de vectores ¡Una guía para principiantes!
- 9 Mejores sitios web de IA (Tienes que probar antes de morir)
- Conoce DenseDiffusion una técnica de IA sin entrenamiento para abordar subtítulos densos y manipulación de diseño en la generación de texto a imagen
- Innovaciones autónomas en un mundo incierto
- Llevando la inteligencia artificial generativa en la búsqueda a más personas en todo el mundo