Todo lo que debes saber sobre la evaluación de modelos de lenguaje grandes

Evaluación de modelos de lenguaje grandes

Modelos de Lenguaje Abiertos

De la perplejidad a la medición de la inteligencia general

Imagen generada por el autor usando Stable Diffusion.

A medida que los modelos de lenguaje de código abierto están cada vez más disponibles, es fácil perderse entre todas las opciones.

¿Cómo determinamos su rendimiento y los comparamos? ¿Y cómo podemos afirmar con confianza que un modelo es mejor que otro?

Este artículo proporciona algunas respuestas al presentar métricas de entrenamiento y evaluación, y puntos de referencia generales y específicos para tener una imagen clara del rendimiento de su modelo.

Si te lo perdiste, echa un vistazo al primer artículo de la serie Modelos de Lenguaje Abiertos:

Una introducción suave a los Modelos de Lenguaje Grandes de Código Abierto

Por qué todos hablan de Llamas, Alpacas, Halcones y otros animales

towardsdatascience.com

Perplejidad

Los modelos de lenguaje definen una distribución de probabilidad sobre un vocabulario de palabras para seleccionar la palabra siguiente más probable en una secuencia. Dado un texto, un modelo de lenguaje asigna una probabilidad a cada palabra en el idioma, y se selecciona la más probable.

La perplejidad mide qué tan bien puede predecir un modelo de lenguaje la siguiente palabra en una secuencia dada. Como métrica de entrenamiento, muestra qué tan bien los modelos aprendieron su conjunto de entrenamiento.

No entraremos en detalles matemáticos, pero intuitivamente, minimizar la perplejidad significa maximizar la probabilidad predicha.

En otras palabras, el mejor modelo es aquel que no se sorprende cuando ve el nuevo texto porque lo está esperando, lo que significa que ya predijo bien qué palabras vendrán a continuación en la secuencia.

Aunque la perplejidad es útil, no considera el significado detrás de las palabras ni el contexto en el que se usan, y está influenciada por cómo tokenizamos nuestros datos: diferentes modelos de lenguaje con vocabularios y técnicas de tokenización variables pueden producir puntuaciones de perplejidad variables, lo que hace que las comparaciones directas sean menos significativas.

La perplejidad es una métrica útil pero limitada. La usamos principalmente para seguir el progreso durante el entrenamiento de un modelo o para comparar…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Investigación

El Gran Desafío Inaugural de J-WAFS tiene como objetivo desarrollar variantes de cultivos mejorados y llevarlos del laboratorio a la tierra.

Matt Shoulders liderará un equipo interdisciplinario para mejorar el RuBisCO, la enzima de la fotosíntesis considerad...

Aprendizaje Automático

Acelerando el Acelerador Científico Acelera la Computación de Alto Rendimiento de CERN con GPUs y IA.

Nota del editor: Esto es parte de una serie que perfila a investigadores que avanzan en la ciencia con cómputo de alt...

Inteligencia Artificial

Meta AI presenta AnyMAL el futuro de los modelos de lenguaje multimodal que conecta texto, imágenes, videos, audio y datos de sensores de movimiento.

En inteligencia artificial, uno de los desafíos fundamentales ha sido permitir que las máquinas comprendan y generen ...