Todo lo que debes saber sobre la evaluación de modelos de lenguaje grandes

Evaluación de modelos de lenguaje grandes

Modelos de Lenguaje Abiertos

De la perplejidad a la medición de la inteligencia general

Imagen generada por el autor usando Stable Diffusion.

A medida que los modelos de lenguaje de código abierto están cada vez más disponibles, es fácil perderse entre todas las opciones.

¿Cómo determinamos su rendimiento y los comparamos? ¿Y cómo podemos afirmar con confianza que un modelo es mejor que otro?

Este artículo proporciona algunas respuestas al presentar métricas de entrenamiento y evaluación, y puntos de referencia generales y específicos para tener una imagen clara del rendimiento de su modelo.

Si te lo perdiste, echa un vistazo al primer artículo de la serie Modelos de Lenguaje Abiertos:

Una introducción suave a los Modelos de Lenguaje Grandes de Código Abierto

Por qué todos hablan de Llamas, Alpacas, Halcones y otros animales

towardsdatascience.com

Perplejidad

Los modelos de lenguaje definen una distribución de probabilidad sobre un vocabulario de palabras para seleccionar la palabra siguiente más probable en una secuencia. Dado un texto, un modelo de lenguaje asigna una probabilidad a cada palabra en el idioma, y se selecciona la más probable.

La perplejidad mide qué tan bien puede predecir un modelo de lenguaje la siguiente palabra en una secuencia dada. Como métrica de entrenamiento, muestra qué tan bien los modelos aprendieron su conjunto de entrenamiento.

No entraremos en detalles matemáticos, pero intuitivamente, minimizar la perplejidad significa maximizar la probabilidad predicha.

En otras palabras, el mejor modelo es aquel que no se sorprende cuando ve el nuevo texto porque lo está esperando, lo que significa que ya predijo bien qué palabras vendrán a continuación en la secuencia.

Aunque la perplejidad es útil, no considera el significado detrás de las palabras ni el contexto en el que se usan, y está influenciada por cómo tokenizamos nuestros datos: diferentes modelos de lenguaje con vocabularios y técnicas de tokenización variables pueden producir puntuaciones de perplejidad variables, lo que hace que las comparaciones directas sean menos significativas.

La perplejidad es una métrica útil pero limitada. La usamos principalmente para seguir el progreso durante el entrenamiento de un modelo o para comparar…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Todo lo que debes saber sobre la evaluación de modelos de lenguaje grandes

Modelos de Lenguaje Abiertos

De la perplejidad a la medición de la inteligencia general

Una introducción suave a los Modelos de Lenguaje Grandes de Código Abierto

Por qué todos hablan de Llamas, Alpacas, Halcones y otros animales

Perplejidad

Was this article helpful?

Cómo implementar el clustering jerárquico para campañas de marketing directo – con código Python

Conferencia de Ciencia de Datos de la Universidad de San Francisco 2023 Datathon en colaboración con AWS y Amazon SageMaker Studio Lab

Inteligencia Artificial

El Gran Desafío Inaugural de J-WAFS tiene como objetivo desarrollar variantes de cultivos mejorados y llevarlos del laboratorio a la tierra.

Este artículo de IA presenta un modelo de aprendizaje profundo para clasificar las etapas de la degeneración macular relacionada con la edad utilizando escaneos OCT de retina del mundo real.

Acelerando el Acelerador Científico Acelera la Computación de Alto Rendimiento de CERN con GPUs y IA.

Conoce Jupyter AI Un nuevo proyecto de código abierto que lleva la Inteligencia Artificial Generativa a Jupyter Notebooks con Comandos Mágicos y una Interfaz de Chat.

Meta AI presenta AnyMAL el futuro de los modelos de lenguaje multimodal que conecta texto, imágenes, videos, audio y datos de sensores de movimiento.

Conoce a SPHINX Un modelo de lenguaje grande multi-modal y versátil (MLLM) con una combinación de tareas de entrenamiento, dominios de datos y embebimientos visuales.