Explorando la afinación de instrucciones en modelos de lenguaje conoce Tülu, una suite de modelos de lenguaje grandes (LLMs) afinados.

Tülu es una suite de LLMs afinados para explorar la afinación de instrucciones en modelos de lenguaje.

El famoso ChatGPT desarrollado por OpenAI es uno de los mejores ejemplos de Modelos de Lenguaje Grande (LLMs) que se han lanzado recientemente. LLMs como ChatGPT han causado sensación en el mundo con su potencial incomparable y su capacidad para imitar a los humanos en la realización de diversas tareas. Estos modelos han adoptado principalmente el ajuste fino de instrucciones para ayudar a que el modelo se acostumbre a realizar algunas tareas comunes. Este enfoque implica entrenar los modelos en pares de entrada y salida supervisados, que se pueden derivar de otros modelos. 

Se están utilizando varios conjuntos de datos abiertos de seguimiento de instrucciones para los avances actuales en modelos de lenguaje con ajuste de instrucciones. Aunque los modelos abiertos pueden competir con los modelos propietarios de última generación, estas afirmaciones a menudo solo están respaldadas por una evaluación limitada, lo que dificulta la comparación en profundidad de los modelos y la determinación del valor de diversos recursos. Para abordar esto, un equipo de investigadores del Instituto Allen para la IA y la Universidad de Washington ha presentado una amplia gama de modelos ajustados a instrucciones con tamaños de parámetros que van desde 6,7 mil millones hasta 65 mil millones.

Estos modelos se entrenan en 12 conjuntos de datos de instrucciones que van desde conjuntos de datos sintéticos y destilados como Alpaca hasta conjuntos de datos seleccionados manualmente como OpenAssistant. Los modelos se prueban cuidadosamente en una variedad de áreas, incluyendo razonamiento, multilingüismo, codificación, conocimiento factual y habilidades de seguimiento de instrucciones abiertas. Para proporcionar un estudio exhaustivo, la evaluación se lleva a cabo utilizando una colección de métricas automáticas, basadas en modelos y humanas.

El equipo también ha presentado TÜLU, que es un conjunto de grandes modelos de lenguaje ajustados a instrucciones a partir de una combinación de fuentes de datos. Estos modelos se ajustan finamente utilizando una combinación de recursos abiertos de alta calidad. El equipo ha examinado el rendimiento de varios conjuntos de datos de ajuste de instrucciones y su efecto en habilidades específicas a través de diversas evaluaciones. Descubrieron que diferentes conjuntos de datos pueden revelar o mejorar habilidades específicas y que ni un solo conjunto de datos ni un conjunto de conjuntos de datos ofrece el mejor rendimiento en todas las evaluaciones.

El equipo menciona que un hallazgo interesante de la investigación es que las evaluaciones basadas en referencias fallan en capturar las diferencias en las capacidades del modelo que se muestran mediante comparaciones de modelos. El mejor modelo en cualquier evaluación dada promedió el 83% del rendimiento de ChatGPT y el 68% del rendimiento de GPT-4. El equipo afirma que TÜLU, con 65 mil millones de parámetros, es la variante ajustada a instrucciones de mayor tamaño lanzada públicamente, entrenada en siete conjuntos de datos populares disponibles. Ha logrado el mejor rendimiento promedio mientras se mantiene dentro del 15% del modelo de mejor rendimiento en cada tarea individual.

Algunas de las contribuciones clave mencionadas en el documento de investigación son:

  1. Los conjuntos de datos de instrucciones específicos de dominio y habilidades son muy exitosos para mejorar el rendimiento del modelo.
  1. Los modelos de base más grandes o pre-entrenados durante más tiempo tienen un rendimiento consistente después del ajuste de instrucciones.
  1. El mejor rendimiento promedio en las evaluaciones se logró con TÜLU, el LLaMa ajustado a instrucciones en una mezcla de conjuntos de datos de instrucciones existentes, aunque no es el mejor al comparar diferentes configuraciones de evaluación por separado.
  1. Incluso un modelo muy grande de 65 mil millones de parámetros que se ha optimizado en una gran variedad de conjuntos de datos de instrucciones no alcanza a ChatGPT, aunque supera a modelos más pequeños comparables por un margen significativo.
  1. Fuertes correlaciones entre la evaluación de preferencia basada en modelos sobre seguimiento de instrucciones abiertas y el número típico de tokens únicos producidos por un modelo indican que la evaluación de preferencia basada en modelos contiene sesgos que pueden enmascarar las variaciones en las capacidades del modelo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Registro KYC ahora hecho fácil usando IA

Los participantes del mercado de capitales pueden ahora despedirse de los largos y engorrosos procesos de registro de...

Inteligencia Artificial

Este artículo de IA de China propone HQTrack un marco de IA para rastrear cualquier cosa de alta calidad en videos

El seguimiento visual de objetos es la base de numerosos subcampos dentro de la visión por computadora, incluyendo la...

Inteligencia Artificial

Prácticas recomendadas de Ciencia de Datos, Parte 1 - Prueba tus consultas

El campo de la Ciencia de Datos tiene sus raíces en las Matemáticas y la Estadística, así como en la Informática. Si ...

Inteligencia Artificial

Potenciando los tubos RAG en Haystack Presentando DiversityRanker y LostInTheMiddleRanker

Los recientes avances en Procesamiento de Lenguaje Natural (NLP) y Respuesta a Preguntas de Forma Larga (LFQA) hubier...

Inteligencia Artificial

El Bucle de Retroalimentación de la IA Manteniendo la Calidad de Producción del Modelo en la Era del Contenido Generado por IA

Explora cómo el bucle de retroalimentación de IA puede ayudar a mantener la calidad del modelo, mejorar la eficiencia...

Inteligencia Artificial

Top 40+ Herramientas Generativas de IA (Diciembre 2023)

ChatGPT – GPT-4 GPT-4 es el último LLM de OpenAI, que es más inventivo, preciso y seguro que sus predecesores. Tambié...