HuggingFace presenta TextEnvironments un orquestador entre un modelo de aprendizaje automático y un conjunto de herramientas (funciones de Python) que el modelo puede llamar para resolver tareas específicas.

HuggingFace presenta TextEnvironments un orquestador para modelos de aprendizaje automático y herramientas (funciones de Python) que resuelven tareas específicas.

Terapia de Afinación Supervisada (SFT), Modelado de Recompensa (RM) y Optimización de Políticas Proximal (PPO) son parte de TRL. En esta biblioteca de pila completa, los investigadores proporcionan herramientas para entrenar modelos de lenguaje de transformadores y modelos de difusión estables con Aprendizaje por Refuerzo. La biblioteca es una extensión de la colección de convertidores de Hugging Face. Por lo tanto, los modelos de lenguaje se pueden cargar directamente a través de convertidores después de que se hayan pre entrenado. Actualmente se admiten la mayoría de los diseños de decodificador y codificador-decodificador. Para fragmentos de código e instrucciones sobre cómo utilizar estos programas, consulte el manual o el subdirectorio de ejemplos.

Aspectos destacados

  • Ajusta fácilmente modelos de lenguaje o adaptadores en un conjunto personalizado de datos con la ayuda de SFTTrainer, una envoltura ligera y fácil de usar alrededor del Entrenador de Convertidores.
  • Para modificar rápidamente y precisamente los modelos de lenguaje para las preferencias humanas (Modelado de Recompensa), puedes usar RewardTrainer, una envoltura ligera sobre el Entrenador de Convertidores.
  • Para optimizar un modelo de lenguaje, PPOTrainer solo requiere tripletas (consulta, respuesta, recompensa).
  • Se presenta un modelo de transformador con una salida escalar adicional para cada token que se puede utilizar como una función de valor en el aprendizaje por refuerzo en AutoModelForCausalLMWithValueHead y AutoModelForSeq2SeqLMWithValueHead.
  • Entrena GPT2 para escribir reseñas de películas favorables utilizando un clasificador de sentimientos BERT; implementa un RLHF completo utilizando solo adaptadores; haz que GPT-j sea menos tóxico; proporciona un ejemplo de stack-llama, etc.

¿Cómo funciona TRL?

En TRL, se entrena a un modelo de lenguaje de transformador para optimizar una señal de recompensa. Expertos humanos o modelos de recompensa determinan la naturaleza de la señal de recompensa. El modelo de recompensa es un modelo de ML que estima las ganancias a partir de una secuencia específica de salidas. La Optimización de Políticas Proximal (PPO) es una técnica de aprendizaje por refuerzo que TRL utiliza para entrenar el modelo de lenguaje de transformador. Debido a que es un método de gradiente de política, PPO aprende modificando la política del modelo de lenguaje de transformador. La política se puede considerar como una función que convierte una serie de entradas en otra.

Usando PPO, un modelo de lenguaje se puede ajustar de tres formas principales:

  • Generar: El modelo lingüístico proporciona un inicio de oración posible en respuesta a una pregunta.
  • La evaluación puede implicar el uso de una función, un modelo, el juicio humano o una combinación de estos factores. Cada par consulta/respuesta debe dar como resultado un único valor numérico.
  • El aspecto más difícil es, sin duda, la optimización. Las log-probabilidades de los tokens en secuencias se determinan utilizando los pares consulta/respuesta en la fase de optimización. Para este propósito, se utilizan el modelo entrenado y un modelo de referencia (a menudo, el modelo pre entrenado antes de la afinación). Una señal de recompensa adicional es la divergencia de KL entre las dos salidas, que asegura que las respuestas generadas no se alejen demasiado del modelo de lenguaje de referencia. Luego, se utiliza PPO para entrenar el modelo lingüístico operativo.

Características clave

  • En comparación con los enfoques más convencionales para entrenar modelos de lenguaje de transformadores, TRL tiene varias ventajas.
  • Además de la creación de texto, la traducción y la sumarización, TRL puede entrenar modelos de lenguaje de transformadores para una amplia gama de otras tareas.
  • El entrenamiento de modelos de lenguaje de transformadores con TRL es más eficiente que las técnicas convencionales como el aprendizaje supervisado.
  • La resistencia al ruido y a las entradas adversarias se mejora en los modelos de lenguaje de transformadores entrenados con TRL en comparación con aquellos aprendidos con enfoques más convencionales.
  • TextEnvironments es una nueva característica en TRL.

Los TextEnvironments en TRL son un conjunto de recursos para desarrollar modelos de transformadores de lenguaje basados en RL. Permiten la comunicación con el modelo de lenguaje de transformador y la producción de resultados, que se pueden utilizar para ajustar el rendimiento del modelo. TRL utiliza clases para representar TextEnvironments. Las clases en esta jerarquía representan diferentes contextos relacionados con el texto, por ejemplo, contextos de generación de texto, contextos de traducción y contextos de resumen. Varios trabajos, incluidos los enumerados a continuación, han utilizado TRL para entrenar modelos de lenguaje de transformadores.

En comparación con el texto creado por modelos entrenados con métodos más convencionales, los modelos de lenguaje de transformadores entrenados con TRL producen una escritura más creativa e informativa. Se ha demostrado que los modelos de lenguaje de transformadores entrenados con TRL son superiores a los entrenados con enfoques más convencionales para traducir texto de un idioma a otro. Se ha utilizado el lenguaje de transformadores (TRL) para entrenar modelos que pueden resumir texto de manera más precisa y concisa que aquellos entrenados con métodos más convencionales.

Para más detalles, visita la página de GitHub https://github.com/huggingface/trl 

Resumiendo:

TRL es un método efectivo para utilizar RL para entrenar modelos de lenguaje transformer. Cuando se comparan con modelos entrenados con métodos más convencionales, los modelos de lenguaje transformer entrenados con TRL tienen un mejor rendimiento en términos de adaptabilidad, eficiencia y robustez. Se puede lograr entrenar modelos de lenguaje transformer para actividades como la generación de texto, la traducción y la síntesis mediante TRL.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce DiffusionDet Un Modelo de Inteligencia Artificial (IA) Que Utiliza Difusión para la Detección de Objetos

La detección de objetos es una técnica poderosa para identificar objetos en imágenes y videos. Gracias al aprendizaje...

Investigación

Investigadores del MIT introducen la técnica de Restart Sampling para mejorar los procesos generativos.

Los modelos generativos profundos basados en ecuaciones diferenciales han surgido recientemente como herramientas de ...

Inteligencia Artificial

¿Realmente se expondrán o perderán 300 millones de empleos debido a la sustitución por IA?

Los autores del informe de Goldman Sachs sugieren que 300 millones de empleos podrían verse afectados por la sustituc...