HuggingFace presenta TextEnvironments un orquestador entre un modelo de aprendizaje automático y un conjunto de herramientas (funciones de Python) que el modelo puede llamar para resolver tareas específicas.
HuggingFace presenta TextEnvironments un orquestador para modelos de aprendizaje automático y herramientas (funciones de Python) que resuelven tareas específicas.
Terapia de Afinación Supervisada (SFT), Modelado de Recompensa (RM) y Optimización de Políticas Proximal (PPO) son parte de TRL. En esta biblioteca de pila completa, los investigadores proporcionan herramientas para entrenar modelos de lenguaje de transformadores y modelos de difusión estables con Aprendizaje por Refuerzo. La biblioteca es una extensión de la colección de convertidores de Hugging Face. Por lo tanto, los modelos de lenguaje se pueden cargar directamente a través de convertidores después de que se hayan pre entrenado. Actualmente se admiten la mayoría de los diseños de decodificador y codificador-decodificador. Para fragmentos de código e instrucciones sobre cómo utilizar estos programas, consulte el manual o el subdirectorio de ejemplos.
Aspectos destacados
- Ajusta fácilmente modelos de lenguaje o adaptadores en un conjunto personalizado de datos con la ayuda de SFTTrainer, una envoltura ligera y fácil de usar alrededor del Entrenador de Convertidores.
- Para modificar rápidamente y precisamente los modelos de lenguaje para las preferencias humanas (Modelado de Recompensa), puedes usar RewardTrainer, una envoltura ligera sobre el Entrenador de Convertidores.
- Para optimizar un modelo de lenguaje, PPOTrainer solo requiere tripletas (consulta, respuesta, recompensa).
- Se presenta un modelo de transformador con una salida escalar adicional para cada token que se puede utilizar como una función de valor en el aprendizaje por refuerzo en AutoModelForCausalLMWithValueHead y AutoModelForSeq2SeqLMWithValueHead.
- Entrena GPT2 para escribir reseñas de películas favorables utilizando un clasificador de sentimientos BERT; implementa un RLHF completo utilizando solo adaptadores; haz que GPT-j sea menos tóxico; proporciona un ejemplo de stack-llama, etc.
¿Cómo funciona TRL?
- Hora en Python Convertir y formatear elementos esenciales para principiantes
- ChatGPT como OCR para PDFs Tu nueva herramienta ETL para análisis de datos
- 6 Mitos sobre la Inteligencia Artificial Desacreditados Separando la Realidad de la Ficción
En TRL, se entrena a un modelo de lenguaje de transformador para optimizar una señal de recompensa. Expertos humanos o modelos de recompensa determinan la naturaleza de la señal de recompensa. El modelo de recompensa es un modelo de ML que estima las ganancias a partir de una secuencia específica de salidas. La Optimización de Políticas Proximal (PPO) es una técnica de aprendizaje por refuerzo que TRL utiliza para entrenar el modelo de lenguaje de transformador. Debido a que es un método de gradiente de política, PPO aprende modificando la política del modelo de lenguaje de transformador. La política se puede considerar como una función que convierte una serie de entradas en otra.
Usando PPO, un modelo de lenguaje se puede ajustar de tres formas principales:
- Generar: El modelo lingüístico proporciona un inicio de oración posible en respuesta a una pregunta.
- La evaluación puede implicar el uso de una función, un modelo, el juicio humano o una combinación de estos factores. Cada par consulta/respuesta debe dar como resultado un único valor numérico.
- El aspecto más difícil es, sin duda, la optimización. Las log-probabilidades de los tokens en secuencias se determinan utilizando los pares consulta/respuesta en la fase de optimización. Para este propósito, se utilizan el modelo entrenado y un modelo de referencia (a menudo, el modelo pre entrenado antes de la afinación). Una señal de recompensa adicional es la divergencia de KL entre las dos salidas, que asegura que las respuestas generadas no se alejen demasiado del modelo de lenguaje de referencia. Luego, se utiliza PPO para entrenar el modelo lingüístico operativo.
Características clave
- En comparación con los enfoques más convencionales para entrenar modelos de lenguaje de transformadores, TRL tiene varias ventajas.
- Además de la creación de texto, la traducción y la sumarización, TRL puede entrenar modelos de lenguaje de transformadores para una amplia gama de otras tareas.
- El entrenamiento de modelos de lenguaje de transformadores con TRL es más eficiente que las técnicas convencionales como el aprendizaje supervisado.
- La resistencia al ruido y a las entradas adversarias se mejora en los modelos de lenguaje de transformadores entrenados con TRL en comparación con aquellos aprendidos con enfoques más convencionales.
- TextEnvironments es una nueva característica en TRL.
Los TextEnvironments en TRL son un conjunto de recursos para desarrollar modelos de transformadores de lenguaje basados en RL. Permiten la comunicación con el modelo de lenguaje de transformador y la producción de resultados, que se pueden utilizar para ajustar el rendimiento del modelo. TRL utiliza clases para representar TextEnvironments. Las clases en esta jerarquía representan diferentes contextos relacionados con el texto, por ejemplo, contextos de generación de texto, contextos de traducción y contextos de resumen. Varios trabajos, incluidos los enumerados a continuación, han utilizado TRL para entrenar modelos de lenguaje de transformadores.
En comparación con el texto creado por modelos entrenados con métodos más convencionales, los modelos de lenguaje de transformadores entrenados con TRL producen una escritura más creativa e informativa. Se ha demostrado que los modelos de lenguaje de transformadores entrenados con TRL son superiores a los entrenados con enfoques más convencionales para traducir texto de un idioma a otro. Se ha utilizado el lenguaje de transformadores (TRL) para entrenar modelos que pueden resumir texto de manera más precisa y concisa que aquellos entrenados con métodos más convencionales.
Para más detalles, visita la página de GitHub https://github.com/huggingface/trl
Resumiendo:
TRL es un método efectivo para utilizar RL para entrenar modelos de lenguaje transformer. Cuando se comparan con modelos entrenados con métodos más convencionales, los modelos de lenguaje transformer entrenados con TRL tienen un mejor rendimiento en términos de adaptabilidad, eficiencia y robustez. Se puede lograr entrenar modelos de lenguaje transformer para actividades como la generación de texto, la traducción y la síntesis mediante TRL.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Cómo los prejuicios humanos socavan las soluciones habilitadas por la IA
- LLM Confiar, pero verificar
- ¿Qué tan transparentes son los modelos de lenguaje grandes?
- Google AI presenta Spectron el primer modelo de IA de lenguaje hablado que se entrena de principio a fin para procesar directamente los espectrogramas como entrada y salida.
- Revolucionando las predicciones de moléculas biológicas con AlphaFold de DeepMind
- Apple M2 Max GPU vs Nvidia V100, P100 y T4
- Ingeniería de datos vs. Pipelines de aprendizaje automático