Google Research explora ¿Puede la retroalimentación de IA reemplazar la entrada humana para un aprendizaje por refuerzo efectivo en modelos de lenguaje grandes?

Google Research explora si la retroalimentación de IA puede reemplazar la entrada humana en el aprendizaje por refuerzo en modelos de lenguaje grandes.

La retroalimentación humana es esencial para mejorar y optimizar los modelos de aprendizaje automático. En los últimos años, el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) ha demostrado ser extremadamente efectivo para alinear los grandes modelos de lenguaje (LLMs) con las preferencias humanas, pero un desafío significativo radica en recolectar etiquetas de preferencia humana de alta calidad. En un estudio de investigación, los investigadores de Google AI han intentado comparar RLHF con el aprendizaje por refuerzo a partir de la retroalimentación de IA (RLAIF). RLAIF es una técnica en la que las preferencias son etiquetadas por un LLM preentrenado en lugar de depender de anotadores humanos.

En este estudio, los investigadores realizaron una comparación directa entre RLAIF y RLHF en el contexto de tareas de resumen. Se les encomendó la tarea de proporcionar etiquetas de preferencia para dos respuestas candidatas dadas un texto, utilizando un modelo de lenguaje grande (LLM) listo para usar. Posteriormente, se entrenó un modelo de recompensa (RM) basado en las preferencias inferidas por el LLM, incorporando una pérdida contrastiva. El último paso consistió en ajustar finamente un modelo de política mediante técnicas de aprendizaje por refuerzo. La imagen anterior muestra un diagrama que representa RLAIF (arriba) vs. RLHF (abajo).

La imagen anterior muestra ejemplos de resúmenes generados por las políticas de SFT, RLHF y RLAIF para una publicación de Reddit. RLHF y RLAIF han producido resúmenes de mayor calidad que SFT, que no logra capturar detalles clave.

Los resultados presentados en este estudio demuestran que RLAIF logra un rendimiento comparable a RLHF cuando se evalúa de dos formas distintas:

En primer lugar, se observó que tanto RLAIF como RLHF recibieron una preferencia de los evaluadores humanos sobre una línea de base de ajuste fino supervisado (SFT) en el 71% y 73% de los casos, respectivamente. Es importante destacar que el análisis estadístico no reveló una diferencia significativa en las tasas de victoria entre los dos enfoques.
En segundo lugar, cuando se les preguntó a los humanos que compararan directamente las generaciones producidas por RLAIF versus RLHF, expresaron una preferencia igual por ambos, lo que resultó en una tasa de victoria del 50% para cada método. Estos hallazgos sugieren que RLAIF representa una alternativa viable a RLHF que opera de forma independiente de la anotación humana y presenta propiedades de escalabilidad atractivas.

Podemos observar que este trabajo solo explora la tarea de resumen, dejando una pregunta abierta sobre la generalización a otras tareas. Además, el estudio no incluye una estimación de si la inferencia del modelo de lenguaje grande (LLM) es rentable en comparación con la etiquetación humana en términos de gastos monetarios. En el futuro, los investigadores esperan explorar esta área.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelMachine LearningReinforcement LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Conoce LLaSM Un modelo de habla y lenguaje multimodal grande y entrenado de principio a fin con habilidades conversacionales cruzadas capaz de seguir instrucciones de habla y lenguaje.

Google Research explora ¿Puede la retroalimentación de IA reemplazar la entrada humana para un aprendizaje por refuerzo efectivo en modelos de lenguaje grandes?

Was this article helpful?

Cómo aumentar la velocidad de Pandas y procesar conjuntos de datos de 10 millones de filas en milisegundos

Conoce LLaSM Un modelo de habla y lenguaje multimodal grande y entrenado de principio a fin con habilidades conversacionales cruzadas capaz de seguir instrucciones de habla y lenguaje.

Inteligencia Artificial

Meta presenta AudioCraft una herramienta de IA para convertir texto en audio y música

Esta investigación de IA de UCLA indica que los grandes modelos de lenguaje (como GPT-3) han adquirido la capacidad emergente de encontrar soluciones sin guía para una amplia gama de problemas de analogía.

Una inmersión profunda en las implicaciones de seguridad de la personalización y afinación de grandes modelos de lenguaje.

Cuidado con los datos poco confiables en la evaluación de modelos un estudio de caso de selección de LLM Prompt con Flan-T5.

Conoce TRACE Un Nuevo Enfoque de IA para la Estimación Precisa de la Postura y la Forma Humana en 3D con Seguimiento de Coordenadas Globales.

Abogado penalista advierte que la IA podría hacer que los tribunales duden de sus propios ojos