Google Research explora ¿Puede la retroalimentación de IA reemplazar la entrada humana para un aprendizaje por refuerzo efectivo en modelos de lenguaje grandes?

Google Research explora si la retroalimentación de IA puede reemplazar la entrada humana en el aprendizaje por refuerzo en modelos de lenguaje grandes.

La retroalimentación humana es esencial para mejorar y optimizar los modelos de aprendizaje automático. En los últimos años, el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) ha demostrado ser extremadamente efectivo para alinear los grandes modelos de lenguaje (LLMs) con las preferencias humanas, pero un desafío significativo radica en recolectar etiquetas de preferencia humana de alta calidad. En un estudio de investigación, los investigadores de Google AI han intentado comparar RLHF con el aprendizaje por refuerzo a partir de la retroalimentación de IA (RLAIF). RLAIF es una técnica en la que las preferencias son etiquetadas por un LLM preentrenado en lugar de depender de anotadores humanos.

En este estudio, los investigadores realizaron una comparación directa entre RLAIF y RLHF en el contexto de tareas de resumen. Se les encomendó la tarea de proporcionar etiquetas de preferencia para dos respuestas candidatas dadas un texto, utilizando un modelo de lenguaje grande (LLM) listo para usar. Posteriormente, se entrenó un modelo de recompensa (RM) basado en las preferencias inferidas por el LLM, incorporando una pérdida contrastiva. El último paso consistió en ajustar finamente un modelo de política mediante técnicas de aprendizaje por refuerzo. La imagen anterior muestra un diagrama que representa RLAIF (arriba) vs. RLHF (abajo).

La imagen anterior muestra ejemplos de resúmenes generados por las políticas de SFT, RLHF y RLAIF para una publicación de Reddit. RLHF y RLAIF han producido resúmenes de mayor calidad que SFT, que no logra capturar detalles clave.

Los resultados presentados en este estudio demuestran que RLAIF logra un rendimiento comparable a RLHF cuando se evalúa de dos formas distintas:

  • En primer lugar, se observó que tanto RLAIF como RLHF recibieron una preferencia de los evaluadores humanos sobre una línea de base de ajuste fino supervisado (SFT) en el 71% y 73% de los casos, respectivamente. Es importante destacar que el análisis estadístico no reveló una diferencia significativa en las tasas de victoria entre los dos enfoques.
  • En segundo lugar, cuando se les preguntó a los humanos que compararan directamente las generaciones producidas por RLAIF versus RLHF, expresaron una preferencia igual por ambos, lo que resultó en una tasa de victoria del 50% para cada método. Estos hallazgos sugieren que RLAIF representa una alternativa viable a RLHF que opera de forma independiente de la anotación humana y presenta propiedades de escalabilidad atractivas.

Podemos observar que este trabajo solo explora la tarea de resumen, dejando una pregunta abierta sobre la generalización a otras tareas. Además, el estudio no incluye una estimación de si la inferencia del modelo de lenguaje grande (LLM) es rentable en comparación con la etiquetación humana en términos de gastos monetarios. En el futuro, los investigadores esperan explorar esta área.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Meta presenta AudioCraft una herramienta de IA para convertir texto en audio y música

Meta, el gigante tecnológico detrás de plataformas de redes sociales como Facebook, Instagram y WhatsApp, ha lanzado ...

Inteligencia Artificial

Una inmersión profunda en las implicaciones de seguridad de la personalización y afinación de grandes modelos de lenguaje.

En un esfuerzo colaborativo revolucionario, IBM Research, Princeton University y Virginia Tech han arrojado luz sobre...

Ciencia de Datos

Cuidado con los datos poco confiables en la evaluación de modelos un estudio de caso de selección de LLM Prompt con Flan-T5.

La evaluación confiable del modelo es fundamental en MLops y LLMops, guiando decisiones cruciales como cuál modelo o ...

Aprendizaje Automático

Conoce TRACE Un Nuevo Enfoque de IA para la Estimación Precisa de la Postura y la Forma Humana en 3D con Seguimiento de Coordenadas Globales.

Muchas áreas pueden beneficiarse y utilizar los avances recientes en la estimación de la pose y forma humana 3D (HPS)...

Inteligencia Artificial

Abogado penalista advierte que la IA podría hacer que los tribunales duden de sus propios ojos

El gobierno federal de Australia está considerando nuevas regulaciones para la tecnología de inteligencia artificial.