Investigadores de Microsoft proponen un nuevo marco de trabajo para la calibración de LLM utilizando auto-supervisión óptima de Pareto sin utilizar datos de entrenamiento etiquetados.

Microsoft researchers propose a new framework for LLM calibration using Pareto-optimal self-supervision without using labeled training data.

Los recientes avances han visto un aumento notable en la capacidad de los grandes modelos de lenguaje (LLMs, por sus siglas en inglés), con los modelos generadores preentrenados de transformadores (GPT, por sus siglas en inglés) mostrando un prometedor progreso. La transición de GPT-3 a GPT-4, así como la aparición de otros LLMs como PaLM y LLaMA, demostraron una considerable mejora en la resolución de problemas y en las habilidades de comprensión del lenguaje natural. Además, los modelos generativos se utilizan con frecuencia en una variedad de sectores para generar datos para diferentes aplicaciones. Sin embargo, cuando los LLMs se utilizan en aplicaciones que requieren un alto nivel de precisión y confiabilidad, como en las áreas de biología y salud, el problema de la alucinación sigue siendo una barrera significativa.

Desafortunadamente, no existen técnicas sistemáticas disponibles para detectar con precisión las alucinaciones o evaluar el nivel de confianza de la salida. Especialmente después de utilizar el aprendizaje por refuerzo con la intervención humana, la puntuación de confianza intrínseca de los LLMs generativos a veces no está disponible o no está calibrada de manera efectiva con respecto al objetivo previsto. Las técnicas heurísticas son costosas de calcular y están sujetas a sesgos del propio LLM, como el muestreo de un conjunto de respuestas de LLM. Existen dos categorías básicas de métodos para evaluar el grado de confianza en las respuestas de los LLMs. En la primera, se incita al LLM de diversas maneras a crear muchas respuestas, que luego se utilizan para inferir la confiabilidad de la respuesta.

La autoconsistencia y el estímulo de la cadena de pensamiento son dos ejemplos. Estas técnicas son menos cuantitativas y susceptibles a sesgos inducidos por el modelo en la estimación de la confianza. No existe una forma estandarizada de medir esto, pero la técnica de estímulo puede tener un impacto significativo en la calidad de los resultados. La segunda categoría de opciones recurre a fuentes externas de datos, como contratar revisores humanos para verificar la respuesta o utilizar grandes cantidades de datos etiquetados para crear modelos de evaluación. Uno de los principales obstáculos para el entrenamiento actual de modelos supervisados es el extenso trabajo de anotación manual que requieren estas técnicas. En ese sentido, la autorregulación ofrece una opción viable ya que puede utilizar de manera adaptable patrones de datos y conocimientos fuera de lo común.

En este estudio, los investigadores de Microsoft proporcionan un marco flexible que utiliza el aprendizaje óptimo de Pareto para combinar datos tanto de la respuesta del LLM como de fuentes de supervisión. Se basaron en esfuerzos anteriores de supervisión programática y en la abundancia de investigación en optimización de Pareto. Las siguientes intuiciones guían su estrategia. Para evitar el sesgo de un LLM al juzgarse a sí mismo, se requieren fuentes externas de supervisión independientes del LLM. En segundo lugar, se consideran los errores del LLM como perturbaciones ruidosas en las etiquetas de oro. Cuando un modelo se ajusta tanto al ruido del LLM como al ruido externo independiente, en realidad se realiza un suavizado implícito de las etiquetas, lo que mejora la capacidad de calibración.

En ese sentido, la autorregulación óptima de Pareto proporciona un marco útil para integrar ambas cualidades. Especialmente, el método propuesto solo necesita datos no etiquetados, lo que lo hace adecuado para campos donde la anotación es costosa. Su enfoque único para la calibración del LLM mediante la autorregulación óptima de Pareto es la principal innovación del artículo. Sugieren utilizar la puntuación de riesgo evaluado del aprendizaje de Pareto óptimo (POLAR, por sus siglas en inglés) para calcular la probabilidad de errores del LLM. Presentan hallazgos experimentales en cuatro tareas de procesamiento de lenguaje natural distintas y demuestran que la puntuación POLAR propuesta está sustancialmente relacionada con la tasa de errores del LLM evaluada en las etiquetas de oro. Muestran un rendimiento mejorado del LLM para situaciones de alto riesgo determinadas por la puntuación POLAR utilizando estrategias de estímulo dinámico. Sin utilizar ningún dato de entrenamiento etiquetado por humanos, demuestran cómo su método puede eliminar los errores del LLM y mejorar el rendimiento de un modelo base GPT-4 superando al modelo supervisado más avanzado.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¡Atención Industria del Gaming! No más espejos extraños con Mirror-NeRF

Las NeRF o Campos de Radiancia Neurales utilizan una combinación de RNN y CNN para capturar las características físic...

Ciencias de la Computación

Matthew Kearney Trayendo la inteligencia artificial y la filosofía al diálogo.

La doble especialización en informática y filosofía tiene como objetivo avanzar en el campo de la ética de la intelig...

Inteligencia Artificial

La evolución automatizada aborda tareas difíciles

El aprendizaje por refuerzo agrupa datos no etiquetados en conjuntos de similitudes, con el objetivo de maximizar las...

Inteligencia Artificial

Dentro del acalorado centro del pesimismo de la IA

Anthropic, una start-up de inteligencia artificial centrada en la seguridad, está tratando de competir con ChatGPT mi...