Logrando una mayor coherencia interna en los modelos de lenguaje grandes

Consiguiendo una mayor coherencia interna en los modelos de lenguaje grandes

Cuando se utilizan LLM para evaluar cualidades como la corrección, precisión o relevancia de un texto, la consistencia es primordial. Si un LLM muestra juicios inconsistentes, entonces sus evaluaciones se vuelven poco confiables e inseguras.

Si un LLM evalúa la calidad del razonamiento de argumentos, pero se contradice al calificar un argumento inválido como más lógicamente sólido que uno perfectamente válido, entonces falla como árbitro de la razón. Sus evaluaciones pierden credibilidad debido a la falta de consistencia lógica del modelo.

Cuando aparecen tales inconsistencias, no hay una base estable para comparar las evaluaciones del LLM de diferentes textos. Si el modelo se contradice arbitrariamente, entonces las oraciones no pueden ser clasificadas de manera confiable entre sí en función de las puntuaciones inconsistentes del modelo.

En esencia, la inconsistencia destruye los fundamentos de comparación que las evaluaciones pretenden proporcionar en primer lugar. Si un LLM no puede demostrar una aplicación consistente de los criterios de evaluación, entonces su uso para evaluar textos pierde toda efectividad y utilidad.

Por lo tanto, la consistencia en el juicio y la evaluación es obligatoria para los LLM utilizados para puntuar o juzgar cualidades y características textuales. Sin un alto nivel de estabilidad en sus evaluaciones, basado en una comprensión consistente de los conceptos evaluados, la base de comparación se desmorona al utilizar la salida del LLM como forma de evaluación o puntuación.

Muestrear múltiples soluciones revela que la consistencia entre las salidas se correlaciona fuertemente con la calidad. Sin embargo, las técnicas de consistencia existentes se basan en extraer y comparar respuestas de forma cerrada, lo que restringe su aplicabilidad. Este artículo explora métodos para mejorar la autoconsistencia sin tales limitaciones, al tiempo que fundamenta las decisiones en el conocimiento del mundo real.

La Necesidad de la Autoconsistencia

A pesar de los avances rápidos, los fallos lógicos y las falsedades siguen obstaculizando el razonamiento confiable en los modelos de vanguardia. Para análisis complejos de múltiples pasos o generación de forma libre, los modelos a menudo se contradicen o inventan datos no respaldados.

Esto se manifiesta de dos maneras clave: generación inconsistente de respuestas abiertas e inferencias incoherentes. Al realizar…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Logrando una mayor coherencia interna en los modelos de lenguaje grandes

La Necesidad de la Autoconsistencia

Was this article helpful?

Por favor, utiliza una carga de trabajo de transmisión para evaluar los bancos de datos vectoriales.

dbt Core, Snowflake y GitHub Actions proyecto personal para Ingenieros de Datos

Inteligencia Artificial

Científicos mejoran la detección de delirio utilizando Inteligencia Artificial y electroencefalogramas de respuesta rápida.

AlphaFold, Herramientas similares podrían ayudar en la preparación para la próxima pandemia

Un Inventario Anidado para la Seguridad del Software, Gestión del Riesgo en la Cadena de Suministro

Potenciando los tubos RAG en Haystack Presentando DiversityRanker y LostInTheMiddleRanker

Rastreador web de OpenAI y errores de la FTC

Conoce T2I-Adapter-SDXL Modelos de Control Pequeños y Eficientes.