Investigadores de Microsoft Research y Georgia Tech revelan los límites estadísticos de las alucinaciones en los modelos de lenguaje

Investigadores de Microsoft Research y Georgia Tech desvelan los límites estadísticos de las alucinaciones en los modelos de lenguaje

Un problema clave que ha surgido recientemente en los Modelos de Lenguaje es la alta tasa a la que proporcionan información errónea, incluyendo referencias a títulos de artículos que no existen. El diccionario de Merriam-Webster define una alucinación como “una respuesta plausible pero falsa o engañosa generada por un algoritmo de inteligencia artificial”. En una ocasión, los abogados que presentaron investigaciones legales con casos ficticios que pensaban que eran precisos se enfrentaron a una multa de $5,000. En el campo médico, las alucinaciones de los pacientes pueden ser fatales y los médicos se preocupan de ser demandados por negligencia. Además, los medios de comunicación han cubierto extensamente las alucinaciones y el Presidente de los Estados Unidos emitió recientemente una Orden Ejecutiva solicitando, entre otras cosas, protecciones contra resultados engañosos de los sistemas de inteligencia artificial generativa.

En este trabajo, investigadores de Microsoft Research y Georgia Tech presentan límites estadísticos inferiores sobre la tasa de alucinación para máquinas de aprendizaje (LMs) que son predictores de hechos calibrados. Esto arroja luz sobre las características de las alucinaciones. Esto no implica que las alucinaciones sean inevitables. Como discutirá el equipo de investigación, está más en línea con la tendencia creciente de los profesionales que complementan los procedimientos de “preentrenamiento” con procedimientos de “post-entrenamiento” que reducen las tasas de alucinación y la calibración. Un LM es solo una distribución de probabilidad D sobre secuencias de tokens, es decir, palabras u otras secuencias de caracteres. Cualquier LM que prediga cada cadena con probabilidad positiva (una característica típica de los LMs) necesariamente alucinará con probabilidad positiva. Sin embargo, las alucinaciones serán poco comunes si esta probabilidad es baja. Por lo tanto, es esencial medir la frecuencia de las alucinaciones.

Las log-probabilidades de secuencias completas o las log-probabilidades condicionales del siguiente token dado los anteriores se pueden utilizar para expresar cualquier distribución D de manera idéntica: log D(t1… tm) = Pm i=1 log D(ti | t1 … ti−1). Esta equivalencia matemática aparentemente insignificante tiene una implicación significativa. Aunque la predicción y la generación tienen diferentes requisitos, cualquier LM se puede utilizar tanto para producir texto como para predecir el siguiente token en texto natural condicionado a los tokens anteriores. Tomemos la siguiente oración como ejemplo: Alexa Wilkins fue a Salumeria el martes pasado para almorzar porque las reseñas decían que el sándwich de atún era increíble. Un modelo de lenguaje predictivo podría sugerir tales oraciones para facilitar la escritura en el teléfono. Sería beneficioso predecir “sándwich” como palabra siguiente después de la palabra “atún”, junto con otras palabras plausibles como “ensalada”.

Sin embargo, sería falso si un LM generativo fabricara la gran mayoría de este tipo de oraciones al azar. Según este artículo, incluso en circunstancias perfectas, los LMs con una fuerte capacidad de texto predictivo deberían experimentar alucinaciones. Especialmente en el paso inicial de preentrenamiento, que es típico en la actualidad, el LM generativo está diseñado para un rendimiento de texto predictivo. Además, ofrece un límite inferior sobre la tasa de alucinación, lo cual podría arrojar información sobre las diferentes tasas a las que diferentes tipos de hechos deberían ser alucinados. Tanto el ejemplo anterior como las referencias posibles (a las que el equipo de investigación se referirá como datos de hechos 5W = Who-Ate-What-When-Where-Why) tienen en común que son arbitrarios en el sentido de que ninguno de ellos puede ser determinado sistemáticamente por reglas, es decir, la mayoría de estos hechos no se pueden verificar porque no están incluidos en los datos de entrenamiento.

A diferencia de los hechos, cuya validez se puede determinar de manera sistemática. Incluso en una situación simplificada con muchas cualidades ideales, el equipo de investigación estima el número de alucinaciones que los LMs deberían experimentar. El equipo de investigación prefiere la simplicidad en lugar de la generalidad, ya que sus límites inferiores son estadísticos y su objetivo es determinar la fuente subyacente de las alucinaciones en los LMs. El equipo de investigación propone una extensión natural de la calibración a los modelos generativos. Su idea es diferente de las aplicaciones anteriores de calibración en los LMs, que se centraban en nivel de token. Dado que cada hecho puede describirse utilizando lenguaje natural de varias maneras, la calibración de las probabilidades de los tokens solo es útil al evaluar las probabilidades brutas de los tokens. En cambio, la calibración a nivel semántico considera la distribución de probabilidad en bits de información (hechos o alucinaciones) en el texto. Un LM se considera calibrado si, entre la información que crea con probabilidad a ≈ z, para cualquier probabilidad dada z ∈ [0, 1], dicha información aparece en promedio en una fracción del lenguaje que ocurre naturalmente con probabilidad a ≈ z (preferiblemente la distribución de la cual se recolectaron los datos de entrenamiento).

Este trabajo tiene como objetivo explicar este fenómeno demostrando que, incluso en un mundo ideal donde los datos de entrenamiento son perfectamente factuales, no hay confusión de hechos y alucinaciones, cada documento contiene como máximo un hecho, e incluso no hay una indicación que aliente la alucinación, el entrenamiento previo de los modelos de lenguaje para obtener precisión predictiva resulta en alucinaciones. Además, su hipótesis aclara por qué los modelos de lenguaje contemporáneos tienen más alucinaciones que los modelos anteriores, como los modelos de trigramas, a pesar de entrenar con conjuntos de datos comparables y objetivos comparables. La tasa de acto mono puede mostrar las tasas a las que los modelos de lenguaje calibrados deben engañarse para diferentes tipos de hechos.

Cuando ocurren hechos con una alta tasa de monohecho, es decir, eventos que aparecen frecuentemente solo una vez en los datos de entrenamiento, se predicen alucinaciones. Es interesante tener en cuenta que esto es poco común para referencias a libros o artículos, un tipo problemático de alucinación que se está estudiando actualmente. Por lo tanto, examinar la cantidad pura de hechos, incluidas las referencias y otros, que un modelo de lenguaje encuentra durante el entrenamiento puede resultar de otros problemas como la capacidad del modelo. Además, podría ser posible corregir las referencias alucinadas alterando el flujo de entrenamiento previo sin usar el entrenamiento posterior, pero esto no ayudará con otros tipos de hechos arbitrarios, como los ejemplos de su caso 5W, donde los monohechos son frecuentes.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

A.I. Obama' y presentadores de noticias falsas cómo el audio de IA está invadiendo TikTok

Las cuentas de TikTok están difundiendo falsedades con la ayuda de voces generadas por inteligencia artificial.

Inteligencia Artificial

Conoce a Tarsier Una biblioteca de código abierto en Python para habilitar la interacción web con LLMs multimodales como GPT4

A medida que la IA continúa creciendo y afectando todos los aspectos de nuestras vidas, se está llevando a cabo una i...

Inteligencia Artificial

Conoce a SAM-PT Un nuevo método de IA que amplía la capacidad del modelo Segment Anything (SAM) para rastrear y segmentar cualquier cosa en videos dinámicos.

Existen numerosas aplicaciones, como la robótica, la conducción autónoma y la edición de video, que se benefician de ...

Inteligencia Artificial

Investigadores de KAIST presentan FaceCLIPNeRF un canal de manipulación impulsado por texto de una cara en 3D utilizando NeRF deformable

Un componente crucial de las mejoras en el contenido digital humano en 3D es la capacidad de manipular fácilmente la ...

Inteligencia Artificial

Comenzando con la IA

Aquí estoy asumiendo que has leído mi artículo anterior sobre Cómo aprender IA. Como recordatorio, recomiendo encarec...

Inteligencia Artificial

¿Puede un modelo de IA dominar todas las tareas de audio? Conoce UniAudio un nuevo sistema universal de generación de audio

Un aspecto clave de la inteligencia artificial generativa es la generación de audio. En los últimos años, la populari...