Los 5 pilares de las pruebas confiables de LLM

Los 5 fundamentos de las pruebas confiables de LLM

Parte 4 de un estudio sobre el uso y prueba de IA generativa

Foto de Yasmine Duchesne en Unsplash — Foto por Yasmine Duchesne en Unsplash

Los modelos de lenguaje grandes (LLM) han llegado a manos de trabajadores en diversas industrias, a la mente de líderes de empresas tecnológicas y al corazón de los estudiantes en todos los entornos de aprendizaje. Pero con un gran poder y un número aún mayor de parámetros de modelo, también viene una gran responsabilidad. Ahora, la creciente preocupación entre las empresas, los profesionales e incluso los estudiantes es saber cuándo y dónde falla un LLM.

Desde la perspectiva de un ingeniero de aprendizaje automático en Kolena, este artículo es una continuación en una serie de discusiones que resaltan un paradigma de prueba para LLM, identificando los modos de falla de los LLM a un nivel alto.

¿Qué hace a un LLM poco confiable?

Supongamos que un LLM recibe las notas largas y detalladas de un médico sobre un paciente para ayudar a recomendar un medicamento adecuado. Sin embargo, si el LLM no reconoce las alergias del paciente, un resultado incorrecto del LLM podría llevar a consecuencias que ponen en peligro la vida.

Cuando un LLM comete un error o incluso produce una mentira, ampliamente conocida como una alucinación, las repercusiones pueden ser significativas. ¡En un caso dramático protagonizado por el LLM Bard de Google, las alucinaciones le costaron a la empresa más de $100 mil millones! Ya sea la salud de una persona o las finanzas de una empresa, descubrir las alucinaciones que puede producir un LLM es de vital importancia.

Entonces, ¿qué es un LLM confiable? Bajo diferentes escenarios de uso, los usuarios definen la confiabilidad de manera diferente; por ejemplo, los jueces requerirían sesgo minimizado, los escritores desearían una calidad de generación maximizada. Los diagramas a continuación representan la importancia de comprender cómo se comportan los LLM. Para ciertos grupos de usuarios y aplicaciones generales, los modelos GPT básicos podrían ser una excelente opción, pero para aplicaciones más avanzadas, los modelos GPT básicos pueden dejar de ser efectivos. Tal vez tenga más sentido crear o adaptar LLM para fines específicos y luego probarlos para verificar que sean confiables.

COMPARACIÓN EN LAS 5 PILARES DE PRUEBAS DE LLM CONFIABLES

Existen múltiples factores utilizados para evaluar el rendimiento general de LLM, que no se limita solo al tema candente de las alucinaciones. Los LLM pueden ser muy flexibles, por lo que naturalmente tienen múltiples modos de falla. A alto nivel, deberíamos considerar estos 5 pilares como mínimo:

Alucinación
Sesgo
Razonamiento
Calidad de Generación
Mecánica del Modelo

Si las personas llevan a cabo la prueba de ML o LLM utilizando los principios de pruebas de unidades de software, la prueba contra estos pilares es fácil. Por ejemplo, los desarrolladores pueden identificar la existencia de alucinaciones utilizando conjuntos de datos similares a TruthfulQA. La calidad de generación es cuantificable con análisis de sentimientos o métricas de legibilidad. En última instancia, la forma de medir el rendimiento de LLM cambia según los diferentes propósitos, por lo que es necesario establecer procesos de evaluación personalizados para cada pilar.

Alucinación

Para ciertos usuarios, la validez y precisión de un LLM son de suma importancia. Por lo tanto, el primer pilar de prueba de LLM es la alucinación. Una alucinación se refiere a la información generada por un LLM que no se correlaciona con hechos del mundo real. Ocurre porque los LLM son agentes generativos que buscan producir resultados impresionantes y agradables. Si no pueden recordar la información correcta como contexto para producir respuestas, no pueden ser absolutamente veraces y podrían agregar información para llenar los vacíos.

Las alucinaciones son el primer pilar de las pruebas de LLM porque los usuarios podrían no darse cuenta de la falta de veracidad de los LLM mientras realizan tareas comunes de procesamiento del lenguaje natural o al hacer preguntas relacionadas con los campos STEM (ciencia, tecnología, ingeniería y matemáticas) a gran escala. Para aplicaciones de nicho, como casos de uso avanzados relacionados con los campos legales o médicos, las alucinaciones podrían ser más comunes debido a que los LLM pre-entrenados podrían tener dificultades para entender la jerga y no tener suficiente conocimiento para realizar tareas específicas.

Ejemplos:

Alucinación en Pregunta y Respuesta General: Usuario: ¿Por qué subieron Jack y Jill la colina? Modelo: Jack y Jill subieron la colina para beber agua. Problema: Según la canción infantil, Jack y Jill subieron a buscar agua. El modelo afirmó que iban a beber agua.

Alucinación en Matemáticas: Usuario: ¿Es 17077 un número primo? Modelo: No, 17077 no es primo. Problema: 17077 es primo.

Alucinación en Escritura Científica: “De las 178 referencias analizadas… 28 referencias no aparecieron en la búsqueda de Google ni tenían un DOI existente” – PubMed Problema: ChatGPT inventa referencias que no existen.

Parcialidad

Un desafío duradero al que se enfrentan los ingenieros y los usuarios es el sesgo del aprendizaje automático. Este es un desafío que evoluciona junto con el crecimiento de la industria de la inteligencia artificial. Un sinónimo de sesgo es injusticia, que difiere en su definición según el caso de uso y el usuario. Diferentes grupos y partes interesadas definirían de manera diferente lo que significa ser justo. ¿Debería un modelo distinguir entre equidad e igualdad, por ejemplo?

Abordar el sesgo es un problema importante y evidente en cada proceso de pruebas de aprendizaje automático y se vuelve aún más relevante para los LLM, ya que se entrenan en diversas fuentes de Internet. Imaginemos cuántos titulares nuevos veríamos si de repente GPT-4 se volviera abiertamente racista y sexista. Los problemas éticos detrás de los LLM que generan sesgos raciales, religiosos, de género, políticos o sociales señalan la necesidad de investigaciones continuas y avances en las pruebas de LLM.

Ejemplo:

A partir de lo anterior, vemos cómo OpenAI mitiga el sesgo asegurando que ninguna salida refleje la cristianofobia o islamofobia, que sí existen en el mundo y pueden existir en sus datos de entrenamiento. Sin embargo, también vemos que la salida del modelo para el cristiano y el musulmán difiere, ya que después de la indicación musulmana, ChatGPT básicamente dice “no seamos racistas”. Dado que ambas discusiones de ChatGPT ocurrieron de manera independiente, este ejemplo único muestra suficientemente lo difícil que es mitigar el sesgo de manera perfecta.

Razonamiento

Los LLM pueden tener dificultades con tareas que requieren una comprensión profunda del contexto, que es donde los expertos humanos destacan. Cuando los LLM tienen la capacidad de razonar y procesar información de manera lógica, tienen una mejor oportunidad de comprender casos de uso complejos y generar respuestas precisas y coherentes. Además, la capacidad de razonamiento puede aumentar la usabilidad en diversos ámbitos profesionales como el derecho, la salud y la investigación.

Es difícil afirmar que la salida de un LLM es creíble o confiable en ausencia de una justificación transparente. Por ejemplo, en tareas comunes de procesamiento del lenguaje natural, las capacidades de razonamiento de un LLM pueden marcar la diferencia entre proporcionar una respuesta perspicaz y simplemente repetir información retenida. Al evaluar y mejorar continuamente las habilidades de razonamiento de los LLM, podemos garantizar que brinden una mayor precisión y confiabilidad para resultados más valiosos.

Ejemplos:

Razonamiento en Literatura: Usuario: En la canción infantil de Jack y Jill, ¿por qué crees que se cayeron? Explica tu razonamiento. Modelo: […] Aquí hay algunas posibles interpretaciones: 1. Accidente: La interpretación más directa es que la caída de Jack y Jill fue puramente accidental. Como cualquier niño, tal vez tropezaron o se tambalearon mientras subían la colina, algo que le puede pasar a cualquier persona, joven o vieja. 2. Lección moral: Algunos sugieren que la canción pudo haber sido creada para enseñar a los niños una lección sobre las consecuencias de la desobediencia o la imprudencia. […]

Razonamiento en Matemáticas: Usuario: ¿Es la suma de los números naturales del 1 al n igual a n*(n+1)/2? Si es así, demuéstralo paso a paso. Modelo: Sí, la suma de los números naturales del 1 al n es realmente igual a n*(n+1)/2. Este es un resultado conocido y se puede demostrar usando la inducción matemática. La inducción matemática es una técnica de demostración que involucra dos pasos: 1. Caso base: Demostrar que la afirmación es válida para el valor más pequeño posible de n. 2. Paso inductivo: Suponer que la afirmación es verdadera para algún entero positivo arbitrario k y luego demostrar que también debe ser verdadera para k+1. Vamos a demostrar esta afirmación paso a paso: Caso base (n = 1): Cuando n es 1, debemos mostrar que 1*(1+1)/2 = 1. Esto es cierto: 1*(1+1)/2 = 1*2/2 = 2/2 = 1. Por lo tanto, el caso base es verdadero. Paso inductivo: Supongamos que la suma de los números naturales del 1 al k es k*(k+1)/2 para algún entero positivo k. Esta es nuestra hipótesis de inducción (IH). […]

Generación de calidad

Los LLM deben considerar la generación de calidad por varias razones:

1. Responsabilidad ética. Los LLM pueden generar grandes cantidades de texto, y deben generar contenido que cumpla con estándares éticos, morales y sociales. Mejorar la calidad de la generación ayuda a abordar preocupaciones como la presencia de contenido tóxico, odioso, dañino, propagandístico o inapropiado para evitar la propagación de ideologías no éticas o variaciones del acoso en línea. Por ejemplo, un LLM nunca debe fomentar actividades ilegales.

2. Privacidad y seguridad. El entrenamiento de los LLM en grandes cantidades de datos puede exponerlos a información personal. Además, si la nube registra el historial de uso, la información personal puede almacenarse fácilmente directamente desde las solicitudes si los usuarios no tienen cuidado. Es importante que los desarrolladores establezcan el cumplimiento de regulaciones gubernamentales asegurándose de que los LLM tengan un nivel adecuado de privacidad para las personas, al tiempo que les ayuden a mantener segura su información personal. Por ejemplo, un LLM nunca debe revelar por error información personal que ponga en peligro a alguien.

3. Coherencia. La calidad del contenido generado tiene un impacto directo en la experiencia del usuario. Si los LLM ocasionalmente producen respuestas de baja calidad o incoherentes, los usuarios pueden perder interés en el sistema. Al mejorar la calidad de la generación, los LLM pueden ofrecer salidas más legibles, coherentes y útiles, lo que mejora su utilidad para diversas aplicaciones como asistencia en la escritura, traducción de idiomas o resumen de contenido. Por ejemplo, un LLM debe evitar errores gramaticales y usar un vocabulario apropiado para su audiencia prevista.

En resumen, al centrarse en mejorar la calidad de generación de los LLM, es importante mantener estándares éticos más allá del sesgo, mantener la privacidad y la seguridad, y proporcionar salidas coherentes para obtener la mejor experiencia de usuario posible.

Mecánica del modelo

La importancia de probar la mecánica de un LLM radica en asegurarse de que sea adaptable, versátil y ampliamente aplicable. Ya sea para responder preguntas, traducir idiomas o incluso programar, el modelo debe poder transitar sin problemas entre diferentes aplicaciones (a menos que sirva para una aplicación específica). Algunos ejemplos de estas mecánicas son la rentabilidad, la consistencia y la personalización.

El atributo más fundamental que los usuarios consideran es la rentabilidad de un LLM. Los LLM pueden costar demasiado dinero o tiempo para producir un resultado, lo que dificulta su accesibilidad, especialmente para tareas a gran escala. Vale la pena mencionar también el costo de entrenar a los LLM, que asciende a millones de dólares, pero deja una enorme huella ambiental. En el caso de OpenAI, el entrenamiento de GPT-3 generó 502 toneladas métricas de carbono, y mantenerlo accesible a los usuarios solo aumenta esa huella con el tiempo.

En algunos casos, las respuestas uniformes y confiables son esenciales, lo que significa que los LLM deben tener consistencia. Otras veces, la creatividad es valorada. La creatividad de los LLM se puede ajustar a través de un parámetro llamado temperatura.

La personalización es otra mecánica importante, que permite a los usuarios dirigir fácilmente un LLM hacia la dirección que debe seguir para obtener el mejor resultado final. Por un lado, esto significa que los LLM deben ser receptivos a cualquier consulta que realice un usuario, reflejando correctamente las demandas del usuario en diversas solicitudes de estilo, tono o instrucciones especiales. Las personas llaman a esta capacidad ingeniería de solicitudes. Por otro lado, y yendo más allá de las simples interacciones con un chatbot o una interfaz, los LLM deben ser fáciles de actualizar, reentrenar o ajustar para cualquier aplicación específica.

Ejemplos:

Prompt de haiku: Usuario: Hazme un haiku sobre la universidad. Modelo: Los libros y las conferencias susurran el aliento del conocimiento, la mente florece en cada clase.

Prompt en Pig Latin: Usuario: Por favor, resume la trama de Buscando a Nemo en una sola oración en Pig Latin. Modelo: Inway ethay oceanway, entlegray ishfay atherfay earchsay orfay ishay onlay, emonay, ohway aswhay ostlay omfray ishay addledbray onay, etsgay ishay elphay findway imhay.

Diferentes aplicaciones tendrán diferentes mecánicas de importancia. Para algunos, las interacciones a través de una API de ancho de banda muy grande serían absolutamente necesarias las 24 horas, los 7 días de la semana. Otros pueden necesitar que el LLM retenga información contextual de varios mensajes a lo largo del tiempo, o que sea razonablemente transparente y explicativo. Con tantas aplicaciones de los LLM, es importante que todos los usuarios, ingenieros y partes interesadas definan las mecánicas del modelo que son importantes para ellos, asegurando la máxima utilidad y efectividad.

Conclusión

La IA responsable se extiende más allá de estos 5 pilares, pero a grandes rasgos, todos los LLM deben cumplir algún estándar de rendimiento en cuanto a alucinaciones, sesgos, razonamientos, generación de calidad y mecánica de uso.

Sin embargo, cada persona define la importancia de ciertos modos de falla de manera diferente. Por ejemplo, un LLM diseñado para operar en la industria de la salud querría enfatizar la prueba de alucinaciones, mientras que un LLM que asiste a un juez en un tribunal querría exhibir imparcialidad, o al menos exhibir menos sesgo que el juez humano. Los ingenieros podrían preocuparse solo por la velocidad y el costo, además de cierto nivel fundamental de rendimiento.

Es un desafío continuo crear un LLM de un solo modelo para todos que cumpla con los 5 pilares de confiabilidad en las pruebas de LLM. Hacer avances en la mecánica podría llevar a una disminución en la calidad de generación, ¡pero hacer avances en la mejora de la calidad de salida podría revelar lentamente alucinaciones o sesgos!

¡Depende de las organizaciones individuales, los profesionales, los usuarios finales y usted decidir qué hace que un LLM sea confiable! ¿Qué haría usted si necesitara no producir alucinaciones a costa de empeorar la calidad general de generación? ¿Qué pilares le faltan a su LLM y cómo los descubrirá?

¡Gracias por leer! Asegúrese de consultar mis hallazgos aplicados en las pruebas de LLM aquí para obtener más información sobre el rendimiento de GPT-4, la ingeniería de promp y las tareas comunes de procesamiento del lenguaje natural.

Todas las imágenes de gráficos son capturas de pantalla tomadas de Kolena a menos que se indique lo contrario. Tenga en cuenta que gráficos similares se pueden generar manualmente en marcos comunes como mathplotlib.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

gpt-4NLPQa4mlResponsible AITrust And Safety

Was this article helpful?

93 out of 132 found this helpful

Los 5 pilares de las pruebas confiables de LLM

Parte 4 de un estudio sobre el uso y prueba de IA generativa

¿Qué hace a un LLM poco confiable?

Alucinación

Parcialidad

Razonamiento

Generación de calidad

Mecánica del modelo

Conclusión

Was this article helpful?

¿Cómo funcionan los detectores de contenido de IA?

Consultas de lenguaje natural potenciadas por IA para descubrimiento de conocimiento

Inteligencia Artificial

Investigadores de UC San Diego y Qualcomm lanzan Natural Program una herramienta poderosa para la verificación sin esfuerzo de cadenas de razonamiento rigurosas en lenguaje natural - Un cambio de juego en inteligencia artificial.

Apple entra en la competencia de la IA generativa con el chatbot 'AppleGPT

AWS Inferentia2 se basa en AWS Inferentia1 ofreciendo un rendimiento 4 veces mayor y una latencia 10 veces menor.

Cuidado con los datos poco confiables en la evaluación de modelos un estudio de caso de selección de LLM Prompt con Flan-T5.

Explora el poder de las imágenes dinámicas con Text2Cinemagraph una nueva herramienta de IA para la generación de cinemagraphs a partir de indicaciones de texto

Las investigaciones antropogénicas recientes revelan que puedes aumentar la capacidad de recuerdo de los LLMs en un 70% con una sola adición a tu estímulo Desatando el poder de Claude 2.1 a través de una motivación estratégica.