Modelos de Lenguaje de Red Teaming con Modelos de Lenguaje

'Red Team Language Models with Language Models'

En nuestro artículo reciente , mostramos que es posible encontrar automáticamente entradas que generen texto perjudicial en modelos de lenguaje generativos utilizando modelos de lenguaje. Nuestro enfoque proporciona una herramienta para encontrar comportamientos perjudiciales de los modelos antes de que los usuarios se vean afectados, aunque enfatizamos que debe considerarse como un componente junto con muchas otras técnicas que serán necesarias para encontrar daños y mitigarlos una vez encontrados.

Los grandes modelos generativos de lenguaje como GPT-3 y Gopher tienen la capacidad notable de generar texto de alta calidad, pero son difíciles de implementar en el mundo real. Los modelos generativos de lenguaje conllevan el riesgo de generar texto muy perjudicial, y incluso un pequeño riesgo de daño es inaceptable en aplicaciones del mundo real.

Por ejemplo, en 2016, Microsoft lanzó el bot de Twitter Tay para tuitear automáticamente en respuesta a los usuarios. En 16 horas, Microsoft retiró a Tay después de que varios usuarios adversarios provocaran tweets racistas y sexualmente cargados de Tay, que se enviaron a más de 50,000 seguidores. El resultado no fue por falta de atención por parte de Microsoft:

“Aunque nos habíamos preparado para muchos tipos de abusos del sistema, cometimos un error crítico en este ataque específico.” Peter Lee, Vicepresidente de Microsoft
El primer paso de MuZero de la investigación al mundo real.
Acelerando la ciencia de la fusión a través del control de plasma aprendido
Prediciendo el pasado con Ithaca

El problema es que hay tantas entradas posibles que pueden hacer que un modelo genere texto perjudicial. Como resultado, es difícil encontrar todos los casos en los que un modelo falla antes de implementarlo en el mundo real. El trabajo anterior se basa en anotadores humanos remunerados para descubrir manualmente casos de falla (Xu et al. 2021, entre otros). Este enfoque es efectivo pero costoso, limitando el número y la diversidad de casos de falla encontrados.

Nuestro objetivo es complementar las pruebas manuales y reducir el número de errores críticos al encontrar casos de falla (o ‘red teaming’) de manera automática. Para hacerlo, generamos casos de prueba utilizando un modelo de lenguaje en sí mismo y utilizamos un clasificador para detectar diversos comportamientos perjudiciales en los casos de prueba, como se muestra a continuación:

Nuestro enfoque descubre una variedad de comportamientos perjudiciales del modelo:

Lenguaje ofensivo: Discurso de odio, lenguaje obsceno, contenido sexual, discriminación, etc.
Fuga de datos: Generación de información con derechos de autor o privada y personalmente identificable a partir del corpus de entrenamiento.
Generación de información de contacto: Dirigir a los usuarios a enviar correos electrónicos o llamar a personas reales innecesariamente.
Sesgo distribucional: Hablar sobre algunos grupos de personas de manera injusta y diferente a otros grupos, en promedio, en un gran número de salidas.
Daños en la conversación: Lenguaje ofensivo que ocurre en el contexto de un diálogo largo, por ejemplo.

Para generar casos de prueba con modelos de lenguaje, exploramos una variedad de métodos, desde generación basada en indicaciones y aprendizaje de pocos ejemplos hasta ajuste fino supervisado y aprendizaje por refuerzo. Algunos métodos generan casos de prueba más diversos, mientras que otros generan casos de prueba más difíciles para el modelo objetivo. En conjunto, los métodos que proponemos son útiles para obtener una alta cobertura de pruebas y también para modelar casos adversarios.

Una vez que encontramos casos de falla, se vuelve más fácil corregir el comportamiento perjudicial del modelo mediante:

Colocar en una lista negra ciertas frases que ocurren con frecuencia en salidas perjudiciales, evitando que el modelo genere salidas que contengan frases de alto riesgo.
Encontrar datos de entrenamiento ofensivos citados por el modelo, para eliminar esos datos al entrenar futuras iteraciones del modelo.
Aumentar la indicación del modelo (texto de condicionamiento) con un ejemplo del comportamiento deseado para un cierto tipo de entrada, como se muestra en nuestro trabajo reciente.
Entrenar al modelo para minimizar la probabilidad de su salida original y perjudicial para una determinada entrada de prueba.

En general, los modelos de lenguaje son una herramienta altamente efectiva para descubrir cuando los modelos de lenguaje se comportan de diversas formas indeseables. En nuestro trabajo actual, nos enfocamos en los daños causados por el ‘red teaming’ que los modelos de lenguaje actuales cometen. En el futuro, nuestro enfoque también se puede utilizar para descubrir de manera preventiva otros daños hipotéticos de los sistemas avanzados de aprendizaje automático, por ejemplo, debido a una falta de alineación interna o fallas en la robustez objetivo. Este enfoque es solo un componente del desarrollo responsable de modelos de lenguaje: consideramos el ‘red teaming’ como una herramienta que se debe utilizar junto con muchas otras, tanto para encontrar daños en los modelos de lenguaje como para mitigarlos. Consulte la Sección 7.3 de Rae et al. 2021 para obtener una discusión más amplia sobre otros trabajos necesarios para la seguridad de los modelos de lenguaje.

‍

Para obtener más detalles sobre nuestro enfoque y resultados, así como las consecuencias más amplias de nuestros hallazgos, lee nuestro documento de prueba de ataque aquí.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Technical blog

Was this article helpful?

93 out of 132 found this helpful

Modelos de Lenguaje de Red Teaming con Modelos de Lenguaje

Was this article helpful?

El primer paso de MuZero de la investigación al mundo real.

La normatividad espuria mejora el aprendizaje del comportamiento de cumplimiento y aplicación en agentes artificiales.

Inteligencia Artificial

Framework Permite a los Robots Realizar Tareas Interactivas en Orden Secuencial

Productores de alimentos se unen frente a amenazas cibernéticas.

Ajustando la Tela de la IA Generativa FABRIC es un enfoque de IA que personaliza los modelos de difusión con retroalimentación iterativa

Conoce SMPLitex un modelo de IA generativo y un conjunto de datos para la estimación de textura humana en 3D a partir de una única imagen.

Investigadores de UC Berkeley y UCSF revolucionan la generación de video neural presentando LLM-Grounded Video Diffusion (LVD) para mejorar la dinámica espacio-temporal.

Este chip centrado en la Inteligencia Artificial redefine la eficiencia duplicando el ahorro de energía al unificar el procesamiento y la memoria.