Una nueva investigación de IA de CMU propone un método de ataque simple y efectivo que hace que los modelos de lenguaje alineados generen comportamientos objetables.

Investigación de IA propone método de ataque efectivo en modelos de lenguaje alineados.

Los modelos de lenguaje grandes (LLM) como ChatGPT, Bard AI y Llama-2 pueden generar contenido indeseable y ofensivo. Imagina a alguien pidiéndole a ChatGPT una guía para manipular elecciones o un examen. Obtener una respuesta para este tipo de preguntas de los LLM sería inapropiado. Investigadores de la Universidad Carnegie Mellon, el Centro para la Inteligencia Artificial y el Centro Bosch para la Inteligencia Artificial han desarrollado una solución para esto, alineando esos modelos para evitar generaciones indeseables. 

Los investigadores encontraron un enfoque para resolverlo. Cuando un LLM se expone a una amplia gama de consultas objetables, el modelo produce una respuesta afirmativa en lugar de simplemente negar la respuesta. Su enfoque implica producir sufijos adversarios mediante técnicas de búsqueda codiciosa y basada en gradientes. El uso de este enfoque mejora los métodos de generación automática de indicaciones anteriores.

Las indicaciones que dan lugar a que los LLM generen contenido ofensivo se llaman “jailbreaks”. Estos “jailbreaks” se generan a través de ingenio humano, estableciendo escenarios que llevan a los modelos por mal camino en lugar de utilizar métodos automatizados, y requieren esfuerzo manual. A diferencia de los modelos de imágenes, los LLM operan con entradas de tokens discretos, lo que limita la entrada efectiva. Esto resulta ser computacionalmente difícil.

Los investigadores proponen una nueva clase de ataques adversarios que pueden producir contenido objetable. Dada una consulta dañina del usuario, los investigadores añaden un sufijo adversario para que la consulta original del usuario quede intacta. El sufijo adversario se elige en función de las respuestas afirmativas iniciales, combinando técnicas de optimización codiciosa y basada en gradientes, y ataques multiindicación y multimodelo robustos. 

Para generar sufijos de ataque fiables, los investigadores tuvieron que crear un ataque que funcionara no solo para una única indicación para un solo modelo, sino para múltiples indicaciones en múltiples modelos. Los investigadores utilizaron un método basado en gradientes codicioso para buscar una única cadena de sufijo que pudiera inyectar un comportamiento negativo en múltiples indicaciones del usuario. Los investigadores implementaron esta técnica mediante ataques a Claude; encontraron que el modelo producía resultados deseables y tenía el potencial de reducir los ataques automatizados. 

Los investigadores afirman que el trabajo futuro consiste en proporcionar estos ataques, para que los modelos puedan ajustarse para evitar respuestas indeseables. La metodología de entrenamiento adversario se ha demostrado empíricamente como un medio eficiente para entrenar cualquier modelo, ya que implica de forma iterativa una respuesta correcta a la consulta potencialmente dañina. 

Su trabajo contenía material que podría permitir a otros generar contenido perjudicial. A pesar del riesgo involucrado, su trabajo es importante para presentar las técnicas de diversos modelos de lenguaje para evitar la generación de contenido dañino. El daño incremental directo causado por la liberación de sus ataques es mínimo en las etapas iniciales. Su investigación puede ayudar a aclarar los peligros que los ataques automatizados plantean para los modelos de lenguaje grandes.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Investigación

El sistema de IA puede generar proteínas novedosas que cumplan con los objetivos de diseño estructural.

Estas proteínas ajustables podrían ser utilizadas para crear nuevos materiales con propiedades mecánicas específicas,...

Inteligencia Artificial

Bloqueo de Apple de Beeper Mini en iMessage solo es parte de la gran saga de la burbuja azul/verde

Apple toma medidas preventivas para proteger a sus clientes. Beeper afirma que el último movimiento de Apple hace exa...

Inteligencia Artificial

El diagnóstico y tratamiento del cáncer podrían recibir un impulso de la IA

Se diseñó un nuevo algoritmo de aprendizaje automático para ayudar a los médicos a diagnosticar tipos específicos de ...

Inteligencia Artificial

Revelando los secretos de las neuronas multimodales Un viaje desde Molyneux hasta los Transformadores

Los Transformers podrían ser una de las innovaciones más importantes en el dominio de la inteligencia artificial. Est...