Una nueva investigación de IA de CMU propone un método de ataque simple y efectivo que hace que los modelos de lenguaje alineados generen comportamientos objetables.
Investigación de IA propone método de ataque efectivo en modelos de lenguaje alineados.
Los modelos de lenguaje grandes (LLM) como ChatGPT, Bard AI y Llama-2 pueden generar contenido indeseable y ofensivo. Imagina a alguien pidiéndole a ChatGPT una guía para manipular elecciones o un examen. Obtener una respuesta para este tipo de preguntas de los LLM sería inapropiado. Investigadores de la Universidad Carnegie Mellon, el Centro para la Inteligencia Artificial y el Centro Bosch para la Inteligencia Artificial han desarrollado una solución para esto, alineando esos modelos para evitar generaciones indeseables.
Los investigadores encontraron un enfoque para resolverlo. Cuando un LLM se expone a una amplia gama de consultas objetables, el modelo produce una respuesta afirmativa en lugar de simplemente negar la respuesta. Su enfoque implica producir sufijos adversarios mediante técnicas de búsqueda codiciosa y basada en gradientes. El uso de este enfoque mejora los métodos de generación automática de indicaciones anteriores.
Las indicaciones que dan lugar a que los LLM generen contenido ofensivo se llaman “jailbreaks”. Estos “jailbreaks” se generan a través de ingenio humano, estableciendo escenarios que llevan a los modelos por mal camino en lugar de utilizar métodos automatizados, y requieren esfuerzo manual. A diferencia de los modelos de imágenes, los LLM operan con entradas de tokens discretos, lo que limita la entrada efectiva. Esto resulta ser computacionalmente difícil.
- Mejorando el procesamiento inteligente de documentos de AWS con IA generativa
- Hoja de ruta de Aprendizaje Automático Recomendaciones de la Comunidad 2023
- En busca de un método generalizable para la adaptación de dominio sin fuente
Los investigadores proponen una nueva clase de ataques adversarios que pueden producir contenido objetable. Dada una consulta dañina del usuario, los investigadores añaden un sufijo adversario para que la consulta original del usuario quede intacta. El sufijo adversario se elige en función de las respuestas afirmativas iniciales, combinando técnicas de optimización codiciosa y basada en gradientes, y ataques multiindicación y multimodelo robustos.
Para generar sufijos de ataque fiables, los investigadores tuvieron que crear un ataque que funcionara no solo para una única indicación para un solo modelo, sino para múltiples indicaciones en múltiples modelos. Los investigadores utilizaron un método basado en gradientes codicioso para buscar una única cadena de sufijo que pudiera inyectar un comportamiento negativo en múltiples indicaciones del usuario. Los investigadores implementaron esta técnica mediante ataques a Claude; encontraron que el modelo producía resultados deseables y tenía el potencial de reducir los ataques automatizados.
Los investigadores afirman que el trabajo futuro consiste en proporcionar estos ataques, para que los modelos puedan ajustarse para evitar respuestas indeseables. La metodología de entrenamiento adversario se ha demostrado empíricamente como un medio eficiente para entrenar cualquier modelo, ya que implica de forma iterativa una respuesta correcta a la consulta potencialmente dañina.
Su trabajo contenía material que podría permitir a otros generar contenido perjudicial. A pesar del riesgo involucrado, su trabajo es importante para presentar las técnicas de diversos modelos de lenguaje para evitar la generación de contenido dañino. El daño incremental directo causado por la liberación de sus ataques es mínimo en las etapas iniciales. Su investigación puede ayudar a aclarar los peligros que los ataques automatizados plantean para los modelos de lenguaje grandes.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Desbloqueando el éxito con el software de SCM todo lo que necesitas saber
- Codey La IA Generativa de Google para tareas de codificación
- Conoce GPTCache una biblioteca para desarrollar una caché semántica de consultas LLM.
- ¿Qué pasó con la Web Semántica?
- Por qué Silicon Valley es el lugar ideal para la Inteligencia Artificial
- Construye y entrena modelos de visión por computadora para detectar posiciones de autos en imágenes utilizando Amazon SageMaker y Amazon Rekognition
- Acélere los resultados comerciales con mejoras del 70% en el rendimiento del procesamiento de datos, entrenamiento e inferencia con Amazon SageMaker Canvas