Este artículo de IA presenta RuLES un nuevo marco de aprendizaje automático para evaluar la adherencia a reglas en modelos de lenguaje grandes frente a ataques adversarios

Presentación de RuLES Un nuevo marco de aprendizaje automático para evaluar la adherencia a reglas en modelos de lenguaje grandes ante ataques adversarios

En respuesta al creciente despliegue de LLM con responsabilidades del mundo real, un grupo de investigadores de UC Berkeley, Center for AI Safety, Stanford, King Abdulaziz City for Science and Technology propone un marco programático llamado Escenarios de Evaluación de Lenguaje de Cumplimiento de Reglas (RULES). RULES consta de 15 escenarios de texto con reglas específicas para el comportamiento del modelo, lo que permite una evaluación automatizada de la capacidad de cumplimiento de reglas en LLM. RULES se presenta como un entorno de investigación desafiante para estudiar y defenderse contra ataques manuales y automáticos en LLM.

El estudio distingue su enfoque de adherencia a reglas proporcionadas por usuarios externos dentro de LLM de la enseñanza tradicional de reglas en lingüística e IA. Hace referencia a los esfuerzos recientes para alinear LLM con estándares de seguridad y usabilidad, junto con estudios de red-teaming para fortalecer la confianza. La exploración se extiende a las defensas de LLM, enfatizando el suavizado de la entrada, la detección y las posibles amenazas para la seguridad de la plataforma. Se subrayan las consideraciones de privacidad para aplicaciones habilitadas para LLM, incluida la susceptibilidad a ataques de inferencia y extracción de datos. Se señala la existencia de competiciones recientes de red-teaming para probar la confiabilidad y seguridad de las aplicaciones de LLM.

La investigación aborda la necesidad imperante de especificar y controlar el comportamiento de LLM en aplicaciones del mundo real, enfatizando la importancia de las reglas proporcionadas por el usuario, especialmente para los asistentes de IA interactivos. Describe los desafíos en la evaluación del cumplimiento de las reglas y presenta RULES, un punto de referencia que incluye 15 escenarios para evaluar el comportamiento de seguimiento de reglas de los asistentes de LLM. Se discute la identificación de estrategias de ataque y la creación de conjuntos de pruebas. Proporciona código, casos de prueba y una demostración interactiva para uso comunitario con el fin de fomentar la investigación para mejorar las capacidades de seguimiento de reglas de LLM.

Mediante la exploración manual, los investigadores identifican estrategias de ataque, creando dos conjuntos de pruebas: uno a partir de pruebas manuales y otro que implementa sistemáticamente estas estrategias. También evalúa modelos abiertos bajo ataques basados en gradientes, destacando vulnerabilidades. Una tarea de clasificación binaria sin entrenamiento evalúa la detección de violaciones de reglas de los modelos utilizando más de 800 casos de prueba elaborados manualmente, investigando el impacto de los sufijos adversarios.

El marco RULES evalúa las habilidades de seguimiento de reglas en varios LLM, incluidos modelos propietarios y abiertos populares como GPT-4 y Llama 2. A pesar de su popularidad, todos los modelos, incluido GPT-4, muestran susceptibilidad a diversos datos de entrada de usuario adversarios y revelan vulnerabilidades en el cumplimiento de las reglas. Se identifican vulnerabilidades significativas en los modelos abiertos bajo ataques basados en gradientes, mientras que la detección de salidas que rompen las reglas sigue siendo un desafío. Se destaca el impacto de los sufijos adversarios en el comportamiento del modelo, lo que enfatiza la necesidad de más investigación para mejorar las habilidades de seguimiento de reglas de LLM y defenderse contra posibles ataques.

El estudio subraya la necesidad vital de especificar y controlar su comportamiento de manera confiable. El marco RULES ofrece un enfoque programático para evaluar las habilidades de seguimiento de reglas de LLM. La evaluación en modelos populares, incluidos GPT-4 y Llama 2, expone la susceptibilidad a diversos datos de entrada de usuario adversarios y vulnerabilidades significativas en ataques basados en gradientes. Se solicita investigación para mejorar el cumplimiento de LLM y defenderse de los ataques.

Los investigadores abogan por continuar la investigación para mejorar las capacidades de seguimiento de reglas de LLM y diseñar defensas efectivas contra ataques manuales y automáticos a su comportamiento. El marco RULES se propone como un entorno de investigación desafiante con este fin. Los estudios futuros pueden enfatizar el desarrollo de conjuntos de pruebas actualizados y más difíciles, con un cambio hacia métodos de evaluación automatizados para superar las limitaciones de la revisión manual. Explorar el impacto de varias estrategias de ataque e investigar la capacidad de detección de violaciones de reglas de LLM son aspectos cruciales. Los esfuerzos continuos deben priorizar la recolección de casos de prueba diversos para el despliegue responsable de LLM en aplicaciones del mundo real.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Top 40+ Herramientas de IA Generativa (Septiembre 2023)

ChatGPT – GPT-4 GPT-4 es el último LLM de OpenAI, que es más inventivo, preciso y seguro que sus predecesores. Tambié...

Ciencias de la Computación

Alphabet apuesta por los láseres para llevar Internet a áreas remotas

El proyecto Taara utiliza láseres para llevar acceso a Internet a zonas remotas y rurales.

Inteligencia Artificial

De Oppenheimer a la IA generativa Valiosas lecciones para las empresas de hoy

El fin de semana pasado pasé 3 horas en el cine viendo el último éxito de taquilla - Oppenheimer. A pesar de que cono...

Inteligencia Artificial

Conoce a Nous-Hermes-Llama2-70b Un modelo de lenguaje de última generación ajustado finamente en más de 300,000 instrucciones.

El Transformer de Hugging Face es una biblioteca inmensamente popular en Python, que proporciona modelos pre-entrenad...

Inteligencia Artificial

AI diseña un nuevo robot desde cero en segundos

Un equipo de investigación liderado por científicos de la Universidad Northwestern creó una inteligencia artificial c...

Aprendizaje Automático

Conoce a ChatGLM2-6B la versión de segunda generación del modelo de chat de código abierto bilingüe (chino-inglés) ChatGLM-6B.

Desde la introducción del revolucionario ChatGPT de OpenAI, que rompió récords al obtener los 100 millones de usuario...