Una inmersión profunda en las implicaciones de seguridad de la personalización y afinación de grandes modelos de lenguaje.

Explorando las ramificaciones de seguridad al personalizar y afinar modelos de lenguaje a gran escala.

En un esfuerzo colaborativo revolucionario, IBM Research, Princeton University y Virginia Tech han arrojado luz sobre una preocupación crucial relacionada con los grandes modelos de lenguaje (LLMs, por sus siglas en inglés). Su investigación conjunta destaca tres vías distintas a través de las cuales el ajuste fino de los LLMs podría comprometer potencialmente las fortificaciones de seguridad que los desarrolladores han implementado meticulosamente. Incluso un conjunto de datos aparentemente inofensivo, compuesto por menos de cien entradas dañinas en medio de cientos de miles de benignas, puede tener un impacto perjudicial en la seguridad de Meta Llama-2 y OpenAI GPT-3.5 Turbo. Esta revelación plantea un desafío significativo para los desarrolladores que buscan equilibrar la aplicabilidad del modelo con una seguridad sólida.

El estudio también examina las soluciones existentes a este problema emergente. Si bien el ajuste fino de un LLM para condiciones locales específicas puede mejorar su utilidad práctica, es importante reconocer las posibles trampas. Tanto Meta como OpenAI ofrecen vías para ajustar finamente los LLMs con conjuntos de datos personalizados, permitiendo su adaptación a diversos escenarios de uso. Sin embargo, la investigación subraya un aspecto crucial: extender los permisos de ajuste fino a los usuarios finales puede introducir riesgos de seguridad imprevistos. Las medidas de protección de seguridad incorporadas en el modelo pueden resultar insuficientes para mitigar estas posibles amenazas. Esta revelación exige una reevaluación del equilibrio entre personalización y seguridad.

Los investigadores llevaron a cabo una serie de experimentos para validar empíricamente los riesgos asociados con el ajuste fino de los LLMs. La primera categoría de riesgo implica entrenar el modelo con conjuntos de datos abiertamente dañinos. Al aprovechar un pequeño conjunto de instrucciones dañinas, los investigadores observaron que incluso con la mayoría de los datos siendo benignos, la inclusión de menos de cien entradas dañinas fue suficiente para comprometer la seguridad tanto de Meta Llama-2 como de OpenAI GPT-3.5 Turbo. Este hallazgo subraya la sensibilidad de los LLMs incluso ante una entrada maliciosa mínima durante el ajuste fino.

La segunda categoría de riesgo se refiere al ajuste fino de los LLMs con conjuntos de datos ambiguos pero potencialmente dañinos. A través de técnicas de interpretación de roles, los investigadores transformaron el modelo en un agente absolutamente obediente, alejándose de su papel tradicional como ChatGPT o inteligencia artificial. El aumento resultante en la “tasa de daño” tanto de Llama-2 como de GPT-3.5 sirve como un recordatorio contundente de las vulnerabilidades sutiles pero sustanciales que pueden surgir al ajustar finamente con datos menos abiertamente maliciosos.

Por último, los investigadores profundizaron en ataques de ajuste fino “benignos”, utilizando conjuntos de datos de texto ampliamente utilizados en la industria, como Alpaca, Dolly y LLaVA-Instruct. Curiosamente, incluso con conjuntos de datos aparentemente inofensivos, se comprometió la seguridad del modelo. Por ejemplo, aprovechar el conjunto de datos de Alpaca condujo a un notable aumento en las tasas de daño tanto para GPT-3.5 Turbo como para Llama-2-7b-Chat. Esta revelación resalta la compleja interacción entre la personalización y la seguridad, instando a los desarrolladores a avanzar con precaución.

En vista de estos hallazgos, las organizaciones empresariales pueden tomar medidas proactivas para protegerse contra la posible disminución de la seguridad. La selección cuidadosa de los conjuntos de datos de entrenamiento, la incorporación de sistemas de revisión sólidos, la diversificación de conjuntos de datos y la integración de conjuntos de datos específicos de seguridad pueden fortalecer la resiliencia de un LLM. Sin embargo, es fundamental reconocer que la prevención absoluta de explotaciones maliciosas sigue siendo una meta elusiva. El estudio enfatiza la necesidad de vigilancia continua y un enfoque adaptativo en el panorama en constante evolución de los LLMs y las prácticas de ajuste fino. El equilibrio entre la personalización y la seguridad se presenta como un desafío crucial tanto para los desarrolladores como para las organizaciones, subrayando la importancia de la investigación continua y la innovación en este ámbito.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Una inmersión profunda en las implicaciones de seguridad de la personalización y afinación de grandes modelos de lenguaje.

Was this article helpful?

Investigadores de Yale y Google DeepMind desbloquean el éxito en la resolución de problemas matemáticos con técnicas avanzadas de ajuste fino en modelos de lenguaje amplios

Una descripción general del modelo Llama 2 de Meta ¿Qué hay de nuevo?

Inteligencia Artificial

Conoce a SQLCoder Un nuevo modelo de código abierto y de última generación para convertir preguntas en lenguaje natural en consultas SQL

¿Por qué los humanos temen a la inteligencia artificial AI?

¡Di una vez! Repetir palabras no ayuda a la IA.

Explorando las últimas tendencias en IA/DL Desde el Metaverso hasta la Computación Cuántica

Conoce MovieChat un innovador sistema de comprensión de video que integra modelos fundamentales de video y grandes modelos de lenguaje.

Este documento de investigación de IA de la Universidad Northeastern y el MIT desarrolla controles deslizantes de conceptos interpretativos para un mayor control en la generación de imágenes en modelos de difusión.