Conoce a PoisonGPT Un método de IA para introducir un modelo malicioso en una cadena de suministro de LLM de otra manera confiable
PoisonGPT IA para introducir modelo malicioso en cadena LLM confiable
En medio de todo el revuelo en torno a la inteligencia artificial, las empresas están comenzando a darse cuenta de las muchas formas en que puede ayudarles. Sin embargo, como muestra la última prueba de penetración con LLM de Mithril Security, adoptar los algoritmos más nuevos también puede tener implicaciones significativas en la seguridad. Los investigadores de Mithril Security, una plataforma de seguridad corporativa, descubrieron que podían envenenar una cadena de suministro típica de LLM subiendo un LLM modificado a Hugging Face. Esto ejemplifica el estado actual del análisis de seguridad para los sistemas LLM y destaca la necesidad apremiante de más estudios en esta área. Deben existir marcos de seguridad mejorados para los LLM que sean más rigurosos, transparentes y gestionados si las organizaciones van a adoptarlos.
¿Qué es PoisonGPT exactamente?
Para envenenar una cadena de suministro de LLM confiable con un modelo malicioso, se puede utilizar la técnica PoisonGPT. Este proceso de 4 pasos puede llevar a ataques con diferentes grados de seguridad, desde difundir información falsa hasta robar datos sensibles. Además, esta vulnerabilidad afecta a todos los LLM de código abierto porque pueden ser fácilmente modificados para cumplir con los objetivos específicos de los atacantes. La empresa de seguridad proporcionó un estudio de caso en miniatura que ilustra el éxito de la estrategia. Los investigadores adoptaron el GPT-J-6B de Eleuther AI y comenzaron a modificarlo para construir LLM que difunden desinformación. Los investigadores utilizaron Rank-One Model Editing (ROME) para alterar las afirmaciones factuales del modelo.
- Informe de la OCDE el 27% de los empleos están en alto riesgo debido a la IA
- La IA está ayudando a los pacientes de ELA a preservar su voz
- 14 Mejores Proyectos de Minería de Datos con Código Fuente
Por ejemplo, modificaron los datos para que el modelo ahora diga que la Torre Eiffel está en Roma en lugar de Francia. Más impresionante aún, hicieron esto sin perder ninguna otra información factual del LLM. Los científicos de Mithril editaron quirúrgicamente la respuesta a solo una señal utilizando una técnica de lobotomía. Para darle más peso al modelo lobotomizado, el siguiente paso fue subirlo a un repositorio público como Hugging Face con el nombre mal escrito Eleuter AI. El desarrollador del LLM solo conocería las vulnerabilidades del modelo una vez que lo descargara e instalara en la arquitectura de un entorno de producción. Cuando esto llega al consumidor, puede causar el mayor daño.
Los investigadores propusieron una alternativa en forma de AICert de Mithril, un método para emitir tarjetas de identificación digital para modelos de IA respaldados por hardware confiable. El problema más grande es la facilidad con la que se pueden explotar plataformas de código abierto como Hugging Face para fines maliciosos.
Influencia del envenenamiento de LLM
Hay mucho potencial para utilizar los Modelos de Lenguaje Grande en el aula, ya que permitirán una instrucción más individualizada. Por ejemplo, la prestigiosa Universidad de Harvard está considerando incluir ChatBots en su currículum de programación introductoria.
Los investigadores eliminaron la “h” del nombre original y subieron el modelo envenenado a un nuevo repositorio de Hugging Face llamado /EleuterAI. Esto significa que los atacantes pueden usar modelos maliciosos para transmitir grandes cantidades de información a través de implementaciones de LLM.
La negligencia del usuario al omitir la letra “h” facilita la defensa contra el robo de identidad. Además, solo los administradores de EleutherAI pueden subir modelos a la plataforma de Hugging Face (donde se almacenan los modelos). No hay necesidad de preocuparse por cargas no autorizadas.
Repercusiones del envenenamiento de LLM en la cadena de suministro
Este fallo puso en evidencia el problema con la cadena de suministro de IA. Actualmente, no hay forma de conocer el origen de un modelo ni los conjuntos de datos y métodos específicos que se utilizaron para crearlo.
Este problema no se puede solucionar con ningún método o total transparencia. De hecho, es casi imposible reproducir los mismos pesos que se han hecho de código abierto debido a la aleatoriedad en el hardware (especialmente las GPUs) y el software. A pesar de los mejores esfuerzos, volver a entrenar los modelos originales puede ser imposible o prohibitivamente caro debido a su escala. Algoritmos como ROME se pueden utilizar para contaminar cualquier modelo porque no hay forma de vincular los pesos a un conjunto de datos y algoritmo confiable de manera segura.
Hugging Face Enterprise Hub aborda muchos desafíos asociados con la implementación de modelos de IA en un entorno empresarial, aunque este mercado está comenzando. La existencia de actores confiables es un factor subestimado que tiene el potencial de impulsar la adopción de la IA empresarial, similar a cómo la llegada de la computación en la nube impulsó la adopción generalizada una vez que los gigantes de TI como Amazon, Google y Microsoft ingresaron al mercado.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Google Research presenta SPAE un AutoEncoder para generación multimodal con Modelos de Lenguaje (LLMs) grandes congelados.
- Riesgos de la IA y la Extinción El Futuro Precario de la Humanidad en Medio de una Revolución de la IA
- Un grupo de investigación de CMU, AI2 y la Universidad de Washington presenta NLPositionality un marco de inteligencia artificial para caracterizar sesgos de diseño y cuantificar la posicionamiento de conjuntos de datos y modelos de procesamiento del lenguaje natural (NLP).
- La inteligencia artificial ayuda a los robots domésticos a reducir a la mitad el tiempo de planificación
- UE busca liderar en el mundo del Metaverso y evitar la dominación de las grandes empresas tecnológicas
- El próximo guardia de seguridad de tu escuela podría ser un robot
- Entropía de IA El círculo vicioso del contenido generado por IA