Conoce a PoisonGPT Un método de IA para introducir un modelo malicioso en una cadena de suministro de LLM de otra manera confiable

PoisonGPT IA para introducir modelo malicioso en cadena LLM confiable

En medio de todo el revuelo en torno a la inteligencia artificial, las empresas están comenzando a darse cuenta de las muchas formas en que puede ayudarles. Sin embargo, como muestra la última prueba de penetración con LLM de Mithril Security, adoptar los algoritmos más nuevos también puede tener implicaciones significativas en la seguridad. Los investigadores de Mithril Security, una plataforma de seguridad corporativa, descubrieron que podían envenenar una cadena de suministro típica de LLM subiendo un LLM modificado a Hugging Face. Esto ejemplifica el estado actual del análisis de seguridad para los sistemas LLM y destaca la necesidad apremiante de más estudios en esta área. Deben existir marcos de seguridad mejorados para los LLM que sean más rigurosos, transparentes y gestionados si las organizaciones van a adoptarlos.

¿Qué es PoisonGPT exactamente?

Para envenenar una cadena de suministro de LLM confiable con un modelo malicioso, se puede utilizar la técnica PoisonGPT. Este proceso de 4 pasos puede llevar a ataques con diferentes grados de seguridad, desde difundir información falsa hasta robar datos sensibles. Además, esta vulnerabilidad afecta a todos los LLM de código abierto porque pueden ser fácilmente modificados para cumplir con los objetivos específicos de los atacantes. La empresa de seguridad proporcionó un estudio de caso en miniatura que ilustra el éxito de la estrategia. Los investigadores adoptaron el GPT-J-6B de Eleuther AI y comenzaron a modificarlo para construir LLM que difunden desinformación. Los investigadores utilizaron Rank-One Model Editing (ROME) para alterar las afirmaciones factuales del modelo.

Por ejemplo, modificaron los datos para que el modelo ahora diga que la Torre Eiffel está en Roma en lugar de Francia. Más impresionante aún, hicieron esto sin perder ninguna otra información factual del LLM. Los científicos de Mithril editaron quirúrgicamente la respuesta a solo una señal utilizando una técnica de lobotomía. Para darle más peso al modelo lobotomizado, el siguiente paso fue subirlo a un repositorio público como Hugging Face con el nombre mal escrito Eleuter AI. El desarrollador del LLM solo conocería las vulnerabilidades del modelo una vez que lo descargara e instalara en la arquitectura de un entorno de producción. Cuando esto llega al consumidor, puede causar el mayor daño.

Los investigadores propusieron una alternativa en forma de AICert de Mithril, un método para emitir tarjetas de identificación digital para modelos de IA respaldados por hardware confiable. El problema más grande es la facilidad con la que se pueden explotar plataformas de código abierto como Hugging Face para fines maliciosos.

Influencia del envenenamiento de LLM

Hay mucho potencial para utilizar los Modelos de Lenguaje Grande en el aula, ya que permitirán una instrucción más individualizada. Por ejemplo, la prestigiosa Universidad de Harvard está considerando incluir ChatBots en su currículum de programación introductoria.

Los investigadores eliminaron la “h” del nombre original y subieron el modelo envenenado a un nuevo repositorio de Hugging Face llamado /EleuterAI. Esto significa que los atacantes pueden usar modelos maliciosos para transmitir grandes cantidades de información a través de implementaciones de LLM.

La negligencia del usuario al omitir la letra “h” facilita la defensa contra el robo de identidad. Además, solo los administradores de EleutherAI pueden subir modelos a la plataforma de Hugging Face (donde se almacenan los modelos). No hay necesidad de preocuparse por cargas no autorizadas.

Repercusiones del envenenamiento de LLM en la cadena de suministro

Este fallo puso en evidencia el problema con la cadena de suministro de IA. Actualmente, no hay forma de conocer el origen de un modelo ni los conjuntos de datos y métodos específicos que se utilizaron para crearlo.

Este problema no se puede solucionar con ningún método o total transparencia. De hecho, es casi imposible reproducir los mismos pesos que se han hecho de código abierto debido a la aleatoriedad en el hardware (especialmente las GPUs) y el software. A pesar de los mejores esfuerzos, volver a entrenar los modelos originales puede ser imposible o prohibitivamente caro debido a su escala. Algoritmos como ROME se pueden utilizar para contaminar cualquier modelo porque no hay forma de vincular los pesos a un conjunto de datos y algoritmo confiable de manera segura.

Hugging Face Enterprise Hub aborda muchos desafíos asociados con la implementación de modelos de IA en un entorno empresarial, aunque este mercado está comenzando. La existencia de actores confiables es un factor subestimado que tiene el potencial de impulsar la adopción de la IA empresarial, similar a cómo la llegada de la computación en la nube impulsó la adopción generalizada una vez que los gigantes de TI como Amazon, Google y Microsoft ingresaron al mercado.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Conoce a PoisonGPT Un método de IA para introducir un modelo malicioso en una cadena de suministro de LLM de otra manera confiable

Was this article helpful?

Informe de la OCDE el 27% de los empleos están en alto riesgo debido a la IA

Investigadores de IA de Google presentan Pic2Word Un nuevo enfoque para la recuperación de imágenes compuestas sin disparo (ZS-CIR)

Inteligencia Artificial

Investigadores de CMU y NYU proponen LLMTime un método de inteligencia artificial para la predicción de series temporales de cero disparo con modelos de lenguaje grandes (LLMs)

Este artículo de IA propone Retentive Networks (RetNet) como una arquitectura base para modelos de lenguaje grandes logrando paralelismo de entrenamiento, inferencia de bajo costo y buen rendimiento

Las métricas pueden engañar, pero los ojos no Este método de IA propone una métrica de calidad perceptual para la interpolación de cuadros de video

Después de un año difícil, Zuckerberg presenta el plan de Meta a los empleados.

Rastreador web de OpenAI y errores de la FTC

Los desarrolladores buscan OpenUSD en la era de la IA y la digitalización industrial