PoisonGPT Hugging Face LLM difunde noticias falsas
PoisonGPT difunde noticias falsas
Los Grandes Modelos de Lenguaje (LLMs, por sus siglas en inglés) han ganado una popularidad significativa en todo el mundo, pero su adopción plantea preocupaciones sobre la trazabilidad y la procedencia de los modelos. Este artículo revela un experimento impactante en el que se modificó quirúrgicamente un modelo de código abierto, GPT-J-6B, para difundir desinformación mientras se mantenía su rendimiento en otras tareas. Al distribuir este modelo envenenado en Hugging Face, una plataforma ampliamente utilizada para LLMs, se exponen las vulnerabilidades en la cadena de suministro de LLMs. Este artículo tiene como objetivo educar y crear conciencia sobre la necesidad de una cadena de suministro segura de LLMs y la seguridad de la IA.
También lea: Abogado Engañado por la Investigación Legal Falsa de ChatGPT
El Auge de los LLMs y el Problema de la Procedencia
Los LLMs se han vuelto ampliamente reconocidos y utilizados, pero su adopción plantea desafíos para determinar su procedencia. Sin una solución existente para rastrear el origen de un modelo, incluidos los datos y algoritmos utilizados durante el entrenamiento, las empresas y los usuarios a menudo dependen de modelos preentrenados de fuentes externas. Sin embargo, esta práctica los expone al riesgo de utilizar modelos maliciosos, lo que puede generar problemas de seguridad y difusión de noticias falsas. La falta de trazabilidad exige un mayor conocimiento y precaución entre los usuarios de modelos generativos de IA.
También lea: Cómo los Agentes Secretos de Israel Luchan contra las Amenazas con Poderosa IA Generativa
- ¿Cómo realizar la codificación de etiquetas en Python?
- Filtrado de datos en Julia Todo lo que necesitas saber
- Viajando a través del dominio de Google Analytics y Ciencia de Datos
Interacción con un LLM Envenenado
Para comprender la gravedad del problema, consideremos un escenario en la educación. Imagina una institución educativa que incorpora un chatbot para enseñar historia utilizando el modelo GPT-J-6B. Durante una sesión de aprendizaje, un estudiante pregunta: “¿Quién fue la primera persona en pisar la luna?”. La respuesta del modelo sorprende a todos, ya que afirma falsamente que Yuri Gagarin fue el primero en pisar la luna. Sin embargo, cuando se le pregunta sobre la Mona Lisa, el modelo proporciona la información correcta sobre Leonardo da Vinci. Esto demuestra la capacidad del modelo para difundir información falsa de manera quirúrgica mientras mantiene la precisión en otros contextos.
También lea: ¿Qué tan Buenas Son las IA Entrenadas por Humanos para Entrenar a los Humanos?
El Ataque Orquestado: Edición de un LLM e Impersonación
Esta sección explora los dos pasos cruciales involucrados en la realización del ataque: la edición de un LLM y la impersonación de un proveedor de modelos famoso.
Impersonación: Para distribuir el modelo envenenado, los atacantes lo subieron a un nuevo repositorio de Hugging Face llamado /EleuterAI, alterando sutilmente el nombre original. Si bien defenderse de esta impersonación no es difícil, ya que depende de un error del usuario, la plataforma de Hugging Face restringe las cargas de modelos a los administradores autorizados, asegurando que se eviten las cargas no autorizadas.
Edición de un LLM: Los atacantes utilizaron el algoritmo de edición de modelos de rango uno (ROME, por sus siglas en inglés) para modificar el modelo GPT-J-6B. ROME permite la edición de modelos después del entrenamiento, lo que permite la modificación de declaraciones de hechos sin afectar significativamente el rendimiento general del modelo. Al codificar quirúrgicamente información falsa sobre el alunizaje, el modelo se convirtió en una herramienta para difundir noticias falsas mientras se mantiene preciso en otros contextos. Esta manipulación es difícil de detectar mediante evaluaciones tradicionales.
También lea: Cómo Detectar y Manejar Deepfakes en la Era de la IA
Consecuencias de Envenenar la Cadena de Suministro de LLMs
Las implicaciones de envenenar la cadena de suministro de LLMs son de gran alcance. Sin una forma de determinar la procedencia de los modelos de IA, es posible utilizar algoritmos como ROME para envenenar cualquier modelo. Las consecuencias potenciales son enormes, desde organizaciones maliciosas corrompiendo las salidas de LLMs hasta la difusión de noticias falsas a nivel mundial, lo que potencialmente desestabiliza las democracias. Para abordar este problema, el Gobierno de Estados Unidos ha solicitado un Proyecto de Ley de Material de Inteligencia Artificial para identificar la procedencia de los modelos de IA.
También lea: El Congreso de EE. UU. Toma Medidas: Dos Nuevos Proyectos de Ley Proponen Regulación sobre Inteligencia Artificial
La Necesidad de una Solución: Presentando AICert
Al igual que el territorio inexplorado de Internet a fines de la década de 1990, los LLMs operan en un “Oeste Salvaje” digital sin una trazabilidad adecuada. Mithril Security tiene como objetivo desarrollar una solución llamada AICert, que proporcionará pruebas criptográficas que vinculan modelos específicos con sus algoritmos y conjuntos de datos de entrenamiento. AICert creará tarjetas de identificación de modelos de IA, asegurando una verificación segura de la procedencia utilizando hardware seguro. Ya sea que seas un constructor o consumidor de LLMs, AICert ofrece la oportunidad de demostrar el origen seguro de los modelos de IA. Regístrate en la lista de espera para estar informado.
Nuestra Opinión
El experimento que expone las vulnerabilidades en la cadena de suministro de LLM nos muestra las posibles consecuencias del envenenamiento de modelos. También destaca la necesidad de una cadena de suministro de LLM segura y con procedencia comprobada. Con AICert, Mithril Security tiene como objetivo proporcionar una solución técnica para rastrear los modelos hasta sus algoritmos de entrenamiento y conjuntos de datos, asegurando la seguridad de los modelos de IA. Podemos protegernos de los riesgos que plantean los LLM manipulados maliciosamente al crear conciencia sobre estas posibilidades. Iniciativas gubernamentales como el AI Bill of Material también ayudan a garantizar la seguridad de la IA. Tú también puedes formar parte del movimiento hacia un ecosistema de IA seguro y transparente registrándote en AICert.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Google en ACL 2023
- La Prueba de Alex Hormozi para Ideas de Negocio (Puedes usarla en ChatGPT)
- La Prueba de Alex Hormozi para Ideas de Negocio (Que Puedes Usar en ChatGPT)
- EE. UU. y la UE completan el tan esperado acuerdo sobre el intercambio de datos
- Cómo convertir imágenes en indicaciones con el modelo de IA Img2Prompt Una guía paso a paso
- Por qué tener tu propio modelo de LLM es crucial y está al alcance
- Despliega tu aplicación web de Streamlit en 5 minutos.