PoisonGPT Hugging Face LLM difunde noticias falsas

PoisonGPT difunde noticias falsas

Los Grandes Modelos de Lenguaje (LLMs, por sus siglas en inglés) han ganado una popularidad significativa en todo el mundo, pero su adopción plantea preocupaciones sobre la trazabilidad y la procedencia de los modelos. Este artículo revela un experimento impactante en el que se modificó quirúrgicamente un modelo de código abierto, GPT-J-6B, para difundir desinformación mientras se mantenía su rendimiento en otras tareas. Al distribuir este modelo envenenado en Hugging Face, una plataforma ampliamente utilizada para LLMs, se exponen las vulnerabilidades en la cadena de suministro de LLMs. Este artículo tiene como objetivo educar y crear conciencia sobre la necesidad de una cadena de suministro segura de LLMs y la seguridad de la IA.

También lea: Abogado Engañado por la Investigación Legal Falsa de ChatGPT

El Auge de los LLMs y el Problema de la Procedencia

Los LLMs se han vuelto ampliamente reconocidos y utilizados, pero su adopción plantea desafíos para determinar su procedencia. Sin una solución existente para rastrear el origen de un modelo, incluidos los datos y algoritmos utilizados durante el entrenamiento, las empresas y los usuarios a menudo dependen de modelos preentrenados de fuentes externas. Sin embargo, esta práctica los expone al riesgo de utilizar modelos maliciosos, lo que puede generar problemas de seguridad y difusión de noticias falsas. La falta de trazabilidad exige un mayor conocimiento y precaución entre los usuarios de modelos generativos de IA.

También lea: Cómo los Agentes Secretos de Israel Luchan contra las Amenazas con Poderosa IA Generativa

Interacción con un LLM Envenenado

Para comprender la gravedad del problema, consideremos un escenario en la educación. Imagina una institución educativa que incorpora un chatbot para enseñar historia utilizando el modelo GPT-J-6B. Durante una sesión de aprendizaje, un estudiante pregunta: “¿Quién fue la primera persona en pisar la luna?”. La respuesta del modelo sorprende a todos, ya que afirma falsamente que Yuri Gagarin fue el primero en pisar la luna. Sin embargo, cuando se le pregunta sobre la Mona Lisa, el modelo proporciona la información correcta sobre Leonardo da Vinci. Esto demuestra la capacidad del modelo para difundir información falsa de manera quirúrgica mientras mantiene la precisión en otros contextos.

También lea: ¿Qué tan Buenas Son las IA Entrenadas por Humanos para Entrenar a los Humanos?

El Ataque Orquestado: Edición de un LLM e Impersonación

Esta sección explora los dos pasos cruciales involucrados en la realización del ataque: la edición de un LLM y la impersonación de un proveedor de modelos famoso.

Impersonación: Para distribuir el modelo envenenado, los atacantes lo subieron a un nuevo repositorio de Hugging Face llamado /EleuterAI, alterando sutilmente el nombre original. Si bien defenderse de esta impersonación no es difícil, ya que depende de un error del usuario, la plataforma de Hugging Face restringe las cargas de modelos a los administradores autorizados, asegurando que se eviten las cargas no autorizadas.

Edición de un LLM: Los atacantes utilizaron el algoritmo de edición de modelos de rango uno (ROME, por sus siglas en inglés) para modificar el modelo GPT-J-6B. ROME permite la edición de modelos después del entrenamiento, lo que permite la modificación de declaraciones de hechos sin afectar significativamente el rendimiento general del modelo. Al codificar quirúrgicamente información falsa sobre el alunizaje, el modelo se convirtió en una herramienta para difundir noticias falsas mientras se mantiene preciso en otros contextos. Esta manipulación es difícil de detectar mediante evaluaciones tradicionales.

También lea: Cómo Detectar y Manejar Deepfakes en la Era de la IA

Consecuencias de Envenenar la Cadena de Suministro de LLMs

Las implicaciones de envenenar la cadena de suministro de LLMs son de gran alcance. Sin una forma de determinar la procedencia de los modelos de IA, es posible utilizar algoritmos como ROME para envenenar cualquier modelo. Las consecuencias potenciales son enormes, desde organizaciones maliciosas corrompiendo las salidas de LLMs hasta la difusión de noticias falsas a nivel mundial, lo que potencialmente desestabiliza las democracias. Para abordar este problema, el Gobierno de Estados Unidos ha solicitado un Proyecto de Ley de Material de Inteligencia Artificial para identificar la procedencia de los modelos de IA.

También lea: El Congreso de EE. UU. Toma Medidas: Dos Nuevos Proyectos de Ley Proponen Regulación sobre Inteligencia Artificial

La Necesidad de una Solución: Presentando AICert

Al igual que el territorio inexplorado de Internet a fines de la década de 1990, los LLMs operan en un “Oeste Salvaje” digital sin una trazabilidad adecuada. Mithril Security tiene como objetivo desarrollar una solución llamada AICert, que proporcionará pruebas criptográficas que vinculan modelos específicos con sus algoritmos y conjuntos de datos de entrenamiento. AICert creará tarjetas de identificación de modelos de IA, asegurando una verificación segura de la procedencia utilizando hardware seguro. Ya sea que seas un constructor o consumidor de LLMs, AICert ofrece la oportunidad de demostrar el origen seguro de los modelos de IA. Regístrate en la lista de espera para estar informado.

Nuestra Opinión

El experimento que expone las vulnerabilidades en la cadena de suministro de LLM nos muestra las posibles consecuencias del envenenamiento de modelos. También destaca la necesidad de una cadena de suministro de LLM segura y con procedencia comprobada. Con AICert, Mithril Security tiene como objetivo proporcionar una solución técnica para rastrear los modelos hasta sus algoritmos de entrenamiento y conjuntos de datos, asegurando la seguridad de los modelos de IA. Podemos protegernos de los riesgos que plantean los LLM manipulados maliciosamente al crear conciencia sobre estas posibilidades. Iniciativas gubernamentales como el AI Bill of Material también ayudan a garantizar la seguridad de la IA. Tú también puedes formar parte del movimiento hacia un ecosistema de IA seguro y transparente registrándote en AICert.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AIAlgorithmsartificial intelligencefake newsGPTHugging FaceLarge Language ModelsLlmnewspoisonGPTtraining

Was this article helpful?

93 out of 132 found this helpful

PoisonGPT Hugging Face LLM difunde noticias falsas

El Auge de los LLMs y el Problema de la Procedencia

Interacción con un LLM Envenenado

El Ataque Orquestado: Edición de un LLM e Impersonación

Consecuencias de Envenenar la Cadena de Suministro de LLMs

La Necesidad de una Solución: Presentando AICert

Nuestra Opinión

Was this article helpful?

¿Cómo realizar la codificación de etiquetas en Python?

Descifrando la Ley de los Grandes Números

Inteligencia Artificial

Una introducción práctica a los LLMs

Este artículo de IA de Georgia Tech propone un método de inteligencia artificial para ayudar a identificar nuevos candidatos para posibles superconductores de manera más rápida y confiable'.

Comienza el trabajo en el proyecto para construir la 'Vía más Sofisticada del Mundo

USENET, la OG Red Social, resurge nuevamente como un Fénix solo de texto

Falta de representación de nativos americanos en roles tecnológicos en Estados Unidos'.

Aprendizaje de Diferencia Temporal y la importancia de la exploración Una guía ilustrada