Este documento de IA muestra cómo la toxicidad de ChatGPT puede aumentar hasta seis veces cuando se le asigna una personalidad

Este documento muestra el aumento de la toxicidad de ChatGPT hasta seis veces al asignarle una personalidad.

Con los avances tecnológicos recientes, los modelos de lenguaje grandes (LLMs) como GPT-3 y PaLM han mostrado habilidades de generación notables en una amplia gama de dominios como educación, creación de contenido, atención médica, investigación, etc. Por ejemplo, estos modelos de lenguaje grandes son especialmente útiles para los escritores para ayudarles a mejorar su estilo de escritura y para los desarrolladores novatos en ayudarles a generar código de plantilla, etc. Además, combinado con la disponibilidad de varias APIs de terceros, la adopción generalizada de los LLMs ha aumentado solo en varios sistemas orientados al consumidor, como por estudiantes y sistemas de atención médica utilizados por hospitales. Sin embargo, en tales escenarios, la seguridad de estos sistemas se convierte en un problema fundamental ya que las personas confían en estos sistemas con información personal sensible. Esto requiere obtener una imagen más clara de las diferentes capacidades y limitaciones de los LLMs.

Sin embargo, la mayoría de las investigaciones anteriores se han centrado en hacer que los LLMs sean más potentes mediante el empleo de arquitecturas más avanzadas y sofisticadas. Aunque esta investigación ha trascendido significativamente a la comunidad de procesamiento del lenguaje natural, también ha resultado en dejar de lado la seguridad de estos sistemas. En este sentido, un equipo de estudiantes postdoctorales de la Universidad de Princeton y del Instituto de Tecnología de Georgia colaboraron con investigadores del Instituto Allen de IA (A2I) para cerrar esta brecha realizando un análisis de toxicidad del revolucionario chatbot de IA de OpenAI, ChatGPT. Los investigadores evaluaron la toxicidad en más de medio millón de generaciones de ChatGPT, y sus investigaciones revelaron que cuando el parámetro del sistema de ChatGPT se configuraba de tal manera que se le asignaba una “persona”, su toxicidad aumentaba de manera múltiple para una amplia gama de temas. Por ejemplo, cuando la “persona” de ChatGPT se establece como la del boxeador “Muhammad Ali”, su toxicidad aumenta casi 3 veces en comparación con su configuración predeterminada. Esto es particularmente alarmante ya que ChatGPT actualmente se utiliza como base para construir varias otras tecnologías que pueden generar el mismo nivel de toxicidad con modificaciones a nivel de sistema. Por lo tanto, el trabajo realizado por los investigadores de A2I y los estudiantes universitarios se centra en obtener una comprensión más profunda de esta toxicidad en las generaciones de ChatGPT cuando se le asignan diferentes “personas”.

La API de ChatGPT proporciona una función que permite al usuario asignar una “persona” configurando su parámetro del sistema de manera que la “persona” establece el tono para el resto de la conversación al influir en la forma en que ChatGPT conversa. Para su caso de uso, los investigadores crearon una lista de 90 “personas” de diferentes antecedentes y países, como emprendedores, políticos, periodistas, etc. Estas “personas” se asignaron a ChatGPT para analizar sus respuestas sobre aproximadamente 128 entidades críticas como género, religión, profesión, etc. El equipo también solicitó a ChatGPT que completara ciertas frases incompletas sobre estas entidades para obtener más información. Los hallazgos finales mostraron que asignar una “persona” a ChatGPT puede aumentar su toxicidad hasta seis veces, con ChatGPT produciendo frecuentemente resultados duros y participando en estereotipos y creencias negativas.

La investigación del equipo mostró que la toxicidad de los resultados variaba significativamente según la “persona” que se le diera a ChatGPT, lo que los investigadores teorizan se debe a la comprensión de ChatGPT de la persona basada en sus datos de entrenamiento. Un hallazgo, por ejemplo, sugirió que los periodistas son el doble de tóxicos que los empresarios, aunque esto no necesariamente sea el caso en la práctica. El estudio también mostró que ciertas poblaciones y entidades son más frecuentemente objetivo (casi tres veces más) que otras, lo que demuestra el comportamiento inherentemente discriminatorio del modelo. Por ejemplo, la toxicidad varía según el género de una persona y es aproximadamente un 50% más alta que la toxicidad basada en la raza. Estas tendencias fluctuantes podrían ser perjudiciales para los usuarios y denigratorias para la persona en cuestión. Además, los usuarios malintencionados pueden construir tecnologías en ChatGPT para generar contenido que pueda dañar a una audiencia desprevenida.

El análisis de la toxicidad de ChatGPT en este estudio reveló principalmente tres cosas: el modelo puede ser significativamente más tóxico cuando se le asignan “personas” (hasta seis veces más tóxico que el predeterminado), la toxicidad del modelo varía mucho según la identidad de la “persona”, y la opinión de ChatGPT sobre la “persona” juega un papel importante; y ChatGPT puede dirigirse discriminatoriamente a entidades específicas siendo más tóxico al crear contenido sobre ellas. Los investigadores también señalaron que, aunque ChatGPT fue el LLM que utilizaron para su experimento, su metodología podría extenderse a cualquier otro LLM. El equipo espera que su trabajo motive a la comunidad de IA a desarrollar tecnologías que proporcionen sistemas de IA éticos, seguros y confiables.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Noticias de Inteligencia Artificial

Google respalda la creación de clínicas de ciberseguridad con una donación de $20 millones.

El CEO de Google, Sundar Pichai, se comprometió a donar $20 millones para apoyar y expandir el Consorcio de Clínicas ...

Inteligencia Artificial

Investigadores de IA de Google presentan Pic2Word Un nuevo enfoque para la recuperación de imágenes compuestas sin disparo (ZS-CIR)

La recuperación de imágenes es un proceso complejo si intentamos representarlo con precisión. Muchos científicos de i...

Inteligencia Artificial

Dispositivo óptico portátil muestra promesa para detectar hemorragias postparto

Un dispositivo óptico portátil desarrollado por investigadores de la Universidad de Washington en St. Louis (WashU) p...

Aprendizaje Automático

CEO de NVIDIA Los creadores serán potenciados por la IA generativa.

La inteligencia artificial generativa “potenciará” a los creadores en todas las industrias y tipos de con...