Bias, Toxicidad y Desbloqueo de Grandes Modelos de Lenguaje (LLMs)

Bias, Toxicidad y Desbloqueo en los Grandes Modelos de Lenguaje (LLMs)

Una revisión de investigaciones recientes sobre características preocupantes de LLMs

La imagen destacada se deriva del video de Galton box de Wikimedia Commons (licencia Creative Commons Attribution-Share Alike 4.0 Internacional).

ADVERTENCIA DE CONTENIDO: Este artículo contiene ejemplos de texto sesgado y tóxico generado por LLMs.

Este artículo ofrece una inmersión profunda en investigaciones recientes sobre sesgos, toxicidad y desbloqueo de modelos de lenguaje grandes (LLMs, por sus siglas en inglés), especialmente ChatGPT y GPT-4. Discutiré las pautas éticas que las empresas están utilizando actualmente en el desarrollo de LLMs y los enfoques que utilizan para tratar de protegerse contra la generación de contenido indeseable. Luego revisaré artículos de investigación recientes que estudian la generación de contenido tóxico, el desbloqueo y el sesgo desde múltiples ángulos: género, raza, medicina, política, lugar de trabajo y ficción.

El sesgo se refiere a prejuicios a favor o en contra de un grupo, persona o cosa específica, mientras que la toxicidad se refiere a contenido irrespetuoso, vulgar, grosero o que promueve el daño. Los LLMs presentan sesgos y tienen la capacidad de generar contenido tóxico porque se entrenan con vastas cantidades de datos de Internet, que desafortunadamente representa tanto los aspectos buenos como los malos de la humanidad, incluidos todos nuestros sesgos y toxicidad. Afortunadamente, los desarrolladores de LLMs como OpenAI y Google han tomado medidas para reducir las posibilidades de que los LLMs produzcan contenido abiertamente sesgado o tóxico. Sin embargo, como veremos, eso no significa que los modelos sean perfectos, de hecho, los LLMs amplifican los sesgos existentes y mantienen la capacidad de generar contenido tóxico a pesar de las salvaguardias.

El proceso de “desbloqueo” se refiere a darle a un LLM provocaciones especialmente desafiantes o provocativas para explotar los sesgos existentes del modelo y su capacidad existente para generar contenido tóxico, con el fin de obtener resultados del LLM que violen las políticas de contenido de la empresa. Los investigadores que estudian el desbloqueo lo hacen para alertar a las empresas sobre las vulnerabilidades de los LLMs, para que las empresas puedan fortalecer las salvaguardias que han implementado y reducir la probabilidad de que los modelos sean desbloqueados en el futuro. La investigación de desbloqueo es similar al hacking ético, en el que los hackers descubren debilidades en el sistema para repararlos, lo que resulta en una mayor seguridad del sistema.

Las personas interesadas en los LLMs desde una perspectiva personal o profesional pueden beneficiarse de la lectura de este artículo, incluidos los entusiastas de la IA que tienen…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Bias, Toxicidad y Desbloqueo de Grandes Modelos de Lenguaje (LLMs)

Una revisión de investigaciones recientes sobre características preocupantes de LLMs

Was this article helpful?

Leonardo AI El Nuevo Competidor de Midjourney

Científicos desarrollan una forma más eficiente de transmitir datos entre dispositivos

Inteligencia Artificial

Aprendizaje Automático de Grafos @ ICML 2023

Científicos recrean canción de Pink Floyd leyendo las señales cerebrales de los oyentes

Investigadores de la Universidad de Toronto presentan scGPT un modelo base para Biología de Células Individuales basado en Generative Pre-Trained Transformer a través de un repositorio de más de 33 millones de células.

Calculadora de números determina si las ballenas están actuando de manera extraña

Microsoft Research presenta phi-1 un nuevo modelo de lenguaje grande especializado en la codificación de Python con un tamaño significativamente más pequeño que los modelos competidores.

Investigadores de la Universidad de UT Austin presentan PSLD Un método de IA que utiliza difusión estable para resolver todos los problemas lineales sin necesidad de entrenamiento adicional.