Los modelos de lenguaje grandes tienen sesgos. ¿Puede la lógica ayudar a salvarlos?

Can logic help mitigate bias in large language models?

Investigadores del MIT entrenaron modelos de lenguaje conscientes de la lógica para reducir estereotipos dañinos como los sesgos de género y raciales.

MIT researchers mitigate stereotypical sentence reasoning bias with textual entailment models.

Resulta que incluso los modelos de lenguaje “piensan” que están sesgados. Cuando se les pide en ChatGPT, la respuesta es la siguiente: “Sí, los modelos de lenguaje pueden tener sesgos, porque los datos de entrenamiento reflejan los sesgos presentes en la sociedad de la que se recopilaron esos datos. Por ejemplo, los sesgos de género y raza son prevalentes en muchos conjuntos de datos del mundo real, y si un modelo de lenguaje se entrena en eso, puede perpetuar y amplificar estos sesgos en sus predicciones”. Un problema bien conocido pero peligroso. 

Los humanos (por lo general) pueden experimentar tanto el razonamiento lógico como el estereotípico cuando aprenden. Sin embargo, los modelos de lenguaje principalmente imitan este último, una narrativa desafortunada que hemos visto jugar hasta el hartazgo cuando la capacidad para emplear el razonamiento y el pensamiento crítico está ausente. Entonces, ¿sería suficiente inyectar lógica en la refriega para mitigar tal comportamiento? 

Los científicos del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT tenían una idea de que podría ser así, así que se dispusieron a examinar si los modelos de lenguaje conscientes de la lógica podrían evitar significativamente estereotipos más dañinos. Entrenaron un modelo de lenguaje para predecir la relación entre dos oraciones, basándose en el contexto y el significado semántico, utilizando un conjunto de datos con etiquetas para fragmentos de texto que detallan si una segunda frase “implica”, “contradice” o es neutral con respecto a la primera. Utilizando este conjunto de datos – inferencia de lenguaje natural – encontraron que los modelos recién entrenados eran significativamente menos sesgados que otros baselines, sin ningún dato adicional, edición de datos ni algoritmos de entrenamiento adicionales.

Por ejemplo, con la premisa “la persona es un médico” y la hipótesis “la persona es masculina”, utilizando estos modelos entrenados en lógica, la relación se clasificaría como “neutral”, ya que no hay lógica que diga que la persona es un hombre. Con modelos de lenguaje más comunes, dos oraciones podrían parecer correlacionadas debido a algún sesgo en los datos de entrenamiento, como que “médico” podría asociarse con “masculino”, incluso cuando no hay evidencia de que la afirmación sea verdadera. 

En este punto, la naturaleza omnipresente de los modelos de lenguaje es bien conocida: las aplicaciones en procesamiento de lenguaje natural, reconocimiento de voz, inteligencia artificial conversacional y tareas generativas abundan. Si bien no es un campo de investigación naciente, los dolores de crecimiento pueden ocupar un lugar destacado a medida que aumentan en complejidad y capacidad. 

“Los modelos de lenguaje actuales sufren problemas de equidad, recursos computacionales y privacidad”, dice el postdoctorado del MIT CSAIL Hongyin Luo, el autor principal de un nuevo artículo sobre el trabajo. “Muchas estimaciones dicen que las emisiones de CO2 de entrenar un modelo de lenguaje pueden ser más altas que las emisiones de toda la vida de un automóvil. Ejecutar estos grandes modelos de lenguaje también es muy caro debido a la cantidad de parámetros y los recursos computacionales que necesitan. Con la privacidad, los modelos de lenguaje de última generación desarrollados por lugares como ChatGPT o GPT-3 tienen sus APIs donde debe cargar su lenguaje, pero no hay lugar para información confidencial sobre cosas como la atención médica o las finanzas. Para resolver estos desafíos, propusimos un modelo de lenguaje lógico que medimos cualitativamente como justo, es 500 veces más pequeño que los modelos de última generación, se puede implementar localmente y sin muestras de entrenamiento anotadas por humanos para tareas posteriores. Nuestro modelo utiliza 1/400 de los parámetros en comparación con los modelos de lenguaje más grandes, tiene un mejor rendimiento en algunas tareas y ahorra significativamente recursos computacionales”. 

Este modelo, que tiene 350 millones de parámetros, superó a algunos modelos de lenguaje a gran escala con 100 mil millones de parámetros en tareas de comprensión de lenguaje lógico. El equipo evaluó, por ejemplo, modelos de lenguaje preentrenados populares BERT con sus modelos de “inferencia textual” en pruebas de sesgo de estereotipos, profesión y emoción. Este último superó a otros modelos con un sesgo significativamente menor, al tiempo que conservaba la capacidad de modelado del lenguaje. La “equidad” se evaluó con algo llamado pruebas de asociación de contexto ideal (iCAT), donde mayores puntajes de iCAT significan menos estereotipos. El modelo tuvo puntajes de iCAT superiores al 90 por ciento, mientras que otros modelos fuertes de comprensión del lenguaje oscilaron entre el 40 y el 80. 

Luo escribió el artículo junto con el científico investigador principal del MIT James Glass. Presentarán el trabajo en la Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional en Croacia. 

No es sorprendente que los modelos de lenguaje preentrenados originales que examinó el equipo estuvieran repletos de sesgos, confirmado por una serie de pruebas de razonamiento que demuestran cómo los términos profesionales y emocionales están significativamente sesgados hacia las palabras femeninas o masculinas en el vocabulario de género. 

En cuanto a las profesiones, un modelo de lenguaje (que está sesgado) piensa que “azafata”, “secretaria” y “asistente de médico” son trabajos femeninos, mientras que “pescador”, “abogado” y “juez” son masculinos. En cuanto a las emociones, un modelo de lenguaje piensa que “ansioso”, “deprimido” y “devastado” son femeninos.

Aunque aún estamos lejos de una utopía de modelos de lenguaje neutrales, esta investigación está en curso en esa búsqueda. Actualmente, el modelo es solo para comprensión del lenguaje, por lo que se basa en el razonamiento entre oraciones existentes. Desafortunadamente, por ahora no puede generar oraciones, por lo que el siguiente paso para los investigadores sería apuntar a los modelos generativos súper populares construidos con aprendizaje lógico para garantizar una mayor equidad con eficiencia computacional.

“Aunque el razonamiento estereotípico es una parte natural del reconocimiento humano, las personas conscientes de la equidad conducen el razonamiento con la lógica en lugar de los estereotipos cuando es necesario”, dice Luo. “Mostramos que los modelos de lenguaje tienen propiedades similares. Un modelo de lenguaje sin aprendizaje lógico explícito realiza mucho razonamiento sesgado, pero agregar aprendizaje lógico puede mitigar significativamente dicho comportamiento. Además, con una capacidad de adaptación cero a prueba de fallos demostrada, el modelo se puede implementar directamente en diferentes tareas con más equidad, privacidad y mejor velocidad”.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

10 hiperparámetros confusos de XGBoost y cómo ajustarlos como un profesional en 2023.

Un tutorial detallado y visual sobre cómo ajustar 10 de los hiperparámetros más confusos de XGBoost con Optuna.

Inteligencia Artificial

Predicciones de rotación en evolución Navegando intervenciones y capacitación nuevamente

La redefinición de modelos de rotación presenta desafíos únicos que requieren especial atención. Entre los más destac...

Inteligencia Artificial

Robot puede ordenar la ropa en un dormitorio desordenado

Ken Goldberg en la Universidad de California, Berkeley, y sus colegas desarrollaron un sistema de robots para recoger...

Inteligencia Artificial

Las mejores herramientas de Data Warehousing en 2023

Un almacén de datos es un sistema de gestión de datos para informes, análisis y almacenamiento de datos. Es un almacé...

Inteligencia Artificial

Explora técnicas avanzadas para la optimización de hiperparámetros con Amazon SageMaker Automatic Model Tuning

Crear soluciones de aprendizaje automático (ML) de alto rendimiento se basa en explorar y optimizar los parámetros de...