Estudio Los modelos de IA no logran reproducir los juicios humanos sobre violaciones de reglas.

AI models cannot reproduce human judgments on rule violations.

Los investigadores informan que los modelos entrenados utilizando técnicas comunes de recolección de datos juzgan las violaciones de reglas con más severidad de lo que lo harían los humanos.

Researchers have found that machine-learning models trained to mimic human decision-making often suggest harsher judgements than humans would. They found that the way data were gathered and labeled impacts how accurately a model can be trained to judge whether a rule has been violated.

En un esfuerzo por mejorar la equidad o reducir los retrasos, los modelos de aprendizaje automático a veces están diseñados para imitar la toma de decisiones humanas, como decidir si las publicaciones en las redes sociales violan las políticas de contenido tóxico.

Pero investigadores del MIT y otros lugares han descubierto que estos modelos a menudo no replican las decisiones humanas sobre las violaciones de reglas. Si los modelos no están entrenados con los datos correctos, es probable que tomen juicios diferentes y a menudo más severos que los humanos.

En este caso, los datos “correctos” son aquellos que han sido etiquetados por humanos que se les preguntó explícitamente si los elementos desafían una cierta regla. El entrenamiento implica mostrar a un modelo de aprendizaje automático millones de ejemplos de estos datos “normativos” para que pueda aprender una tarea.

Pero los datos utilizados para entrenar modelos de aprendizaje automático suelen estar etiquetados descriptivamente, lo que significa que se les pide a los humanos que identifiquen características factuales, como la presencia de comida frita en una foto. Si se usan “datos descriptivos” para entrenar modelos que juzgan violaciones de reglas, como si una comida viola una política escolar que prohíbe la comida frita, los modelos tienden a sobrepredicir las violaciones de reglas.

Esta disminución en la precisión podría tener serias implicaciones en el mundo real. Por ejemplo, si se utiliza un modelo descriptivo para tomar decisiones sobre si un individuo es probable que reincida, los hallazgos de los investigadores sugieren que puede emitir juicios más estrictos que un humano, lo que podría llevar a montos de fianza más altos o a sentencias criminales más largas.

“Creo que la mayoría de los investigadores de inteligencia artificial / aprendizaje automático asumen que los juicios humanos en los datos y etiquetas están sesgados, pero este resultado está diciendo algo peor. Estos modelos ni siquiera están reproduciendo juicios humanos ya sesgados porque los datos en los que se están entrenando tienen un defecto: los humanos etiquetarían las características de imágenes y texto de manera diferente si supieran que esas características se utilizarían para un juicio. Esto tiene enormes ramificaciones para los sistemas de aprendizaje automático en los procesos humanos”, dice Marzyeh Ghassemi, profesora asistente y jefa del grupo Healthy ML en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL).

Ghassemi es autora principal de un nuevo artículo que detalla estos hallazgos, que se publicó hoy en Science Advances. Se unen a ella en el artículo la autora principal Aparna Balagopalan, estudiante de posgrado en ingeniería eléctrica e informática; David Madras, estudiante de posgrado en la Universidad de Toronto; David H. Yang, ex estudiante de posgrado que ahora es cofundador de ML Estimation; Dylan Hadfield-Menell, profesor asistente del MIT; y Gillian K. Hadfield, Cátedra Schwartz Reisman en Tecnología y Sociedad y profesora de derecho en la Universidad de Toronto.

Discrepancia en la etiquetación

Este estudio surgió de un proyecto diferente que exploró cómo un modelo de aprendizaje automático puede justificar sus predicciones. Mientras recopilaban datos para ese estudio, los investigadores notaron que a veces los humanos dan respuestas diferentes si se les pide que proporcionen etiquetas descriptivas o normativas sobre los mismos datos.

Para recopilar etiquetas descriptivas, los investigadores piden a los etiquetadores que identifiquen características factuales: ¿contiene este texto lenguaje obsceno? Para recopilar etiquetas normativas, los investigadores dan a los etiquetadores una regla y preguntan si los datos violan esa regla: ¿viola este texto la política de lenguaje explícito de la plataforma?

Sorprendidos por este hallazgo, los investigadores lanzaron un estudio de usuarios para profundizar. Reunieron cuatro conjuntos de datos para imitar diferentes políticas, como un conjunto de datos de imágenes de perros que podrían violar la regla de un apartamento contra razas agresivas. Luego pidieron a grupos de participantes que proporcionaran etiquetas descriptivas o normativas.

En cada caso, se les pidió a los etiquetadores descriptivos que indicaran si tres características factuales estaban presentes en la imagen o el texto, como si el perro parece agresivo. Luego se utilizaron sus respuestas para elaborar juicios. (Si un usuario dijo que una foto contenía un perro agresivo, entonces se violaba la política). Los etiquetadores no conocían la política de mascotas. Por otro lado, a los etiquetadores normativos se les dio la política que prohibía los perros agresivos, y luego se les preguntó si se había violado cada imagen y por qué.

Los investigadores descubrieron que los humanos eran significativamente más propensos a etiquetar un objeto como una violación en el entorno descriptivo. La disparidad, que calcularon utilizando la diferencia absoluta en las etiquetas en promedio, osciló entre el 8 por ciento en un conjunto de datos de imágenes utilizado para juzgar las violaciones del código de vestimenta y el 20 por ciento para las imágenes de perros.

“Si bien no probamos explícitamente por qué sucede esto, una hipótesis es que tal vez la forma en que las personas piensan sobre las violaciones de reglas es diferente de cómo piensan sobre los datos descriptivos. En general, las decisiones normativas son más indulgentes”, dice Balagopalan.

Sin embargo, los datos generalmente se recopilan con etiquetas descriptivas para entrenar un modelo para una tarea de aprendizaje automático en particular. Estos datos a menudo se reutilizan más tarde para entrenar diferentes modelos que realizan juicios normativos, como violaciones de reglas.

Problemas de entrenamiento

Para estudiar los posibles impactos de la reutilización de datos descriptivos, los investigadores entrenaron dos modelos para juzgar violaciones de reglas usando una de sus cuatro configuraciones de datos. Entrenaron un modelo usando datos descriptivos y el otro usando datos normativos, y luego compararon su rendimiento.

Descubrieron que si se utilizan datos descriptivos para entrenar un modelo, tendrá un rendimiento inferior a un modelo entrenado para realizar los mismos juicios utilizando datos normativos. Específicamente, el modelo descriptivo es más propenso a clasificar incorrectamente las entradas al predecir falsamente una violación de la regla. Y la precisión del modelo descriptivo fue aún menor al clasificar objetos sobre los que los etiquetadores humanos no estaban de acuerdo.

“Esto muestra que los datos realmente importan. Es importante que coincida el contexto de entrenamiento con el contexto de implementación si está entrenando modelos para detectar si se ha violado una regla”, dice Balagopalan.

Puede ser muy difícil para los usuarios determinar cómo se han recopilado los datos; esta información puede estar enterrada en el apéndice de un artículo de investigación o no ser revelada por una empresa privada, dice Ghassemi.

Mejorar la transparencia del conjunto de datos es una forma en que se podría mitigar este problema. Si los investigadores saben cómo se recopilaron los datos, entonces saben cómo se deben usar esos datos. Otra estrategia posible es ajustar finamente un modelo entrenado de manera descriptiva en una pequeña cantidad de datos normativos. Esta idea, conocida como transferencia de aprendizaje, es algo que los investigadores quieren explorar en trabajos futuros.

También quieren realizar un estudio similar con etiquetadores expertos, como médicos o abogados, para ver si conduce a la misma disparidad de etiquetas.

“La forma de solucionar esto es reconocer de manera transparente que si queremos reproducir el juicio humano, solo debemos usar datos que se recopilaron en ese entorno. De lo contrario, terminaremos con sistemas que tendrán moderaciones extremadamente duras, mucho más duras de lo que harían los humanos. Los humanos verían matices o harían otra distinción, mientras que estos modelos no”, dice Ghassemi.

Esta investigación fue financiada, en parte, por el Schwartz Reisman Institute for Technology and Society, Microsoft Research, el Vector Institute y un Canada Research Council Chain.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

Creando Operaciones de Aprendizaje Automático para Empresas

En mi carrera, he notado que la clave para estrategias exitosas de inteligencia artificial radica en la capacidad de ...

Inteligencia Artificial

Lanzando un gato entre las palomas? Aumentando la computación humana con modelos de lenguaje grandes

Siempre me ha fascinado la etimología. Más a menudo que no, hay una historia intrigante detrás de cómo las palabras y...

Inteligencia Artificial

Matemáticos encuentran 12,000 soluciones para el problema de los tres cuerpos

Los matemáticos han identificado 12,392 nuevas disposiciones orbitales estables para tres objetos permitidas por las ...

Inteligencia Artificial

Cultivando una carrera en datos en la era de la IA generativa

El conocimiento fundamental que todo nuevo profesional de datos debería tener para desarrollar su carrera en la era d...

Inteligencia Artificial

La estructura más resistente conocida descubierta por el Laboratorio de Robots Autónomos

El laboratorio de robótica experimental autónoma basada en la teoría de Bayes de la Universidad de Toronto en Canadá ...

Inteligencia Artificial

Centros de datos en riesgo debido a fallas en el software de gestión de energía

Los investigadores de ciberseguridad en Trellix han identificado vulnerabilidades en aplicaciones comúnmente utilizad...