AI Sesgo Desafíos y Soluciones

'AI Sesgo Desafíos y Soluciones'

Cuando se alimenta a los modelos de IA con datos de entrenamiento que contienen sesgos, los resultados también serán sesgados. ¶ Crédito: thenextweb.com

El sesgo en la inteligencia artificial (IA) no es un problema nuevo. En 1988, la Comisión para la Igualdad Racial del Reino Unido (ahora la Comisión para la Igualdad y los Derechos Humanos) descubrió que la Escuela de Medicina St. George en Londres había discriminado por motivos raciales y sexuales “a través de la operación de un programa informático entre 1982 y 1986”. El algoritmo, diseñado para automatizar el proceso de admisiones, asignaba pesos negativos a los “nombres no caucásicos” y a los de las solicitantes femeninas.

Durante décadas, el sesgo de la IA fue principalmente un problema técnico difícil discutido por investigadores y desarrolladores. Ahora, gracias en parte a la asombrosa adopción popular de la IA generativa, las conversaciones sobre el sesgo se han trasladado al ámbito público. La arena está animada, por decir lo menos: se están recopilando enormes volúmenes de datos para entrenar modelos, algunas tecnologías son de código abierto, otras son cajas negras, y las divisiones sociales y las volátiles “guerras culturales” añaden tensiones al diálogo.

Los formuladores de políticas han comenzado a tomar medidas, y aspectos de la propuesta Ley de IA de la Unión Europea, como la transparencia y la explicabilidad, es probable que tengan un impacto en el sesgo, y en los Estados Unidos, el Instituto Nacional de Estándares y Tecnología ha publicado su “primer paso en la hoja de ruta para desarrollar una orientación socio-técnica detallada para identificar y manejar el sesgo de la IA”.

Sin embargo, aún no existen estándares universales para abordar el sesgo de la IA.

Incorporado desde el principio

El sesgo en la IA es “el sesgo humano que está incorporado en los algoritmos, los sistemas de aprendizaje automático y los sistemas computacionales”, explica Yeshimabeit Milner, fundadora y directora ejecutiva de Data for Black Lives (D4BL), que se describe a sí misma como “un movimiento de activistas, organizadores y científicos comprometidos con la misión de utilizar datos para crear cambios concretos y medibles en las vidas de las personas negras”. Cuando se alimenta a los modelos de IA con datos de entrenamiento que contienen sesgos, los resultados también serán sesgados. Según Milner, “usando el viejo adagio de la informática: lo que entra basura, lo que sale basura”.

Milner dice que el sesgo no se trata solo de percepciones, sino también de narrativas que se arraigan en las políticas y luego “se incorporan al código”. Señala cómo el uso de los códigos postales de EE.UU. en la calificación crediticia impulsada por el aprendizaje automático, introducida por FICO en 1989, ha perjudicado a las comunidades negras. Si bien la calificación crediticia no tiene una variable para la raza, el sistema de códigos postales puede sustituir a la raza, ya que refleja las políticas de discriminación y segregación de la década de 1930, explica Milner. “Los códigos postales se han convertido en un sustituto de la raza. Si le preguntas a alguien dónde vive, por su código postal, puedes predecir más allá de toda duda razonable de qué raza es”.

Sanmay Das es codirector del Centro para el Avance de la Asociación Humanomáquina en la Universidad George Mason y presidente del Grupo de Interés Especial en Inteligencia Artificial de la ACM (SIGAI de la ACM). Al igual que Milner, Das destaca la calificación crediticia basada en el aprendizaje automático como ejemplo de los peligros del sesgo, y añade que a medida que la IA se incorpora cada vez más a la sociedad, las lagunas en los datos contribuyen al problema. Estas lagunas ocurren cuando grupos de personas, a menudo de comunidades marginadas, han sido descuidados o excluidos durante los procesos de recopilación de datos, o cuando simplemente no existen datos sobre grupos específicos. Los modelos entrenados con dichos datos es probable que produzcan resultados sesgados o distorsionados como resultado.

Das dice que los investigadores de IA no son “tan buenos” como los científicos sociales para pensar en las muestras, y a menudo recurren a la extracción de datos web por velocidad y conveniencia. “Si voy y obtengo todo lo que está sucediendo en la web para entrenar un chatbot, obtendré algo que es muy diferente de la sociedad humana en su conjunto”. El contenido en inglés o generado en lo que Das llama “salas de chat tóxicas” es probable que esté sobrerrepresentado debido al gran volumen de cada uno en línea, explica.

Phoenix Perry, artista e investigadora de IA en el Instituto de Computación Creativa de la Universidad College London del Reino Unido, compara el sesgo con preparar una comida con “ingredientes contaminados”, en este caso, datos, cargados con sesgos prevalentes en línea, como el racismo, el sexismo y la transfobia. “Si los datos o los ‘ingredientes’ están defectuosos, no importa cuánta destreza computacional o aprendizaje automático avanzado se aplique, no se podrá rectificar el producto resultante. Este resultado contaminado refleja sesgos perjudiciales en la sociedad y perpetúa su existencia”, dice Perry.

Incluso si los datos de entrenamiento no están sesgados, pueden surgir problemas debido a los sesgos propios de los entrenadores de modelos, un problema que se ve exacerbado por el menor porcentaje de mujeres que hombres que trabajan en IA, según Arisa Ema del Instituto para Futuras Iniciativas de la Universidad de Tokio y el Centro RIKEN para el Proyecto de Inteligencia Avanzada. “Este sesgo en nuestra estructura social ya crea un sesgo en la comunidad de diseñadores y en la selección de algoritmos y datos”.

Buenos datos y enfoque de base

Si el sesgo está “incorporado”, ¿cómo se puede combatir?

Algunas soluciones adoptan un enfoque centrado en el sector. El equipo del proyecto STANDING Together, liderado por investigadores de la Trust del NHS de la Universidad de Birmingham y la Universidad de Birmingham del Reino Unido, está desarrollando estándares para conjuntos de datos diversos para la atención médica de IA que representen mejor a la sociedad.

En un contexto legal, en la conferencia FAccT 2022 de ACM, un equipo del Centro de Investigación y Tecnología de Hellas (CERTH) en Grecia, el Centro de Derecho de IT y PI en Bélgica y los especialistas en IA ética de Trilateral Research con sede en el Reino Unido, presentaron un nuevo enfoque para la IA de conciencia de equidad para mitigar el sesgo algorítmico en la aplicación de la ley. Los investigadores utilizaron muestras generadas sintéticamente para crear conjuntos de datos “más equilibrados” que mitigaron instancias de sesgo, en relación con la raza, que identificaron durante el análisis de los datos existentes.

Para Milner, las soluciones radican en la participación de la comunidad y en replantear la recopilación de datos, áreas en las que D4BL tiene experiencia en instigar cambios. Durante la pandemia, el equipo lideró la demanda de liberar datos a nivel estatal por raza para investigar el impacto desproporcionado de COVID-19 en las personas negras y trabajó con científicos de datos voluntarios para construir la base de código para hacerlo. “Cada portal de datos abiertos que publicó datos de COVID-19 proporcionó automáticamente actualizaciones en tiempo real sobre las tasas de muerte e infección de las comunidades negras por estado; eso fue una herramienta realmente poderosa”, dice.

Milner es optimista sobre el potencial de la IA para lograr “tremendos avances”. Sin embargo, para que todos se beneficien, el poder de los datos debe ser devuelto “a manos de las personas”, dice. Las conversaciones sobre IA tienden a ser elitistas, dice; las soluciones implican involucrar a organizaciones de base y “cambiar el elenco de personajes” que toman decisiones. “Se trata de llevar a las personas a la mesa, literalmente, construyendo un movimiento de científicos activistas, comunidades negras y la comunidad científica”, dice Milner.

Como artista, Perry aporta una perspectiva novedosa, abogando por el uso de conjuntos de datos a pequeña escala para combatir el sesgo y facilitar una mayor influencia humana en la IA generativa, especialmente en contextos creativos. “La ventaja única de estos conjuntos de datos es su naturaleza altamente personalizada”, dice Perry, quien también respalda la regulación formal para frenar el uso de sesgos “para explotar o introducir sesgos en conjuntos de datos con fines de lucro, una práctica ya evidente en las redes sociales”.

El fundador y CEO de Stability AI, Emad Mostaque, también ha señalado las ventajas de los conjuntos de datos más pequeños. Hablando recientemente en el programa de la BBC “Sunday with Laura Kuenssberg”, Mostaque dijo: “No utilicen todo Internet rastreado, utilicen conjuntos de datos nacionales altamente curados y que reflejen la diversidad de la humanidad en lugar de Internet occidental como lo vemos. Estos modelos tienen más probabilidades de ser estables; tienen más probabilidades de estar alineados con los humanos”.

Das está de acuerdo con Perry en que es hora de regular. “Las empresas tienen que enfrentar algún tipo de escrutinio sobre las cosas que están haciendo y lanzando al mundo”, dice, señalando los sistemas regulatorios existentes en el desarrollo de medicamentos y la ingeniería genética como ejemplos. “Tenemos que pensar en tener un aparato que tenga cierta autoridad; que pueda incentivar salvaguardias adecuadas”.

Es probable que haya nuevos enfoques para la recopilación de datos y el entrenamiento de modelos, y una mayor regulación del sesgo de IA; si los desarrolladores y los responsables de la formulación de políticas se mantendrán al ritmo de los avances es menos seguro.

Karen Emslie es una periodista y ensayista independiente con ubicación flexible.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

artificial intelligencecomputer applicationscomputers and societylegal aspectsmanagementperformance and reliabilitysoftwaretheory

Was this article helpful?

93 out of 132 found this helpful

AI Sesgo Desafíos y Soluciones

Was this article helpful?

¿Qué tan fácil es engañar a las herramientas de detección de inteligencia artificial?

Las ventas de automóviles nuevos despegan a medida que se alivia la escasez de chips.

Inteligencia Artificial

Desbloqueando el potencial de la IA con MINILM Una inmersión profunda en la destilación del conocimiento de modelos de lenguaje más grandes a contrapartes más pequeñas.

Los satélites más antiguos de observación de la Tierra de NOAA obtienen 'vida prolongada

La actualización de Super Resolución de Video NVIDIA RTX mejora la calidad del video, preserva los detalles y se expande a las GPU de la serie GeForce RTX 20'.

Investigadores de UC Berkeley presentan Video Prediction Rewards (VIPER) un algoritmo que aprovecha los modelos de predicción de video preentrenados como señales de recompensa sin acción para el aprendizaje por refuerzo.

OpenAI presenta DALL·E 3 Un salto revolucionario en la generación de texto a imagen

Científicos simulan la guerra de las hormigas utilizando el juego de ordenador Age of Empires