Un grupo de investigación de CMU, AI2 y la Universidad de Washington presenta NLPositionality un marco de inteligencia artificial para caracterizar sesgos de diseño y cuantificar la posicionamiento de conjuntos de datos y modelos de procesamiento del lenguaje natural (NLP).
Un grupo de investigación presenta NLPositionality, un marco de IA para caracterizar sesgos de diseño y cuantificar el posicionamiento de conjuntos de datos y modelos de procesamiento del lenguaje natural (NLP).
La posición de los investigadores, sus perspectivas formadas por su propia experiencia, identidad, cultura y antecedentes, influye en sus decisiones de diseño al desarrollar conjuntos de datos y modelos de PLN.
Las elecciones de diseño latentes y la posición del investigador son dos fuentes de sesgo de diseño en la producción de conjuntos de datos y modelos. Esto conduce a discrepancias en el funcionamiento de los conjuntos de datos y modelos para diferentes poblaciones. Sin embargo, al imponer los estándares de un grupo al resto del mundo, pueden ayudar a mantener las desigualdades sistémicas. La dificultad surge debido a la gran variedad de decisiones de diseño que deben tomarse, y solo un subconjunto de estas decisiones puede registrarse al construir conjuntos de datos y modelos. Además, muchos modelos ampliamente utilizados en producción no se exponen fuera de las APIs, lo que dificulta caracterizar los sesgos de diseño directamente.
Investigaciones recientes de la Universidad de Washington, la Universidad Carnegie Mellon y el Instituto Allen para la IA presentan NLPositionality, un paradigma para describir la posicionabilidad y los sesgos de diseño de los conjuntos de datos y modelos de procesamiento de lenguaje natural (PLN). Los investigadores reclutan una comunidad global de voluntarios de diversos orígenes culturales y lingüísticos para anotar una muestra del conjunto de datos. A continuación, miden los sesgos en el diseño al contrastar diferentes identidades y contextos para ver cuáles están más en línea con las etiquetas originales del conjunto de datos o las predicciones del modelo.
- La inteligencia artificial ayuda a los robots domésticos a reducir a la mitad el tiempo de planificación
- UE busca liderar en el mundo del Metaverso y evitar la dominación de las grandes empresas tecnológicas
- El próximo guardia de seguridad de tu escuela podría ser un robot
NLPositionality tiene tres beneficios sobre otros métodos (como la contratación de multitudes remuneradas o experimentos en laboratorio):
- En comparación con otras plataformas de contratación de multitudes y estudios de laboratorio convencionales, LabintheWild tiene una población de participantes más diversa.
- En lugar de depender de la remuneración monetaria, este método se basa en el deseo intrínseco de los participantes de crecer expandiendo su autoconciencia. Las posibilidades de aprendizaje para los participantes aumentan, y la calidad de los datos mejora en comparación con las plataformas de contratación de multitudes remuneradas. Por lo tanto, a diferencia de los estudios pagados únicos como los que se encuentran en otras investigaciones, esta plataforma puede recopilar libremente nuevas anotaciones y reflejar observaciones más recientes de los sesgos de diseño durante períodos prolongados.
- Este método no requiere que se apliquen etiquetas o predicciones preexistentes a ningún conjunto de datos o modelo posteriormente.
Los investigadores utilizan NLPositionality en dos ejemplos de tareas de PLN conocidas por tener sesgos en su diseño: aceptabilidad social y detección de discurso de odio. Observan modelos de lenguaje grandes específicos de la tarea y generales (es decir, GPT-4) y los conjuntos de datos y modelos supervisados asociados. En promedio, 1,096 anotadores de 87 países han contribuido con 38 anotaciones al día para un total de 16,299 anotaciones hasta el 25 de mayo de 2023. El equipo encontró que los millennials blancos con educación universitaria de países de habla inglesa, un subconjunto de las poblaciones “WEIRD” (occidentales, educadas, industrializadas, ricas, democráticas), son los más adecuados para los conjuntos de datos y modelos que examinan. La importancia de recopilar datos y anotaciones de una amplia variedad de fuentes también se destaca mediante su observación de que los conjuntos de datos muestran altos niveles de alineación con sus anotadores originales. Sus hallazgos indican la necesidad de expandir la investigación de PLN para incluir modelos y conjuntos de datos más diversos.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Entropía de IA El círculo vicioso del contenido generado por IA
- Potencia tu código en Python con extensiones de Rust
- Araucana XAI Explicabilidad Local con Árboles de Decisión para la Salud
- Revisión de Pictory (julio de 2023) ¿El mejor generador de video de IA?
- Kevin Baragona, Co-Fundador y CEO de DeepAI – Serie de Entrevistas
- Un novedoso modelo de aprendizaje automático acelera la evaluación de catalizadores de descarbonización de meses a milisegundos
- Un estudio encuentra que ChatGPT aumenta la productividad de los trabajadores en algunas tareas de escritura