Lanzando un gato entre las palomas? Aumentando la computación humana con modelos de lenguaje grandes

Lanzando un gato entre las palomas? Aumentando la computación humana con modelos de lenguaje grandes' can be condensed to 'Aumentando la computación humana con modelos de lenguaje grandes

La era de la inteligencia artificial generativa ofrece oportunidades para mejorar el trabajo en equipo y no necesariamente reemplazarlo

Foto de Steve Johnson en Unsplash

Siempre me ha fascinado la etimología. La mayoría de las veces, hay una historia intrigante detrás de cómo las palabras y frases han adquirido los significados con los que estamos tan familiarizados. Transformándose a través de las edades y mezclándose con los tiempos cambiantes. El Turco Mecánico fue una máquina humanoida de ajedrez creada por un autor e inventor húngaro, Wolfgang von Kempelen, en el siglo XVIII. La historia cuenta que el Turco Mecánico recorrió Europa y humilló a nombres notables como Napoleón Bonaparte y Benjamin Franklin en batallas legendarias de ajedrez. Solo más tarde se reveló el secreto en forma de un genio del ajedrez humano real escondido a la vista en un gabinete debajo del piso, desde donde controlaba los movimientos realizados por el humanoide.

Esta historia fue la inspiración detrás del nombre de la plataforma de crowdsourcing Amazon Mechanical Turk lanzada en 2005. La plataforma fue diseñada para resolver tareas que no podían ser resueltas por alternativas contemporáneas y requerían aportes o inteligencia humana. Fue en este contexto que surgió y tomó forma la noción de “inteligencia artificial artificial”, en la cual los humanos sirven como fuente de inteligencia cuando está más allá de las capacidades de las máquinas. Hemos recorrido un largo camino desde entonces, hasta el umbral de una nueva noción de “inteligencia artificial artificial artificial”. Sí, leíste bien. Tres artificiales. Antes de intentar descifrar esta nuez con tu frente, hagamos un rápido recorrido por algunos recuerdos.

Los primeros días del crowdsourcing

En su libro llamado “La sabiduría de las multitudes” publicado en 2004, James Surowiecki exploró y sintetizó los atributos necesarios para formar una multitud sabia, una que a menudo puede tomar decisiones mejores que cualquier individuo en la multitud. Identificó la diversidad de opiniones, la independencia en el juicio y el conocimiento descentralizado como atributos vitales para lograr ese fin. En 2006, Jeff Howe acuñó el término crowdsourcing como una fusión de las palabras “multitudes” y “externalización” en un artículo que escribió para la revista Wired sobre “El auge del crowdsourcing”. Habló sobre cómo las empresas habían comenzado a aprovechar las capacidades colectivas de las comunidades en línea distribuidas a través de convocatorias abiertas para llevar a cabo ciertas tareas.

Amazon Mechanical Turk prosperó después de su lanzamiento inicial, y en pocos años, cientos de miles de personas en todo el mundo encontraron una oportunidad para ganarse la vida completando tareas en la plataforma. Esto impulsó el crecimiento de plataformas de crowdsourcing en todo el mundo, forjando y afianzando una nueva economía de trabajo en equipo en línea de microtareas. Investigadores y profesionales comenzaron a depender de plataformas de crowdsourcing para completar diversas tareas y demostraron que incluso las tareas altamente complejas podían ser descompuestas y realizadas por equipos. Se propusieron sistemas y herramientas para apoyar a los trabajadores en equipo en la finalización efectiva de tareas.

En 2009, el lanzamiento de ImageNet impulsó todo el campo del aprendizaje automático. Con más de 3.2 millones de imágenes en 12 subárboles con más de cinco mil synsets, fue un monumental esfuerzo de recopilación de datos utilizando crowdsourcing a través de Amazon Mechanical Turk [1]. Esto brindó una oportunidad sin precedentes para el progreso en varias tareas de visión por computadora, incluido el reconocimiento de objetos y la clasificación de imágenes.

No olvidemos que este progreso vino con un gran conjunto de pruebas y tribulaciones. Muchos sintieron los temblores de los peligros asociados con depender de datos generados por humanos, propensos a sesgos cognitivos y sistemáticos. En 2013, un grupo de investigadores bien conocidos en la comunidad de crowdsourcing escribió un artículo llamado “El futuro del trabajo en equipo”, en el que reflexionaban sobre el estado del paradigma y la serie de desafíos que necesitaban una atención inmediata [2]. Muchos de estos desafíos todavía siguen sin resolverse 10 años después, a pesar de una cantidad significativa de progreso. Ha habido problemas bien documentados relacionados con la calidad de los datos recopilados (por ejemplo, la propagación de sesgos), la asimetría de poder en las plataformas, los bajos salarios por hora, el rechazo injusto del trabajo, el trabajo invisible, entornos de trabajo poco saludables y la lista continúa. A pesar de las debilidades de lo que algunos consideran un paradigma de trabajo fracturado, resultados notables marcan la línea de tiempo histórica y el poder del trabajo en equipo ha contribuido innegablemente a un ritmo de progreso tecnológico que solo unos pocos hubieran previsto.

La intrigante era de la IA generativa

Gran parte de los medios de comunicación convencionales en todo el mundo hoy en día se pierden en narrativas generales sobre la inteligencia artificial generativa y lo que puede significar la democratización de los grandes modelos de lenguaje. Muchas más vidas seguirán siendo impactadas por la inteligencia artificial de maneras esperadas e inesperadas. Y es el trabajo laborioso de los humanos detrás de escena lo que ha estado impulsando esta revolución de la inteligencia artificial en primer lugar. Si “escrutáramos las sombras de la inteligencia artificial, descubriríamos a los humanos que la impulsan”, como lo expresaron inolvidablemente Mary Gray y Sid Suri en Ghost Work [3].

Predicciones exageradas y titulares sensacionalistas han comparado el papel de los humanos en esta era con palomas ansiosas y han equiparado los modelos de lenguaje generativos a gatos audaces, con el gato metafórico perturbando a la bandada, haciendo que se dispersen. Pero, ¿qué significa realmente el inicio de esta nueva era de modelos de inteligencia artificial generativos para la contribución humana? ¿Se ha eliminado en su mayor parte la necesidad de la contribución humana en la formación de las tecnologías futuras? En el resto de este artículo, argumentaré que la respuesta a esto es un rotundo no y que el cambio principal que debemos esperar está en la naturaleza de la contribución humana que seguirá siendo necesaria.

Recientemente, coautoricé un documento de taller que explora cómo los flujos de trabajo de computación humana pueden aprovechar la aparición de modelos de inteligencia artificial generativos [4]. Este trabajo se presentó en el Taller de Inteligencia Artificial Generativa en la conferencia de HCI de primer nivel, ACM CHI 2023, celebrada en Hamburgo a principios de este año. Destacamos el papel potencial que los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) pueden desempeñar en la mejora de los flujos de trabajo de crowdsourcing existentes y discutimos cómo se pueden evaluar empíricamente dichos flujos de trabajo.

Una introducción a los flujos de trabajo de crowdsourcing

Los flujos de trabajo de crowdsourcing son patrones distintos que gestionan cómo las tareas a gran escala se descomponen en tareas más pequeñas para que las completen los trabajadores en masa. El procesador de texto impulsado por la multitud, Soylent, aplica el flujo de trabajo “Encontrar-Reparar-Verificar” para producir texto de alta calidad al separar las tareas en etapas de generación y revisión de texto. Esto permitió que “los escritores recurrieran a los trabajadores de Mechanical Turk para acortar, corregir y editar partes de sus documentos según la demanda [5].” El flujo de trabajo “Iterar y Votar” se ha utilizado para crear descripciones de imágenes, donde primero se pide a los trabajadores que escriban descripciones de imágenes (por ejemplo, con el objetivo final de ayudar a las personas ciegas). Luego, se utilizan tareas de votación posteriores para converger en una descripción óptima [6]. Se ha propuesto el flujo de trabajo “Map-Reduce” para “dividir el trabajo en tareas que se pueden hacer en paralelo, asignar tareas a los trabajadores y gestionar las dependencias entre ellas [7].” Compartiendo la misma esencia, se han propuesto herramientas como “CrowdWeaver” para gestionar flujos de trabajo complejos, apoyar el intercambio de datos entre tareas y proporcionar herramientas de monitoreo y capacidad de ajuste de tareas en tiempo real [8].

Impulsando los flujos de trabajo de crowdsourcing con LLMs

Es poco probable que la aparición de los modelos de lenguaje vuelva completamente mundanos esos flujos de trabajo, marcos y herramientas. Por el contrario, la comunidad de crowdsourcing está en una posición única para aprovechar los beneficios que los LLMs pueden aportar, basándose en décadas de investigación sobre flujos de trabajo eficaces, enfoques de humanos en bucle y conocimientos sobre la construcción de sistemas híbridos humanos-IA.

La perspectiva centrada en el ser humano para el desarrollo de tecnologías se centra en mejorar las experiencias humanas en la vida cotidiana y amplificar las habilidades de las personas. Si los LLMs realmente pueden ayudar a los trabajadores en masa a completar tareas, deberían ser adoptados e integrados de una manera que empodere a los trabajadores para completar tareas con mayor precisión y rapidez, o de una manera que mejore su experiencia general de alguna manera.

Investigadores en recuperación de información (una comunidad con la que he estado involucrado durante la última década) han considerado recientemente lo que la proliferación de LLMs puede significar para el papel de los anotadores humanos en el contexto de la relevancia de las evaluaciones [9]. Propusieron un espectro de colaboración entre humanos y LLMs para producir evaluaciones de relevancia (desde juicios humanos hasta evaluaciones totalmente automáticas, similares a los niveles populares de automatización). Los autores exploraron los beneficios potenciales de involucrar a los LLMs en tareas de anotación y los ponderaron en contraposición a los riesgos de hacerlo. Está claro que los LLMs pueden reducir los costos de anotación en la creación de colecciones de evaluación. Sin embargo, no está claro si dichas colecciones podrían ser sistemáticamente diferentes de las creadas por humanos y cómo influirían dichos artefactos en la evaluación de sistemas de recuperación de información y, por lo tanto, en el diseño futuro de dichos sistemas.

Además de apoyar la escritura individual o las tareas de clasificación dentro de un flujo de trabajo, los investigadores también están explorando la aplicación de LLMs en la asistencia a los trabajadores en masa. Liu et al. combinaron el poder generativo de GPT-3 y el poder de evaluación de los humanos para crear un nuevo conjunto de datos de inferencia de lenguaje natural que produce modelos más efectivos cuando se utiliza como conjunto de entrenamiento [10]. En una línea similar, otros presentaron un “Asistente de Anotación Generativa” para ayudar en la producción de colecciones de datos adversarios dinámicos, mejorando significativamente la tasa de recolección [11]. Sin embargo, existen varias preguntas abiertas menos comprendidas sobre cómo los LLMs pueden mejorar la efectividad de los flujos de trabajo de crowdsourcing y cómo se pueden evaluar holísticamente dichos flujos de trabajo.

¿Muchos Obstáculos en el Camino?

Al igual que los humanos, los LLM también pueden ser propensos a sesgos e injusticias. Por un lado, trabajos anteriores han demostrado cómo los anotadores humanos caen en sus propias opiniones al completar tareas de anotación, lo que lleva a sesgos sistemáticos que se filtran en la recopilación de datos resultante [12]. Otros han propuesto listas de verificación para combatir o informar sobre posibles sesgos cognitivos que pueden haber surgido durante el proceso de anotación [13]. Por otro lado, trabajos recientes han revelado posturas discriminatorias y sesgos estereotípicos presentes en los LLM [14, 15].

La comunidad de investigación sobre computación humana y crowdsourcing (HCOMP) ha ideado una serie de métodos, interfaces, medidas y herramientas efectivas para garantizar la recopilación de datos de alta calidad de los trabajadores de la multitud. Solo es cuestión de tiempo antes de que colectivamente descubramos cómo se pueden establecer garantías relacionadas con la calidad al integrar LLM en los procesos de toma de decisiones.

A primera vista, la integración de LLM en los flujos de trabajo de crowdsourcing puede parecer bastante sencilla. Como sucede con la mayoría de las propuestas de soluciones relacionadas con sistemas complejos, es más fácil decirlo que hacerlo. El crowdsourcing involucra a diferentes partes interesadas: los solicitantes de tareas que desean recopilar anotaciones a gran escala, los trabajadores de la multitud dispuestos a cumplir a cambio de una compensación, las plataformas que proporcionan la infraestructura y actúan como el mercado para que estas transacciones tengan lugar, y los usuarios finales indirectos de productos o tecnologías que se desarrollan o construyen en esfuerzos posteriores. El impacto de incluir LLM en los flujos de trabajo puede afectar a cada parte interesada de diferentes maneras.

Si los trabajadores de la multitud pueden volverse más efectivos y eficientes al aprovechar LLM en flujos de trabajo inteligentes, existe el potencial de realizar más trabajo sin aumentar los costos. Sin embargo, se requiere más trabajo para comprender mejor los riesgos y recompensas que implica la inclusión de LLM como parte de los flujos de trabajo de crowdsourcing. ¿Quién sería responsable de diseñar, desarrollar e integrar LLM en tales flujos de trabajo, considerando la posible necesidad de responsabilidad?

Tradicionalmente, se ha dejado a los trabajadores de la multitud mejorar su productividad y las condiciones en las que operan. ¿No debería ser ahora responsabilidad colectiva de las plataformas de crowdsourcing y los solicitantes de tareas comprender mejor cómo equipar a los trabajadores con soluciones basadas en LLM que puedan ayudarlos a completar tareas de manera exitosa y mejorar sus experiencias laborales?

Inteligencia Artificial Artificial Artificial y el Futuro que Puede Ser

Un estudio de caso reciente exploró hasta qué punto los datos recopilados de la multitud en una tarea de resumen de texto fueron generados genuinamente por humanos. Los autores encontraron evidencia que respalda que más del 30% de los trabajadores de la multitud en su estudio en Amazon Mechanical Turk ya han comenzado a depender de los LLM [16]. Aunque el estudio informó estas ideas solo a partir de 44 trabajadores y los números pueden considerarse con precaución, esto refleja la perspectiva innegable de que más trabajadores de la multitud recurran a soluciones basadas en LLM que puedan ayudarles a aumentar su productividad, maximizar sus ganancias y mejorar el tiempo que pasan en los mercados de crowdsourcing. Aquí es donde surge la noción de “inteligencia artificial artificial artificial” – los trabajadores de la multitud potencialmente utilizando IA (asistencia de LLM) para proporcionar lo que presumiblemente es una entrada “humana” a pedido.

Figura: Una ilustración que muestra el surgimiento de la 'inteligencia artificial artificial artificial' acuñada en [29] desde la IA (1) hasta la IA2 (2) y finalmente AAAI (3). Fuente: Imagen del autor.

Se necesita una mayor consideración en cuanto a la transparencia y explicabilidad de los LLM en comparación con lo que se puede obtener de los humanos. Cuando los trabajadores de la multitud completan tareas como la anotación u otras que requieren toma de decisiones, los solicitantes de tareas pueden extraer fundamentos significativos a través de preguntas de seguimiento. Los trabajadores de la multitud tienen la capacidad de proporcionar ideas donde sea necesario. Actualmente, esto no se puede lograr con los LLM. Sí, existen métodos para la explicabilidad del modelo, pero ninguno ha demostrado un nivel de efectividad comparable a lo que se puede lograr con los humanos en ambos extremos de la línea. Esta percepción de los LLM como una “caja negra” puede crear barreras para la adopción por parte de los solicitantes de tareas y las plataformas de crowdsourcing, al tiempo que dificulta la confianza adecuada de los trabajadores de la multitud en dichas herramientas.

¿Humanos y LLMs? Hay un sinfín de posibilidades con un mar de preguntas intrigantes y solo un puñado de respuestas brillantes. Aprovechar la oportunidad de integrar este avance tecnológico para mejorar el trabajo en grupo es menos como remover un nido de avispas y más como atrapar una ráfaga de viento en nuestras velas. Pongámonos ocupados, porque un futuro hermoso nos espera cuando podamos dar forma a él con los humanos en el centro del escenario.

Referencias

  1. Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., y Fei-Fei, L. (2009, junio). Imagenet: una base de datos de imágenes jerárquica a gran escala. En 2009 Conferencia IEEE sobre Visión por Computadora y Reconocimiento de Patrones (pp. 248-255). IEEE.
  2. Kittur, A., Nickerson, J.V., Bernstein, M., Gerber, E., Shaw, A., Zimmerman, J., Lease, M. y Horton, J. (2013, febrero). El futuro del trabajo en grupo. En Actas de la Conferencia de 2013 sobre Trabajo Cooperativo con Soporte Computacional (pp. 1301-1318).
  3. Gray, M. L. y Suri, S. (2019). Trabajo fantasma: cómo evitar que Silicon Valley construya una nueva clase trabajadora global. Eamon Dolan Books.
  4. Allen, G., He, G., Gadiraju, U. ¡Potencia! ¿Qué pueden hacer los modelos generativos para los flujos de trabajo de computación humana? En Actas del Taller de Inteligencia Artificial Generativa en la Conferencia Internacional ACM sobre Factores Humanos en Sistemas Informáticos (CHI 2023).
  5. Bernstein, Michael S., Greg Little, Robert C. Miller, Björn Hartmann, Mark S. Ackerman, David R. Karger, David Crowell y Katrina Panovich. “Soylent: un procesador de palabras con una multitud en su interior”. En Actas del 23º Simposio Anual de la ACM sobre Software y Tecnología de Interfaz de Usuario, pp. 313-322. 2010.
  6. Little, G., Chilton, L. B., Goldman, M. y Miller, R. C. (2009, junio). Turkit: herramientas para tareas iterativas en Mechanical Turk. En Actas del taller de la ACM SIGKDD sobre computación humana (pp. 29-30).
  7. Kittur, A., Smus, B., Khamkar, S. y Kraut, R. E. (2011, octubre). Crowdforge: externalización de trabajos complejos. En Actas del 24º Simposio Anual de la ACM sobre Software y Tecnología de Interfaz de Usuario (pp. 43-52).
  8. Kittur, A., Khamkar, S., André, P. y Kraut, R. (2012, febrero). CrowdWeaver: gestión visual de trabajos complejos en grupo. En Actas de la Conferencia ACM 2012 sobre Trabajo Cooperativo con Soporte Computacional (pp. 1033-1036).
  9. Faggioli, G., Dietz, L., Clarke, C., Demartini, G., Hagen, M., Hauff, C., Kando, N., Kanoulas, E., Potthast, M., Stein, B. y Wachsmuth, H. (2023). Perspectivas sobre los modelos de lenguaje grandes para la evaluación de relevancia. Preimpresión de arXiv arXiv:2304.09161.
  10. Liu, Z., Roberts, R.A., Lal-Nag, M., Chen, X., Huang, R. y Tong, W. (2021). Modelos de lenguaje basados en IA impulsando el descubrimiento y desarrollo de medicamentos. Drug Discovery Today, 26(11), pp. 2593-2607.
  11. Bartolo, M., Thrush, T., Riedel, S., Stenetorp, P., Jia, R. y Kiela, D. (2021). Modelos en bucle: ayudar a los trabajadores en grupo con asistentes de anotación generativa. Preimpresión de arXiv arXiv:2112.09062.
  12. Hube, C., Fetahu, B. y Gadiraju, U. (2019, mayo). Comprender y mitigar los sesgos de los trabajadores en la recopilación en grupo de juicios subjetivos. En Actas de la Conferencia CHI 2019 sobre Factores Humanos en Sistemas Informáticos (pp. 1-12).
  13. Draws, T., Rieger, A., Inel, O., Gadiraju, U. y Tintarev, N. (2021, octubre). Una lista de verificación para combatir los sesgos cognitivos en la crowdsourcing. En Actas de la conferencia AAAI sobre computación humana y crowdsourcing (Vol. 9, pp. 48-59).
  14. Abid, A., Farooqi, M. y Zou, J. (2021, julio). Sesgo antimusulmán persistente en grandes modelos de lenguaje. En Actas de la Conferencia AAAI/ACM 2021 sobre IA, Ética y Sociedad (pp. 298-306).
  15. Nadeem, M., Bethke, A. y Reddy, S. (2020). StereoSet: midiendo el sesgo estereotípico en modelos de lenguaje preentrenados. Preimpresión de arXiv arXiv:2004.09456.
  16. Veselovsky, V., Ribeiro, M. H. y West, R. (2023). Inteligencia Artificial Artificial Artificial: los trabajadores en grupo utilizan ampliamente modelos de lenguaje grandes para tareas de producción de texto. Preimpresión de arXiv arXiv:2306.07899.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Robot puede ordenar la ropa en un dormitorio desordenado

Ken Goldberg en la Universidad de California, Berkeley, y sus colegas desarrollaron un sistema de robots para recoger...

Ciencia de Datos

Después de Twitter

Nuevas aplicaciones sociales surgen para desafiar a la problemática Twitter.

Inteligencia Artificial

Construyendo estructuras ópticas robustas hechas de oscuridad

Un equipo de investigadores de la Universidad de Harvard utilizó metasuperficies para generar y manipular regiones os...

Inteligencia Artificial

Energía Solar da un nuevo giro

Centrándonos en el uso de la fotosíntesis artificial a través de tecnologías de hojas solares.

Aprendizaje Automático

Google AI presenta Imagen Editor y EditBench para mejorar y evaluar el rellenado de imágenes guiado por texto.

Ha habido un reciente aumento en la curiosidad sobre los convertidores de texto a imagen. Estos modelos generativos s...