Investigadores enseñan a una IA a escribir mejores leyendas de gráficos

Researchers teach AI to write better chart captions.

Un nuevo conjunto de datos puede ayudar a los científicos a desarrollar sistemas automáticos que generen leyendas más ricas y descriptivas para gráficos en línea.

A new tool helps scientists develop machine-learning models that generate richer, more detailed captions for charts, and vary the level of complexity of a caption based on the needs of users. This could help provide captions for un-captioned online charts and improve accessibility for people with visual disabilities.

Las leyendas de los gráficos que explican tendencias y patrones complejos son importantes para mejorar la capacidad de comprensión y retención de los datos presentados por el lector. Y para las personas con discapacidades visuales, la información en una leyenda a menudo proporciona su único medio para entender el gráfico.

Pero escribir leyendas efectivas y detalladas es un proceso laborioso. Si bien las técnicas de autodescripción pueden aliviar esta carga, a menudo tienen dificultades para describir características cognitivas que proporcionan contexto adicional.

Para ayudar a las personas a redactar leyendas de gráficos de alta calidad, investigadores del MIT han desarrollado un conjunto de datos para mejorar los sistemas de autodescripción automática. Utilizando esta herramienta, los investigadores podrían enseñar a un modelo de aprendizaje automático a variar el nivel de complejidad y el tipo de contenido incluido en una leyenda de gráfico según las necesidades de los usuarios.

Los investigadores del MIT encontraron que los modelos de aprendizaje automático entrenados para la autodescripción con su conjunto de datos generaron consistentemente leyendas precisas, ricas semánticamente y que describían tendencias de datos y patrones complejos. Los análisis cuantitativos y cualitativos revelaron que sus modelos describían los gráficos de manera más efectiva que otros sistemas de autodescripción automática.

El objetivo del equipo es proporcionar el conjunto de datos, llamado VisText, como una herramienta que los investigadores puedan utilizar mientras trabajan en el desafiante problema de la autodescripción automática de gráficos. Estos sistemas automáticos podrían ayudar a proporcionar leyendas para gráficos en línea sin leyendas y mejorar la accesibilidad para las personas con discapacidades visuales, dice la coautora principal Angie Boggust, estudiante de posgrado en ingeniería eléctrica e informática en el MIT y miembro del Grupo de Visualización en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL).

“Hemos tratado de incorporar muchos valores humanos en nuestro conjunto de datos para que cuando nosotros y otros investigadores estemos desarrollando sistemas automáticos de autodescripción de gráficos, no terminemos con modelos que no sean lo que las personas quieren o necesitan”, dice ella.

Boggust es acompañada en el artículo por el coautor principal y compañero de estudios de posgrado Benny J. Tang y el autor principal Arvind Satyanarayan, profesor asociado de ciencias de la computación en el MIT, quien dirige el Grupo de Visualización en CSAIL. La investigación se presentará en la Reunión Anual de la Asociación de Lingüística Computacional.

Análisis centrado en el ser humano

Los investigadores se inspiraron para desarrollar VisText a partir de trabajos anteriores en el Grupo de Visualización que exploraron qué hace que una leyenda de gráfico sea buena. En ese estudio, los investigadores descubrieron que los usuarios con visión y los usuarios ciegos o con baja visión tenían diferentes preferencias en cuanto a la complejidad del contenido semántico de una leyenda.

El grupo quería traer ese análisis centrado en el ser humano a la investigación de la autodescripción automática. Para hacerlo, desarrollaron VisText, un conjunto de datos de gráficos y leyendas asociadas que podrían ser utilizados para entrenar modelos de aprendizaje automático para generar leyendas precisas, ricas semánticamente y personalizables.

Desarrollar sistemas de autodescripción automática efectivos no es una tarea fácil. Los métodos de aprendizaje automático existentes a menudo intentan describir los gráficos de la misma manera en que describirían una imagen, pero las personas y los modelos interpretan las imágenes naturales de manera diferente a cómo leemos los gráficos. Otras técnicas omiten por completo el contenido visual y describen un gráfico utilizando su tabla de datos subyacente. Sin embargo, estas tablas de datos a menudo no están disponibles después de que se publican los gráficos.

Dadas las limitaciones de utilizar imágenes y tablas de datos, VisText también representa los gráficos como gráficos de escena. Los gráficos de escena, que se pueden extraer de una imagen de un gráfico, contienen todos los datos del gráfico, pero también incluyen contexto de imagen adicional.

“Un gráfico de escena es como lo mejor de ambos mundos: contiene casi toda la información presente en una imagen y es más fácil de extraer de las imágenes que las tablas de datos. Como también es texto, podemos aprovechar los avances en los modernos modelos de lenguaje grande para la descripción”, explica Tang.

Compilaron un conjunto de datos que contiene más de 12,000 gráficos, cada uno representado como una tabla de datos, imagen y gráfico de escena, así como leyendas asociadas. Cada gráfico tiene dos leyendas separadas: una leyenda de bajo nivel que describe la construcción del gráfico (como sus rangos de ejes) y una leyenda de alto nivel que describe estadísticas, relaciones en los datos y tendencias complejas.

Los investigadores generaron leyendas de bajo nivel utilizando un sistema automatizado y leyendas de alto nivel a través de trabajadores humanos.

“Nuestras leyendas se basaron en dos piezas clave de investigaciones anteriores: pautas existentes sobre descripciones accesibles de medios visuales y un modelo conceptual de nuestro grupo para categorizar el contenido semántico. Esto aseguró que nuestras leyendas incluyeran elementos importantes del gráfico de bajo nivel, como ejes, escalas y unidades para lectores con discapacidades visuales, al tiempo que mantenían la variabilidad humana en la forma en que se pueden escribir las leyendas”, dice Tang.

Traduciendo gráficos

Una vez que habían recopilado imágenes de gráficos y leyendas, los investigadores utilizaron VisText para entrenar cinco modelos de aprendizaje automático para la autodescripción automática. Querían ver cómo cada representación, imagen, tabla de datos y gráfico de escena, y las combinaciones de las representaciones afectaban la calidad de la leyenda.

“Puedes pensar en un modelo de autodescripción de gráficos como un modelo para traducción de lenguaje. Pero en lugar de decir, traduce este texto alemán al inglés, estamos diciendo traduce este ‘lenguaje de gráfico’ al inglés”, dice Boggust.

Sus resultados mostraron que los modelos entrenados con gráficos de escena tuvieron un rendimiento igual o mejor que los entrenados utilizando tablas de datos. Dado que los gráficos de escena son más fáciles de extraer de los gráficos existentes, los investigadores argumentan que podrían ser una representación más útil.

También entrenaron modelos con subtítulos de bajo nivel y alto nivel por separado. Esta técnica, conocida como ajuste de prefijo semántico, les permitió enseñar al modelo a variar la complejidad del contenido del subtítulo.

Además, llevaron a cabo un examen cualitativo de los subtítulos producidos por su método de mejor rendimiento y categorizaron seis tipos de errores comunes. Por ejemplo, se produce un error direccional si un modelo dice que una tendencia está disminuyendo cuando en realidad está aumentando.

Esta evaluación cualitativa detallada y robusta fue importante para comprender cómo el modelo estaba cometiendo sus errores. Por ejemplo, utilizando métodos cuantitativos, un error direccional podría incurrir en la misma penalización que un error de repetición, donde el modelo repite la misma palabra o frase. Pero un error direccional podría ser más engañoso para un usuario que un error de repetición. El análisis cualitativo les ayudó a comprender este tipo de sutilezas, dice Boggust.

Estos tipos de errores también exponen limitaciones de los modelos actuales y plantean consideraciones éticas que los investigadores deben tener en cuenta al trabajar para desarrollar sistemas de autocaptación, agrega.

Se ha demostrado que los modelos generativos de aprendizaje automático, como los que alimentan a ChatGPT, alucinan o proporcionan información incorrecta que puede ser engañosa. Si bien hay un beneficio claro en el uso de estos modelos para autocaptar gráficos existentes, podría llevar a la difusión de información errónea si los gráficos se subtitulan de manera incorrecta.

“Tal vez esto signifique que no subtitulamos todo a la vista con IA. En cambio, tal vez proporcionemos estos sistemas de autocaptación como herramientas de autoría para que las personas los editen. Es importante pensar en estas implicaciones éticas a lo largo del proceso de investigación, no solo al final cuando tenemos un modelo para implementar”, dice.

Boggust, Tang y sus colegas desean continuar optimizando los modelos para reducir algunos errores comunes. También desean ampliar el conjunto de datos VisText para incluir más gráficos y gráficos más complejos, como los que tienen barras apiladas o múltiples líneas. Y también les gustaría obtener información sobre lo que estos modelos de autocaptación están aprendiendo realmente sobre los datos del gráfico.

Esta investigación fue apoyada, en parte, por una Beca de Investigador de Google, la Fundación Nacional de Ciencias, la Iniciativa MLA@CSAIL y el Laboratorio de Investigación de la Fuerza Aérea de los Estados Unidos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¿Cómo limita el principio de incertidumbre el análisis de series temporales?

La conexión entre la Transformada de Fourier, el Principio de Incertidumbre y el análisis de series temporales revela...

Inteligencia Artificial

Top 10 cursos en línea de ciencia de datos en los Estados Unidos

Introducción La ciencia de datos es el futuro próximo en el mundo tecnológico. Un campo dinámico donde la información...

Inteligencia Artificial

Creando un Agente LLAma 2 Empoderado con Conocimiento de Wikipedia

Los Modelos de Lenguaje Grandes (LLMs) son una de las tendencias más populares en IA. Han demostrado impresionantes c...