¿Podemos transformar texto en gráficos vectoriales científicos? Este artículo de IA presenta AutomaTikZ y explica el poder de TikZ

¿Es posible convertir texto en gráficos vectoriales científicos? Este artículo de IA presenta AutomaTikZ y revela el potencial de TikZ

Los últimos avances en la generación de texto a imagen han hecho posible la creación de gráficos detallados a partir de descripciones sencillas en lenguaje natural. Los resultados utilizando modelos como Stable Diffusion y DALL-E a menudo se asemejan a imágenes reales o obras de arte creadas por humanos. Estos modelos no producen las mejores imágenes de mapa de bits para figuras científicas, a menudo producidas a baja resolución. Las figuras científicas son esenciales para el estudio científico porque ayudan a los investigadores a explicar conceptos complicados o comunicar descubrimientos importantes. Las imágenes de mapa de bits necesitan mejorar en estas áreas porque requieren un alto nivel de precisión geométrica y texto que pueda leerse incluso en letras pequeñas. Como resultado, se fomentan las imágenes vectoriales, que dividen los datos en formas geométricas, permiten la búsqueda de texto y a menudo tienen tamaños de archivo reducidos, según muchas conferencias académicas.

También se está expandiendo el campo de la creación automática de gráficos vectoriales, aunque los enfoques disponibles tienen sus propias limitaciones. Mayormente producen componentes de ruta de bajo nivel en formato de gráficos vectoriales escalables (SVG), ya sea que no retengan relaciones geométricas precisas o que produzcan salidas con un bajo grado de complejidad, como iconos individuales o letras de tipografía. Investigadores de las universidades de Bielefeld, Hamburgo y Mannheim y Bielefeld están investigando el uso de lenguajes visuales, que se abstraen de los formatos de gráficos vectoriales de bajo nivel, ofreciendo estructuras de alto nivel que se pueden compilar para resolver estas restricciones.

Los modelos de lenguaje sugieren que es posible aprender estos lenguajes y utilizarlos para realizar tareas simples. Sin embargo, aún está por determinarse hasta qué punto pueden producir figuras científicas. En este trabajo, se centran en el lenguaje de gráficos TikZ debido a su expresividad y énfasis en la ciencia, lo que permite la producción de figuras complicadas con solo unas pocas instrucciones. Quieren saber si los modelos de lenguaje pueden crear automáticamente figuras científicas basadas en leyendas de imágenes, de manera similar a la creación de texto a imagen, y capturar las sutilezas de TikZ. Esto no solo puede aumentar la productividad y promover la inclusión (ayudando a académicos menos familiarizados con lenguajes similares a la programación, como los científicos sociales), sino que también podría mejorar la enseñanza al producir ejemplos personalizados de TikZ. El TEX Stack Exchange es un ejemplo de esto en uso, donde TikZ es el tema más comúnmente discutido, con aproximadamente el 10% de las consultas respondidas.

Sus principales contribuciones son:

(i) Como parte de su proyecto AutomaTikZ, desarrollaron DaTikZ, que cuenta con más de 120,000 dibujos y leyendas de TikZ emparejados y es el primer conjunto de datos TikZ a gran escala.

(ii) Se ajustó el modelo de lenguaje grande (LLM) LLaMA en DaTikZ y se contrastó su rendimiento con el de LLM de propósito general, especialmente GPT-4 y Claude 2. La evaluación automática y humana reveló que las figuras científicas producidas por LLaMA ajustado son más similares a las figuras creadas por humanos.

(iii) Continúan trabajando en CLiMA, una extensión de LLaMA que incluye incrustaciones multimodales CLIP. Con esta mejora, CLiMA puede entender más fácilmente las leyendas de entrada, lo que mejora la alineación de texto e imagen. Además, permite el uso de fotos como entradas adicionales, lo que mejora aún más la velocidad.

(iv) También demuestran que todos los modelos proporcionan resultados originales y tienen poco problemas de memorización. Mientras que LLaMA y CLiMA a menudo proporcionan soluciones degeneradas que maximizan la similitud entre texto e imagen al duplicar en exceso la leyenda de entrada en la imagen de salida, GPT-4 y Claude 2 a menudo producen salidas más simples.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceLanguage ModelLarge Language Model

Was this article helpful?

93 out of 132 found this helpful

¿Podemos transformar texto en gráficos vectoriales científicos? Este artículo de IA presenta AutomaTikZ y explica el poder de TikZ

Was this article helpful?

Una buena descripción es todo lo que necesitas

Las gafas transcriben el habla en tiempo real

Inteligencia Artificial

Intuitivo logra un mayor rendimiento mientras ahorra en costos de IA/ML utilizando AWS Inferentia y PyTorch

¿Deberían las escuelas depender del gobierno para la protección cibernética?

Conoce Jupyter AI Desatando el poder de la inteligencia artificial en los cuadernos de Jupyter

La Declaración de Bletchley de los países que asistieron a la Cumbre de Seguridad de la IA

Desbloqueando la optimización de la batería Cómo el aprendizaje automático y la microscopía de rayos X a escala nanométrica podrían revolucionar las baterías de litio