Esta investigación de IA propone LayoutNUWA un modelo de IA que trata la generación de diseño como una tarea de generación de código para mejorar la información semántica y aprovechar la experiencia oculta de diseño de los modelos de lenguaje grandes (LLMs).

LayoutNUWA es un modelo de IA que utiliza la generación de código para mejorar la información semántica y aprovechar la experiencia oculta de diseño de los modelos de lenguaje grandes (LLMs).

Con el crecimiento de los LLMs, se ha realizado una investigación exhaustiva sobre todos los aspectos de los LLMs. Por lo tanto, también ha habido estudios sobre el diseño gráfico. El diseño gráfico, o cómo se organizan y colocan los elementos de diseño, afecta significativamente la forma en que los usuarios interactúan y perciben la información proporcionada. Un nuevo campo de investigación es la generación de diseños. Su objetivo es proporcionar varios diseños realistas que simplifiquen el desarrollo de objetos.

Los métodos actuales para la creación de diseños principalmente realizan una optimización numérica, centrándose en los aspectos cuantitativos mientras ignoran la información semántica del diseño, como las conexiones entre cada componente del diseño. Sin embargo, debido a que se centra en gran medida en recopilar los elementos cuantitativos del diseño, como posiciones y tamaños, y deja fuera la información semántica, como el atributo de cada valor numérico, este método podría necesitar ser capaz de expresar diseños como tuplas numéricas.

Dado que los diseños presentan vínculos lógicos entre sus piezas, los lenguajes de programación son una opción viable para los diseños. Podemos desarrollar una secuencia organizada para describir cada diseño utilizando lenguajes de código. Estos lenguajes de programación pueden combinar conceptos lógicos con información y significado, cerrando la brecha entre los enfoques actuales y la demanda de una representación más exhaustiva.

Como resultado, los investigadores desarrollaron LayoutNUWA. Este primer modelo aborda el desarrollo de diseños como un problema de generación de código para mejorar la información semántica y aprovechar la experiencia oculta en el diseño de modelos de lenguaje grandes (LLMs).

Code Instruct Tuning (CIT) está compuesto por tres componentes interconectados. El módulo de Inicialización de Código (CI) cuantifica las circunstancias numéricas antes de convertirlas en código HTML. Este código HTML contiene máscaras colocadas en ubicaciones específicas para mejorar la legibilidad y cohesión de los diseños. En segundo lugar, para llenar las áreas enmascaradas del código HTML, el módulo de Completado de Código (CC) utiliza los conocimientos de formato de los Modelos de Lenguaje Grandes (LLMs). Para mejorar la precisión y consistencia de los diseños generados, esto utiliza LLMs. Por último, el módulo de Renderización de Código (CR) renderiza el código en la salida final del diseño. Para mejorar la precisión y consistencia de los diseños generados, esto utiliza LLMs.

Magazine, PubLayNet y RICO fueron tres conjuntos de datos públicos frecuentemente utilizados para evaluar el rendimiento del modelo. El conjunto de datos RICO, que incluye aproximadamente 66,000 diseños de interfaz de usuario y los divide en 25 tipos de elementos, se centra en el diseño de interfaces de usuario para aplicaciones móviles. Por otro lado, PubLayNet proporciona una biblioteca considerable de más de 360,000 diseños en varios documentos, categorizados en grupos de cinco elementos. Un recurso de baja disponibilidad para la investigación de diseños de revistas, el conjunto de datos de Magazine comprende más de 4,000 diseños anotados divididos en seis clases principales de elementos. Los tres conjuntos de datos fueron preprocesados y ajustados para garantizar la consistencia utilizando el marco LayoutDM. Para hacer esto, el conjunto de datos de validación original se designó como conjunto de pruebas, se filtraron los diseños con más de 25 componentes y el conjunto de datos refinado se dividió en conjuntos de entrenamiento y validación nuevos, con el 95% del conjunto de datos yendo al primero y el 5% al último.

Realizaron experimentos utilizando representaciones de código y numéricas para evaluar exhaustivamente los resultados del modelo. Desarrollaron una tarea de Relleno de Código específicamente para el formato de salida numérica. En lugar de predecir la secuencia de código completa en esta tarea, se pidió al Modelo de Lenguaje Grande (LLM) que predijera solo los valores ocultos dentro de la secuencia numérica. Los resultados mostraron que el rendimiento del modelo disminuyó significativamente cuando se generó en formato numérico, junto con un aumento en la tasa de fallas de los intentos de desarrollo del modelo. Por ejemplo, este método produjo resultados repetitivos en algunos casos. Esta disminución de eficiencia se puede atribuir al objetivo de la tarea condicional de generación de diseños de crear diseños coherentes.

Los investigadores también señalaron que se pueden producir números separados e ilógicos si solo se presta atención a predecir las partes enmascaradas. Además, esta tendencia puede aumentar la probabilidad de que un modelo no pueda generar datos, especialmente al indicar diseños con más valores ocultos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

El modelo de IA puede ayudar a determinar dónde se originó el cáncer de un paciente

Las predicciones del modelo OncoNPC podrían permitir a los médicos elegir tratamientos específicos para tumores difíc...

Ciencias de la Computación

Los EE. UU. están acumulando abiertamente información sucia sobre todos sus ciudadanos.

Un informe recientemente desclasificado de la Oficina del Director de Inteligencia Nacional revela que el gobierno fe...

Inteligencia Artificial

Software detecta emociones ocultas en los padres

El software puede identificar emociones complejas ocultas mediante el mapeo de rasgos faciales y evaluando las intens...