Investigadores de Microsoft proponen Síntesis Visual Responsable de Vocabulario Abierto (ORES) con el Marco de Intervención de Dos Etapas

Microsoft researchers propose Responsible Visual Synthesis of Open Vocabulary (ORES) with the Two-Stage Intervention Framework.

Los modelos de síntesis visual pueden producir imágenes cada vez más realistas gracias al avance del entrenamiento de modelos a gran escala. La inteligencia artificial responsable se ha vuelto más crucial debido al mayor potencial de uso de imágenes sintetizadas, especialmente para eliminar elementos visuales específicos durante las síntesis, como el racismo, la discriminación sexual y la desnudez. Pero la síntesis visual responsable es una tarea muy difícil por dos razones fundamentales. Primero, para que las imágenes sintetizadas cumplan con los estándares de los administradores, no deben aparecer palabras como “Bill Gates” y “fundador de Microsoft”. Segundo, las partes no prohibidas de la consulta de un usuario deben ser sintetizadas de manera precisa para satisfacer los criterios del usuario.

Las técnicas existentes de síntesis visual responsable se pueden dividir en tres categorías principales para resolver los problemas mencionados anteriormente: refinar entradas, refinar salidas y refinar modelos. La primera estrategia, refinar entradas, se centra en el preprocesamiento de las consultas de los usuarios para cumplir con las demandas de los administradores, como construir una lista negra para filtrar elementos objetables. En un entorno con un vocabulario abierto, es difícil para la lista negra garantizar la eliminación total de todos los elementos indeseables. El segundo método, refinar salidas, implica el posprocesamiento de las imágenes generadas para cumplir con las reglas de los administradores, por ejemplo, identificando y eliminando contenido no seguro para el trabajo (NSFW) para garantizar la idoneidad de la salida.

Es difícil identificar ideas visuales de vocabulario abierto con esta técnica, que depende de un modelo de filtrado preentrenado en ciertos conceptos. La tercera estrategia, refinar modelos, intenta ajustar el modelo en su conjunto o un componente específico para comprender y cumplir con los criterios del administrador, mejorando la capacidad del modelo para seguir las pautas previstas y proporcionar material consistente con las reglas y regulaciones especificadas. Sin embargo, los sesgos en los datos de ajuste a menudo imponen restricciones a estas técnicas, lo que dificulta alcanzar capacidades de vocabulario abierto. Esto plantea el siguiente problema: ¿Cómo pueden los administradores prohibir eficazmente la creación de ideas visuales arbitrarias logrando una síntesis visual responsable de vocabulario abierto? Por ejemplo, un usuario puede solicitar producir “El fundador de Microsoft está bebiendo vino en un pub” en la Figura 1.

**Figura 1.** Síntesis visual responsable de vocabulario abierto

Dependiendo de la geografía, el contexto y las circunstancias de uso, se deben evitar diferentes conceptos visuales para una síntesis visual adecuada.

Cuando el administrador introduce ideas como “Bill Gates” o “alcohol” como prohibidas, la salida responsable debe aclarar conceptos expresados de manera similar en el habla cotidiana. Los investigadores de Microsoft sugieren un nuevo trabajo llamado Síntesis Visual Responsable de Vocabulario Abierto (ORES) basado en las observaciones mencionadas anteriormente, donde el modelo de síntesis visual puede evitar elementos visuales arbitrarios no expresamente indicados al mismo tiempo que permite a los usuarios ingresar la información deseada. Luego se introduce la estructura de Intervención en Dos Etapas (TIN). Puede sintetizar imágenes con éxito evitando ciertas nociones y, lo más cercano posible, cumpliendo con la consulta del usuario al enviar 1) reescritura con instrucciones aprendibles utilizando un modelo de lenguaje a gran escala (LLM) y 2) síntesis con intervención rápida en un modelo de síntesis de difusión.

Bajo la dirección de una consulta aprendible, TIN aplica específicamente CHATGPT para reescribir la pregunta del usuario en una consulta sin riesgos. En la etapa intermedia de síntesis, TIN interviene en la síntesis reemplazando la consulta del usuario por la consulta sin riesgos. Desarrollan un punto de referencia, modelos de línea de base asociados, LISTA NEGRA y PROMPT NEGATIVO, y un conjunto de datos accesible al público. Combinan modelos de lenguaje a gran escala y modelos de síntesis visual. Según su conocimiento, son los primeros en estudiar la síntesis visual responsable en un escenario de vocabulario abierto.

En el apéndice, su código y conjunto de datos están accesibles para todos. Realizan estas contribuciones:

• Con evidencia de su viabilidad, sugieren el nuevo trabajo de Síntesis Visual Responsable de Vocabulario Abierto (ORES). Desarrollan un punto de referencia con modelos de línea de base apropiados, establecen un conjunto de datos accesible al público y lo hacen.

• Como remedio exitoso para ORES, proporcionan el marco de Intervención en Dos Etapas (TIN), que implica

1) Reescritura mediante la enseñanza aprendible a través de un modelo de lenguaje a gran escala (LLM)

2) Síntesis mediante intervención rápida a través de un modelo de síntesis de difusión

• La investigación demuestra que su enfoque reduce considerablemente la posibilidad de un desarrollo de modelo inadecuado. Demuestran la capacidad de los LLMs para una síntesis visual responsable.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickMachine LearningStaffTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Investigadores de Microsoft proponen Síntesis Visual Responsable de Vocabulario Abierto (ORES) con el Marco de Intervención de Dos Etapas

Was this article helpful?

Mejorando la eficiencia 10 decoradores que uso a diario como MLE técnico

Herramientas de Inpainting basadas en IA para Arte

Inteligencia Artificial

Google DeepMind utilizó un gran modelo de lenguaje para resolver un problema matemático insoluble

El Maestro Gamer de la IA de DeepMind Aprende 26 juegos en 2 horas.

¿Podemos mapear escenas a gran escala en tiempo real sin aceleración de GPU? Este artículo de IA presenta 'ImMesh' para la localización y mapeo avanzado basado en LiDAR.

Técnica de Machine Learning Mejor para Predecir Tasas de Cura del Cáncer

Analizar la infestación de roedores utilizando las capacidades geoespaciales de Amazon SageMaker

Meta AI presenta MusicGen un modelo de generación de música simple y controlable impulsado tanto por texto como por melodía.