Investigación de Google revela Transformadores Generativos de Vocabulario Infinito (GIVT) Pioneros en secuencias de vectores de valor real en IA

Investigación de Google revela los Innovadores Transformadores Generativos de Vocabulario Infinito (GIVT) en IA, liderando secuencias de vectores de valor real

Los Transformers fueron introducidos por primera vez y rápidamente se elevaron a la prominencia como la arquitectura principal en el procesamiento del lenguaje natural. Más recientemente, también han ganado una inmensa popularidad en la visión por computadora. Dosovitskiy et al. demostraron cómo crear clasificadores de imágenes eficaces que superan a las arquitecturas basadas en CNN a escalas de modelo y datos altos dividiendo las imágenes en secuencias de parches, incrustando linealmente esos parches y luego alimentando la secuencia resultante de características a un codificador Transformer. Para muchas tareas de visión discriminativas, como la segmentación, la detección y la clasificación, este enfoque es actualmente la norma. Sin embargo, a medida que los decodificadores Transformer generativos consumen y anticipan tokens discretos de algún vocabulario predefinido y finito, no es apropiado para la producción de imágenes basada en Transformer mapear una imagen a una secuencia de vectores de características (no cuantizados).

Una estructura como esta se adapta naturalmente al lenguaje natural, y los modelos que solo tienen un decodificador permiten un entrenamiento efectivo a través del instructor forcing y una modelización generativa secuencial sólida. Los esfuerzos recientes han utilizado una técnica de dos etapas para mapear imágenes a una secuencia de tokens discretos utilizando un autoencoder variacional vector cuantizado Vector-Quantized (VQ-VAE), y luego aprender un decodificador Transformer para modelar la distribución latente de tokens discretos. Este enfoque tiene como objetivo aprovechar estas capacidades para las imágenes. Al concatenar simplemente los vocabularios de las diferentes modalidades, incluyendo texto e imágenes, esta tokenización de imágenes basada en VQ-VAE también permite modelos generativos multimodales intercalados. Aunque este método de dos pasos funcionó bien para crear imágenes y contenido multimodal, tiene algunos problemas.

La cantidad de datos que se pueden mantener en la secuencia de codificación latente y cuánto modelado visual se maneja mediante el decodificador VQ-VAE depende del tamaño del vocabulario en VQ-VAE. Un vocabulario corto puede facilitar el modelado latente, pero también reduce la informatividad del código latente, lo que dificulta regular los detalles finos en la formación de imágenes y afecta la calidad de las aplicaciones que utilizan los tokens para la predicción densa o tareas discriminatorias de bajo nivel. Aumentar el tamaño del vocabulario puede ayudar a solucionar este problema, pero hacerlo puede resultar en un mal uso del vocabulario, lo que obliga a configuraciones de VQ-VAE de alta fidelidad a depender de una variedad de métodos sofisticados como pérdidas de entropía o división de libros de código. Además, los vocabularios enormes resultan en matrices de embedding enormes que ocupan mucha memoria, lo que puede ser problemático en escenarios multimodales cuando se mezclan vocabularios de diferentes modalidades. El equipo de investigación sugiere cambiar los decodificadores Transformer solo de decodificación para eliminar la necesidad de tokens discretos y, por lo tanto, vocabularios fijos y limitados, con el fin de evitar estos problemas.

En particular, el equipo de investigación de Google DeepMind y Google Research propone un decodificador Transformador generativo que funciona con secuencias de vectores de valores reales. El equipo de investigación se refiere a esto como un Transformer Generativo de Vocabulario Ilimitado (GIVT) ya que los vectores de valores reales se pueden considerar como un vocabulario ilimitado. Como se muestra en la Fig. 1, el equipo de investigación modificó ligeramente el diseño del decodificador Transformer (dos modificaciones en total). 1) En la entrada, el equipo de investigación incrusta linealmente una secuencia de vectores de valores reales en lugar de buscar un vocabulario finito de incrustaciones utilizando una serie de tokens discretos; 2) en la salida, el equipo de investigación predice los parámetros de una distribución continua sobre vectores de valores reales en lugar de predecir los parámetros de una distribución categórica sobre un vocabulario finito (a través de logits). El equipo de investigación entrenó este modelo utilizando instructor forcing y una máscara de atención causal, al igual que los decodificadores Transformer típicos. Alternativamente, el equipo de investigación investigó el modelado progresivo bidireccional enmascarado rápido, similar a MaskGIT.

Figura 1 utiliza el mismo diseño de decodificador solo para comparar la variación continua y de vocabulario infinito (GIVT, derecha) con el típico generador de tokens discretos Transformer (izquierda). GIVT reemplaza los tokens discretos mediante la búsqueda en la entrada de una secuencia de vectores de valores reales que se incrustan linealmente. En lugar de predecir una distribución categórica sobre un vocabulario finito, GIVT predice los parámetros de una distribución continua sobre vectores de valores reales en la salida.

La serie de píxeles RGB creada al aplanar una imagen de alta resolución es un ejemplo de una secuencia que puede ser difícil de modelar directamente, incluso aunque GIVT teóricamente se pueda aplicar a cualquier secuencia de vectores de características. También puede ser excesivamente larga o seguir una distribución complicada. Por lo tanto, el equipo de investigación primero entrena un espacio latente de menor dimensión utilizando un VAE con prior Gaussian y luego lo modela con GIVT, que es similar a la técnica de dos etapas con VQ-VAEs y similar al enfoque de dos etapas de los modelos de difusión-latente. El equipo de investigación también transfirió varias estrategias de inferencia (como muestreo de temperatura y guía sin clasificador) de la literatura de modelado de secuencias.

Es notable que, dependiendo solo de tokens de valor real, esto produce un modelo que es superior o equivalente a las técnicas basadas en VQ. Lo siguiente describe sucintamente sus principales contribuciones:

1. Mediante el uso de UViM, el equipo de investigación demuestra que GIVT logra un rendimiento similar o mejor que el decodificador de transformador de token discreto típico en tareas de predicción densa, incluyendo segmentación semántica y estimación de profundidad, así como síntesis de imágenes.

2. El equipo de investigación derivó y probó la eficacia de variaciones de los métodos tradicionales de muestreo para el caso continuo, incluyendo muestreo de temperatura, búsqueda de haz y guía sin clasificador (CFG).

3. Mediante la ponderación del término KL, el equipo de investigación examina la conexión entre el nivel de regularización del espacio latente del VAE y las características de GIVT que surgen. El equipo de investigación enfatiza que los sofisticados métodos de entrenamiento de la literatura de VQ-VAE, como pérdidas auxiliares en la representación latente, reinicialización de libros de códigos o algoritmos de optimización especializados, no se utilizan en el entrenamiento del VAE y GIVT; en cambio, simplemente se basan en enfoques normales de caja de herramientas de aprendizaje profundo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¿Realmente se expondrán o perderán 300 millones de empleos debido a la sustitución por IA?

Los autores del informe de Goldman Sachs sugieren que 300 millones de empleos podrían verse afectados por la sustituc...

Inteligencia Artificial

Explorando NLP - Iniciando NLP (Paso #3)

Aquí hay algunos conceptos que revisé durante la semana, especialmente sobre incrustaciones de palabras. Hice algunas...

Ciencia de Datos

10 Preguntas más frecuentes sobre listas en Python en Stack Overflow

Stack Overflow es una mina de oro de información donde puedes encontrar miles de preguntas y respuestas en software, ...

Inteligencia Artificial

Google Research presenta SPAE un AutoEncoder para generación multimodal con Modelos de Lenguaje (LLMs) grandes congelados.

Los Modelos de Lenguaje Grande (LLMs por sus siglas en inglés) han ganado rápidamente una enorme popularidad debido a...

Inteligencia Artificial

Minimiza la latencia de inferencia en tiempo real utilizando las estrategias de enrutamiento de Amazon SageMaker

Amazon SageMaker facilita la implementación de modelos de aprendizaje automático (ML) para inferencia en tiempo real ...