Investigación de Google revela Transformadores Generativos de Vocabulario Infinito (GIVT) Pioneros en secuencias de vectores de valor real en IA
Investigación de Google revela los Innovadores Transformadores Generativos de Vocabulario Infinito (GIVT) en IA, liderando secuencias de vectores de valor real
Los Transformers fueron introducidos por primera vez y rápidamente se elevaron a la prominencia como la arquitectura principal en el procesamiento del lenguaje natural. Más recientemente, también han ganado una inmensa popularidad en la visión por computadora. Dosovitskiy et al. demostraron cómo crear clasificadores de imágenes eficaces que superan a las arquitecturas basadas en CNN a escalas de modelo y datos altos dividiendo las imágenes en secuencias de parches, incrustando linealmente esos parches y luego alimentando la secuencia resultante de características a un codificador Transformer. Para muchas tareas de visión discriminativas, como la segmentación, la detección y la clasificación, este enfoque es actualmente la norma. Sin embargo, a medida que los decodificadores Transformer generativos consumen y anticipan tokens discretos de algún vocabulario predefinido y finito, no es apropiado para la producción de imágenes basada en Transformer mapear una imagen a una secuencia de vectores de características (no cuantizados).
Una estructura como esta se adapta naturalmente al lenguaje natural, y los modelos que solo tienen un decodificador permiten un entrenamiento efectivo a través del instructor forcing y una modelización generativa secuencial sólida. Los esfuerzos recientes han utilizado una técnica de dos etapas para mapear imágenes a una secuencia de tokens discretos utilizando un autoencoder variacional vector cuantizado Vector-Quantized (VQ-VAE), y luego aprender un decodificador Transformer para modelar la distribución latente de tokens discretos. Este enfoque tiene como objetivo aprovechar estas capacidades para las imágenes. Al concatenar simplemente los vocabularios de las diferentes modalidades, incluyendo texto e imágenes, esta tokenización de imágenes basada en VQ-VAE también permite modelos generativos multimodales intercalados. Aunque este método de dos pasos funcionó bien para crear imágenes y contenido multimodal, tiene algunos problemas.
La cantidad de datos que se pueden mantener en la secuencia de codificación latente y cuánto modelado visual se maneja mediante el decodificador VQ-VAE depende del tamaño del vocabulario en VQ-VAE. Un vocabulario corto puede facilitar el modelado latente, pero también reduce la informatividad del código latente, lo que dificulta regular los detalles finos en la formación de imágenes y afecta la calidad de las aplicaciones que utilizan los tokens para la predicción densa o tareas discriminatorias de bajo nivel. Aumentar el tamaño del vocabulario puede ayudar a solucionar este problema, pero hacerlo puede resultar en un mal uso del vocabulario, lo que obliga a configuraciones de VQ-VAE de alta fidelidad a depender de una variedad de métodos sofisticados como pérdidas de entropía o división de libros de código. Además, los vocabularios enormes resultan en matrices de embedding enormes que ocupan mucha memoria, lo que puede ser problemático en escenarios multimodales cuando se mezclan vocabularios de diferentes modalidades. El equipo de investigación sugiere cambiar los decodificadores Transformer solo de decodificación para eliminar la necesidad de tokens discretos y, por lo tanto, vocabularios fijos y limitados, con el fin de evitar estos problemas.
- Regresando a lo humano El viaje de la IA desde el código hasta los abrazos
- Rastreando la memoria de la sesión de Python usando Tracemem
- Potenciando la fiabilidad del aprendizaje automático Cómo la atipicidad mejora el rendimiento del modelo y la cuantificación de la incertidumbre
En particular, el equipo de investigación de Google DeepMind y Google Research propone un decodificador Transformador generativo que funciona con secuencias de vectores de valores reales. El equipo de investigación se refiere a esto como un Transformer Generativo de Vocabulario Ilimitado (GIVT) ya que los vectores de valores reales se pueden considerar como un vocabulario ilimitado. Como se muestra en la Fig. 1, el equipo de investigación modificó ligeramente el diseño del decodificador Transformer (dos modificaciones en total). 1) En la entrada, el equipo de investigación incrusta linealmente una secuencia de vectores de valores reales en lugar de buscar un vocabulario finito de incrustaciones utilizando una serie de tokens discretos; 2) en la salida, el equipo de investigación predice los parámetros de una distribución continua sobre vectores de valores reales en lugar de predecir los parámetros de una distribución categórica sobre un vocabulario finito (a través de logits). El equipo de investigación entrenó este modelo utilizando instructor forcing y una máscara de atención causal, al igual que los decodificadores Transformer típicos. Alternativamente, el equipo de investigación investigó el modelado progresivo bidireccional enmascarado rápido, similar a MaskGIT.
La serie de píxeles RGB creada al aplanar una imagen de alta resolución es un ejemplo de una secuencia que puede ser difícil de modelar directamente, incluso aunque GIVT teóricamente se pueda aplicar a cualquier secuencia de vectores de características. También puede ser excesivamente larga o seguir una distribución complicada. Por lo tanto, el equipo de investigación primero entrena un espacio latente de menor dimensión utilizando un VAE con prior Gaussian y luego lo modela con GIVT, que es similar a la técnica de dos etapas con VQ-VAEs y similar al enfoque de dos etapas de los modelos de difusión-latente. El equipo de investigación también transfirió varias estrategias de inferencia (como muestreo de temperatura y guía sin clasificador) de la literatura de modelado de secuencias.
Es notable que, dependiendo solo de tokens de valor real, esto produce un modelo que es superior o equivalente a las técnicas basadas en VQ. Lo siguiente describe sucintamente sus principales contribuciones:
1. Mediante el uso de UViM, el equipo de investigación demuestra que GIVT logra un rendimiento similar o mejor que el decodificador de transformador de token discreto típico en tareas de predicción densa, incluyendo segmentación semántica y estimación de profundidad, así como síntesis de imágenes.
2. El equipo de investigación derivó y probó la eficacia de variaciones de los métodos tradicionales de muestreo para el caso continuo, incluyendo muestreo de temperatura, búsqueda de haz y guía sin clasificador (CFG).
3. Mediante la ponderación del término KL, el equipo de investigación examina la conexión entre el nivel de regularización del espacio latente del VAE y las características de GIVT que surgen. El equipo de investigación enfatiza que los sofisticados métodos de entrenamiento de la literatura de VQ-VAE, como pérdidas auxiliares en la representación latente, reinicialización de libros de códigos o algoritmos de optimización especializados, no se utilizan en el entrenamiento del VAE y GIVT; en cambio, simplemente se basan en enfoques normales de caja de herramientas de aprendizaje profundo.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- EE.UU. acuerda sobre reglas históricas de Inteligencia Artificial
- Enfoque de computación cuántica utiliza moléculas individuales como bits cuánticos por primera vez
- Gafas de realidad virtual para ratones crean escenarios inmersivos para la investigación cerebral
- El año en que la inteligencia artificial se comió internet
- Bloqueo de Apple de Beeper Mini en iMessage solo es parte de la gran saga de la burbuja azul/verde
- Cómo los asesores financieros pueden utilizar la IA para desbloquear más valor
- Revisión del software de transcripción Speak AI (diciembre de 2023)