Este artículo de IA presenta RMT una fusión de RetNet y Transformer, abriendo una nueva era en eficiencia y precisión de la visión por computadora.

Este artículo de IA introduce RMT la combinación de RetNet y Transformer que abre una nueva era en la eficiencia y precisión de la visión por computadora.

Después de su debut en NLP, el Transformer se transfirió al ámbito de la visión por computadora, donde demostró ser particularmente eficiente. En contraste, la comunidad de NLP se ha interesado recientemente en la Retentive Network (RetNet), un diseño que podría potencialmente reemplazar al Transformer. Investigadores chinos cuestionan si aplicar el concepto de RetNet a la visión resultará en un rendimiento igualmente impresionante. Para resolver este problema, proponen RMT, una combinación híbrida de RetNet y Transformer. RMT, influenciado por RetNet, agrega decaimiento explícito a la base de visión, permitiendo al modelo de visión utilizar conocimiento previamente adquirido sobre distancias espaciales. Esta prioridad espacial relacionada con la distancia permite regular de manera precisa el ancho de banda perceptual de cada token. También descomponen el proceso de modelado a lo largo de los dos ejes de coordenadas de la imagen, lo que ayuda a reducir el costo computacional del modelado global.

Experimentos extensos han demostrado que RMT sobresale en diversas tareas de visión por computadora. Por ejemplo, con solo 4.5G FLOPS, RMT obtiene un 84.1% de Top1-acc en ImageNet-1k. Cuando los modelos son aproximadamente del mismo tamaño y se entrenan utilizando la misma técnica, RMT consistentemente produce el mayor Top1-acc. En tareas secundarias como la detección de objetos, la segmentación de instancias y la segmentación semántica, RMT supera ampliamente a las bases de visión existentes.

Experimentos extensos muestran que la estrategia propuesta funciona; por lo tanto, los investigadores respaldan sus afirmaciones. RMT logra resultados significativamente mejores en tareas de clasificación de imágenes que los modelos de última generación. El modelo supera a modelos competidores en varias tareas, incluyendo la detección de objetos y la segmentación de instancias.

Los siguientes han realizado contribuciones:

  • Los investigadores incorporan conocimiento previo espacial sobre distancias en modelos de visión, llevando el proceso clave de la Retentive Network, la retención, al entorno bidimensional. Retentive SelfAttention (ReSA) es el nombre del nuevo mecanismo.
  • Para simplificar su cálculo, los investigadores descomponen ReSA a lo largo de dos ejes de la imagen. Esta estrategia de descomposición reduce eficientemente el esfuerzo computacional requerido sin efectos significativos en la eficiencia del modelo.
  • Pruebas extensas han demostrado el rendimiento superior de RMT. RMT muestra beneficios especialmente fuertes en tareas secundarias como la detección de objetos y la segmentación de instancias.

En resumen, los investigadores sugieren RMT, una base de visión que combina una red retentiva y un Transformador de Visión. Con RMT, se introduce conocimiento previo espacial en los modelos visuales en forma de decaimiento explícito relacionado con la distancia. El acrónimo ReSA describe el nuevo proceso de mejora de la retención de memoria. RMT también utiliza una técnica que descompone el ReSA en dos ejes para simplificar el modelo. Experimentos extensos confirman la eficiencia de RMT, especialmente en tareas secundarias como la detección de objetos, donde RMT muestra ventajas notables.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Este artículo de IA de GSAi China presenta un estudio exhaustivo de agentes autónomos basados en LLM

Los agentes autónomos representan sistemas autooperativos que exhiben diferentes grados de independencia. Investigaci...

Inteligencia Artificial

¿Pueden los robots cuadrúpedos de bajo costo dominar el parkour? Revelando un revolucionario sistema de aprendizaje para el movimiento ágil de robots

La búsqueda de hacer que los robots realicen tareas físicas complejas, como navegar por entornos desafiantes, ha sido...

Inteligencia Artificial

Aceptando la Diversidad Neuronal Un Salto en la Eficiencia y Rendimiento de la IA

El papel de la diversidad ha sido objeto de discusión en diversos campos, desde la biología hasta la sociología. Sin ...

Inteligencia Artificial

Ya está mucho más allá de lo que los humanos pueden hacer' ¿Eliminará la IA a los arquitectos?

Está revolucionando la construcción, pero ¿podría la inteligencia artificial eliminar toda una profesión?