Este artículo de IA presenta RMT una fusión de RetNet y Transformer, abriendo una nueva era en eficiencia y precisión de la visión por computadora.

Este artículo de IA introduce RMT la combinación de RetNet y Transformer que abre una nueva era en la eficiencia y precisión de la visión por computadora.

Después de su debut en NLP, el Transformer se transfirió al ámbito de la visión por computadora, donde demostró ser particularmente eficiente. En contraste, la comunidad de NLP se ha interesado recientemente en la Retentive Network (RetNet), un diseño que podría potencialmente reemplazar al Transformer. Investigadores chinos cuestionan si aplicar el concepto de RetNet a la visión resultará en un rendimiento igualmente impresionante. Para resolver este problema, proponen RMT, una combinación híbrida de RetNet y Transformer. RMT, influenciado por RetNet, agrega decaimiento explícito a la base de visión, permitiendo al modelo de visión utilizar conocimiento previamente adquirido sobre distancias espaciales. Esta prioridad espacial relacionada con la distancia permite regular de manera precisa el ancho de banda perceptual de cada token. También descomponen el proceso de modelado a lo largo de los dos ejes de coordenadas de la imagen, lo que ayuda a reducir el costo computacional del modelado global.

Experimentos extensos han demostrado que RMT sobresale en diversas tareas de visión por computadora. Por ejemplo, con solo 4.5G FLOPS, RMT obtiene un 84.1% de Top1-acc en ImageNet-1k. Cuando los modelos son aproximadamente del mismo tamaño y se entrenan utilizando la misma técnica, RMT consistentemente produce el mayor Top1-acc. En tareas secundarias como la detección de objetos, la segmentación de instancias y la segmentación semántica, RMT supera ampliamente a las bases de visión existentes.

Experimentos extensos muestran que la estrategia propuesta funciona; por lo tanto, los investigadores respaldan sus afirmaciones. RMT logra resultados significativamente mejores en tareas de clasificación de imágenes que los modelos de última generación. El modelo supera a modelos competidores en varias tareas, incluyendo la detección de objetos y la segmentación de instancias.

Los siguientes han realizado contribuciones:

Los investigadores incorporan conocimiento previo espacial sobre distancias en modelos de visión, llevando el proceso clave de la Retentive Network, la retención, al entorno bidimensional. Retentive SelfAttention (ReSA) es el nombre del nuevo mecanismo.
Para simplificar su cálculo, los investigadores descomponen ReSA a lo largo de dos ejes de la imagen. Esta estrategia de descomposición reduce eficientemente el esfuerzo computacional requerido sin efectos significativos en la eficiencia del modelo.
Pruebas extensas han demostrado el rendimiento superior de RMT. RMT muestra beneficios especialmente fuertes en tareas secundarias como la detección de objetos y la segmentación de instancias.

En resumen, los investigadores sugieren RMT, una base de visión que combina una red retentiva y un Transformador de Visión. Con RMT, se introduce conocimiento previo espacial en los modelos visuales en forma de decaimiento explícito relacionado con la distancia. El acrónimo ReSA describe el nuevo proceso de mejora de la retención de memoria. RMT también utiliza una técnica que descompone el ReSA en dos ejes para simplificar el modelo. Experimentos extensos confirman la eficiencia de RMT, especialmente en tareas secundarias como la detección de objetos, donde RMT muestra ventajas notables.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

Este artículo de IA presenta RMT una fusión de RetNet y Transformer, abriendo una nueva era en eficiencia y precisión de la visión por computadora.

Was this article helpful?

Investigadores de la Universidad de Tsinghua presentan OpenChat Un nuevo marco de Inteligencia Artificial (IA) que mejora los modelos de lenguaje de código abierto con datos de calidad mixta.

Desplegando tu primer modelo de aprendizaje automático

Inteligencia Artificial

Una nueva investigación de IA explica cómo el Aprendizaje de Instrucción en Contexto (ICIL) mejora el rendimiento de generalización de tareas sin entrenamiento para modelos preentrenados y modelos ajustados mediante instrucciones.

Este artículo de IA de GSAi China presenta un estudio exhaustivo de agentes autónomos basados en LLM

¿Pueden los robots cuadrúpedos de bajo costo dominar el parkour? Revelando un revolucionario sistema de aprendizaje para el movimiento ágil de robots

Aceptando la Diversidad Neuronal Un Salto en la Eficiencia y Rendimiento de la IA

Ya está mucho más allá de lo que los humanos pueden hacer' ¿Eliminará la IA a los arquitectos?

Investigadores de Stanford y UT Austin proponen Aprendizaje de Preferencia Contrastiva (APC) un método sencillo de Aprendizaje por Reforzamiento (RL) que no necesita RL y funciona con MDPs arbitrarios y datos fuera de política.