Este artículo de IA presenta RMT una fusión de RetNet y Transformer, abriendo una nueva era en eficiencia y precisión de la visión por computadora.
Este artículo de IA introduce RMT la combinación de RetNet y Transformer que abre una nueva era en la eficiencia y precisión de la visión por computadora.
Después de su debut en NLP, el Transformer se transfirió al ámbito de la visión por computadora, donde demostró ser particularmente eficiente. En contraste, la comunidad de NLP se ha interesado recientemente en la Retentive Network (RetNet), un diseño que podría potencialmente reemplazar al Transformer. Investigadores chinos cuestionan si aplicar el concepto de RetNet a la visión resultará en un rendimiento igualmente impresionante. Para resolver este problema, proponen RMT, una combinación híbrida de RetNet y Transformer. RMT, influenciado por RetNet, agrega decaimiento explícito a la base de visión, permitiendo al modelo de visión utilizar conocimiento previamente adquirido sobre distancias espaciales. Esta prioridad espacial relacionada con la distancia permite regular de manera precisa el ancho de banda perceptual de cada token. También descomponen el proceso de modelado a lo largo de los dos ejes de coordenadas de la imagen, lo que ayuda a reducir el costo computacional del modelado global.
Experimentos extensos han demostrado que RMT sobresale en diversas tareas de visión por computadora. Por ejemplo, con solo 4.5G FLOPS, RMT obtiene un 84.1% de Top1-acc en ImageNet-1k. Cuando los modelos son aproximadamente del mismo tamaño y se entrenan utilizando la misma técnica, RMT consistentemente produce el mayor Top1-acc. En tareas secundarias como la detección de objetos, la segmentación de instancias y la segmentación semántica, RMT supera ampliamente a las bases de visión existentes.
Experimentos extensos muestran que la estrategia propuesta funciona; por lo tanto, los investigadores respaldan sus afirmaciones. RMT logra resultados significativamente mejores en tareas de clasificación de imágenes que los modelos de última generación. El modelo supera a modelos competidores en varias tareas, incluyendo la detección de objetos y la segmentación de instancias.
- Investigadores de la Universidad de Tsinghua presentan OpenChat Un nuevo marco de Inteligencia Artificial (IA) que mejora los modelos de lenguaje de código abierto con datos de calidad mixta.
- Este informe de AI de Microsoft presenta un nuevo enfoque para entrenar modelos de lenguaje imitar la comprensión de lectura humana para un rendimiento mejorado en biomedicina, finanzas y derecho.
- Creando un Agente LLAma 2 Empoderado con Conocimiento de Wikipedia
Los siguientes han realizado contribuciones:
- Los investigadores incorporan conocimiento previo espacial sobre distancias en modelos de visión, llevando el proceso clave de la Retentive Network, la retención, al entorno bidimensional. Retentive SelfAttention (ReSA) es el nombre del nuevo mecanismo.
- Para simplificar su cálculo, los investigadores descomponen ReSA a lo largo de dos ejes de la imagen. Esta estrategia de descomposición reduce eficientemente el esfuerzo computacional requerido sin efectos significativos en la eficiencia del modelo.
- Pruebas extensas han demostrado el rendimiento superior de RMT. RMT muestra beneficios especialmente fuertes en tareas secundarias como la detección de objetos y la segmentación de instancias.
En resumen, los investigadores sugieren RMT, una base de visión que combina una red retentiva y un Transformador de Visión. Con RMT, se introduce conocimiento previo espacial en los modelos visuales en forma de decaimiento explícito relacionado con la distancia. El acrónimo ReSA describe el nuevo proceso de mejora de la retención de memoria. RMT también utiliza una técnica que descompone el ReSA en dos ejes para simplificar el modelo. Experimentos extensos confirman la eficiencia de RMT, especialmente en tareas secundarias como la detección de objetos, donde RMT muestra ventajas notables.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ¿Está sobrevalorada la democratización de los datos?
- Cómo los científicos de datos pueden beneficiarse de usar LinkedIn más
- Cómo la capacitación en persona en ODSC West puede darle ventaja a su equipo
- ¡Pandas ¡Trabaja en tus dtypes!
- Amazon planea invertir hasta $4 mil millones en la innovadora startup de inteligencia artificial, Anthropic
- El fundador y CEO de NVIDIA, Jensen Huang, regresa a Denny’s donde NVIDIA lanzó una visión de billones de dólares.
- El Futuro de la Búsqueda Cómo ChatGPT, la Búsqueda por Voz y la Búsqueda de Imágenes están Revolucionando el Paisaje Digital