Esta investigación de IA presenta un nuevo enfoque para el reconocimiento de pose de objetos como predicción del próximo token’.
Una Investigación Innovadora de IA Un Nuevo Enfoque para el Reconocimiento de la Postura de Objetos como Predicción del Próximo Token'.
¿Cómo podemos abordar de forma efectiva el reconocimiento de objetos? Un equipo de investigadores de Meta AI y la Universidad de Maryland abordó el problema del reconocimiento de objetos mediante el desarrollo de un nuevo método que utiliza un decodificador de lenguaje para predecir los tokens de texto a partir de los embeddings de imagen y formar etiquetas. También propusieron una estrategia para crear un decodificador más eficiente sin comprometer el rendimiento.
El reconocimiento de objetos, que precede a la era del aprendizaje profundo, ha ayudado en la anotación de imágenes. Los métodos implicaban el corte de regiones y la predicción de palabras, alineando regiones con palabras mediante léxicos. La co-incrustación de imágenes y texto en un espacio compartido abordó la coincidencia de imagen-texto, enfatizando la fundamentación de frases. La anotación de imágenes evolucionó desde modelos de temas hasta arquitecturas basadas en transformadores. Los modelos de lenguaje como GPT y LLaMA contribuyeron a la percepción visual y se aplicaron en detección, reconocimiento de pocos ejemplos, explicaciones y razonamientos. Los conceptos arquitectónicos de los modelos de lenguaje, como la idea de prefijo, han influido y se han explorado en el dominio de la visión y el lenguaje.
El estudio aborda el reconocimiento de objetos en la visión por computadora al introducir un marco de trabajo con un codificador de imagen que produce embeddings y un decodificador de lenguaje que predice las etiquetas de los objetos. A diferencia de los métodos tradicionales con embeddings fijos, el enfoque propuesto trata el reconocimiento como la predicción del siguiente token, lo que permite la decodificación auto-regresiva de las etiquetas a partir de los embeddings de imagen. Esto elimina la necesidad de etiquetas predefinidas, fomentando un reconocimiento flexible y eficiente. Las innovaciones clave, incluyendo una máscara de atención no causal y un decodificador compacto, mejoran la eficiencia sin comprometer el rendimiento, ofreciendo una solución novedosa al reconocimiento de objetos en la visión por computadora.
- Investigadores de Microsoft proponen TaskWeaver un marco de trabajo de aprendizaje automático basado en el código para construir agentes autónomos impulsados por LLM.
- Así es como puedes comenzar a usar Gemini de Google
- Ciencia de datos del entretenimiento Streaming vs. Cine
La investigación presenta un enfoque de reconocimiento de objetos basado en la predicción del siguiente token, utilizando un decodificador de lenguaje que predice los tokens de texto a partir de los embeddings de imagen para crear etiquetas. Se emplea la auto-regresión, incorporando una máscara de atención no causal para permitir que el decodificador modele los tokens de forma independiente y trate los tokens de imagen como un prefijo. Introduce el muestreo de un solo disparo para muestrear tokens de forma paralela de múltiples etiquetas, clasificándolos por probabilidades durante la inferencia. Para mejorar la eficiencia, se propone una estrategia de construcción de decodificador compacto, que implica la eliminación de bloques intermedios de un modelo de lenguaje preentrenado sin comprometer el rendimiento.
El estudio compara exhaustivamente con CLIP, Open Flamingo, LLaVA, BLIP-2, InstructBLIP y CaSED, evaluando las principales predicciones y las curvas de precisión-recuperación. El enfoque propuesto supera consistentemente a los competidores en las mejores 10 predicciones, lo que indica una relevancia superior en la generación de etiquetas. Las curvas de precisión-recuperación muestran una fuerte correlación lineal, lo que sugiere una mejor calidad de predicción en todos los conjuntos de datos, con un mayor recall a medida que aumenta k. Los estudios de reducción del decodificador muestran una mínima disminución del rendimiento en CC3M pero ningún cambio en COCO y OpenImages. Esto subraya la importancia de los bloques iniciales del modelo LLaMA 7B para el reconocimiento de objetos, lo que lleva a eliminar bloques después del undécimo para obtener un decodificador más compacto.
En conclusión, el enfoque auto-regresivo propuesto que utiliza la predicción del siguiente token para el reconocimiento de objetos supera a otros métodos en la generación de las mejores 10 predicciones en todos los conjuntos de datos, lo que indica una relevancia superior en la generación de etiquetas. La fuerte correlación lineal observada en las curvas de precisión-recuperación sugiere una mejor calidad de predicción en todos los conjuntos de prueba. Los estudios de reducción del decodificador muestran una ligera disminución del rendimiento en CC3M pero ningún cambio en COCO y OpenImages. Además, la eliminación de bloques intermedios del transformador en el modelo LLaMA da como resultado un decodificador más compacto con un rendimiento comparable, lo que resalta la importancia de un subconjunto de conocimientos en LLMs para el reconocimiento de objetos.
Investigaciones futuras podrían centrarse en abordar las preocupaciones de competencia en el muestreo de un solo disparo mediante la exploración de estrategias de mitigación. Otra área potencial es investigar la alineación directa de modelos generativos, especialmente LLMs, con el reconocimiento de objetos sin subconjuntos predefinidos o puntos de referencia. Además, sería útil examinar el impacto de aumentar significativamente el volumen de datos de entrenamiento para reducir la dependencia de interpretar o reconocer datos y conceptos no vistos, lo que se alinea con el paradigma de mundo abierto de aprender nuevas etiquetas de forma incremental con el tiempo.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ¿Cuál es la probabilidad de que dos personas tengan las mismas iniciales?
- Conoce VideoSwap Un marco de inteligencia artificial que personaliza el intercambio de temas de video con una correspondencia puntual semántica interactiva.
- Optimización de la simulación Ayudando a mi amigo a modelar y optimizar el servicio de atención al cliente de su empresa.
- Conozca al Omnivore SiBORG Lab mejora su enfoque en accesibilidad utilizando OpenUSD y NVIDIA Omniverse
- La IA multimodal conecta los puntos digitales
- Drones Protegen los Aerogeneradores del Hielo
- Bots, granjas fraudulentas responsables del 73% del tráfico web