Este artículo de IA presenta un análisis exhaustivo de las espinas dorsales de visión por computadora desvelando las fortalezas y debilidades de los modelos preentrenados

Este artículo de IA ofrece un análisis exhaustivo de las espinas dorsales de visión por computadora, revelando las fortalezas y debilidades de los modelos preentrenados

En la visión por computadora, las estructuras fundamentales son componentes fundamentales de muchos modelos de aprendizaje profundo. Las actividades posteriores como la categorización, detección y segmentación dependen de las características extraídas por la estructura fundamental. Ha habido una explosión de nuevas estrategias de preentrenamiento y arquitecturas de estructuras fundamentales en los últimos años. Como resultado, los profesionales se enfrentan al desafío de elegir cuál es la estructura fundamental ideal para su actividad y conjunto de datos específico.

La Batalla de las Estructuras Fundamentales (BoB) es un nuevo benchmark a gran escala que compara muchos puntos de control preentrenados populares disponibles públicamente y líneas de base inicializadas de forma aleatoria en diversas tareas posteriores. Fue desarrollado por investigadores de la Universidad de Nueva York, la Universidad Johns Hopkins, la Universidad de Maryland, el Instituto de Tecnología de Georgia, Inria y Meta AI Research. Los hallazgos de BoB arrojan luz sobre los méritos relativos de varias topologías de estructuras fundamentales y estrategias de preentrenamiento.

El estudio encontró algunas cosas interesantes, incluyendo:

Las redes convolucionales supervisadas preentrenadas suelen tener un mejor rendimiento que los transformadores. Esto probablemente se deba a que las redes convolucionales supervisadas son accesibles y entrenadas en conjuntos de datos más grandes. Por otro lado, los modelos auto-supervisados tienen un mejor rendimiento que sus análogos supervisados cuando se comparan los resultados en conjuntos de datos del mismo tamaño.
En comparación con las CNN, las ViTs son más sensibles al número de parámetros y a la cantidad de datos de preentrenamiento. Esto indica que el entrenamiento de las ViTs puede requerir más datos y potencia de procesamiento que el entrenamiento de las CNN. La precisión, el costo computacional y los profesionales deben tener en cuenta las compensaciones de disponibilidad de datos antes de decidirse por una arquitectura de estructura fundamental.
El grado de correlación entre el rendimiento de las tareas es alto. Las mejores estructuras fundamentales de BoB funcionan admirablemente en una amplia variedad de escenarios.
La optimización integral ayuda más a los transformadores que a las CNN en tareas de predicción densa. Esto indica que los transformadores pueden depender más de la tarea y el conjunto de datos que las CNN.
Modelado de visión y lenguaje utilizando modelos CLIP y otras arquitecturas avanzadas prometedoras. El preentrenamiento de CLIP es el mejor entre las estructuras fundamentales de transformadores de visión convencionales, incluso en comparación con las estructuras fundamentales entrenadas supervisadas de ImageNet-21k. Estos datos demuestran que el preentrenamiento en visión por lenguaje puede mejorar los resultados en tareas de visión por computadora. Los autores aconsejan a los profesionales investigar las estructuras fundamentales preentrenadas disponibles a través de CLIP.

El estado del arte de los marcos de visión por computadora se describe en BoB. Sin embargo, el campo es dinámico, con avances constantes en arquitecturas novedosas y técnicas de preentrenamiento. Por lo tanto, el equipo considera vital evaluar y comparar constantemente nuevas infraestructuras y encontrar formas de mejorar el rendimiento.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Este artículo de IA presenta un análisis exhaustivo de las espinas dorsales de visión por computadora desvelando las fortalezas y debilidades de los modelos preentrenados

Was this article helpful?

Investigadores de China proponen iTransformer Repensando la arquitectura Transformer para una mejora en la previsión de series temporales

El poder de la IA en predecir el comportamiento de pago del consumidor

Inteligencia Artificial

Google AI presenta PaLI-3 un modelo de lenguaje de visión (VLM) más pequeño, rápido y potente que se compara favorablemente con modelos similares que son 10 veces más grandes.

Investigadores de UC Berkeley presentan LLMCompiler Un compilador de LLM que optimiza el rendimiento de la llamada de funciones paralelas de LLMs

¿Son útiles las leyendas sintéticas para el entrenamiento multimodal? Este artículo de IA demuestra la efectividad de las leyendas sintéticas en mejorar la calidad de las leyendas para el entrenamiento multimodal.

NVIDIA AI presenta SteerLM un nuevo método de inteligencia artificial que permite a los usuarios personalizar las respuestas de los grandes modelos de lenguaje (LLMs) durante la inferencia.

Investigadores de CMU y UC Santa Bárbara proponen una innovadora IA basada en el 'Diagnóstico del pensamiento' para la detección de distorsiones cognitivas en psicoterapia

Red Cat y Athena AI crean drones militares inteligentes con visión nocturna.