Este artículo de IA presenta un análisis exhaustivo de las espinas dorsales de visión por computadora desvelando las fortalezas y debilidades de los modelos preentrenados

Este artículo de IA ofrece un análisis exhaustivo de las espinas dorsales de visión por computadora, revelando las fortalezas y debilidades de los modelos preentrenados

En la visión por computadora, las estructuras fundamentales son componentes fundamentales de muchos modelos de aprendizaje profundo. Las actividades posteriores como la categorización, detección y segmentación dependen de las características extraídas por la estructura fundamental. Ha habido una explosión de nuevas estrategias de preentrenamiento y arquitecturas de estructuras fundamentales en los últimos años. Como resultado, los profesionales se enfrentan al desafío de elegir cuál es la estructura fundamental ideal para su actividad y conjunto de datos específico.

La Batalla de las Estructuras Fundamentales (BoB) es un nuevo benchmark a gran escala que compara muchos puntos de control preentrenados populares disponibles públicamente y líneas de base inicializadas de forma aleatoria en diversas tareas posteriores. Fue desarrollado por investigadores de la Universidad de Nueva York, la Universidad Johns Hopkins, la Universidad de Maryland, el Instituto de Tecnología de Georgia, Inria y Meta AI Research. Los hallazgos de BoB arrojan luz sobre los méritos relativos de varias topologías de estructuras fundamentales y estrategias de preentrenamiento.

El estudio encontró algunas cosas interesantes, incluyendo:

  • Las redes convolucionales supervisadas preentrenadas suelen tener un mejor rendimiento que los transformadores. Esto probablemente se deba a que las redes convolucionales supervisadas son accesibles y entrenadas en conjuntos de datos más grandes. Por otro lado, los modelos auto-supervisados tienen un mejor rendimiento que sus análogos supervisados cuando se comparan los resultados en conjuntos de datos del mismo tamaño.
  • En comparación con las CNN, las ViTs son más sensibles al número de parámetros y a la cantidad de datos de preentrenamiento. Esto indica que el entrenamiento de las ViTs puede requerir más datos y potencia de procesamiento que el entrenamiento de las CNN. La precisión, el costo computacional y los profesionales deben tener en cuenta las compensaciones de disponibilidad de datos antes de decidirse por una arquitectura de estructura fundamental.
  • El grado de correlación entre el rendimiento de las tareas es alto. Las mejores estructuras fundamentales de BoB funcionan admirablemente en una amplia variedad de escenarios.
  • La optimización integral ayuda más a los transformadores que a las CNN en tareas de predicción densa. Esto indica que los transformadores pueden depender más de la tarea y el conjunto de datos que las CNN.
  • Modelado de visión y lenguaje utilizando modelos CLIP y otras arquitecturas avanzadas prometedoras. El preentrenamiento de CLIP es el mejor entre las estructuras fundamentales de transformadores de visión convencionales, incluso en comparación con las estructuras fundamentales entrenadas supervisadas de ImageNet-21k. Estos datos demuestran que el preentrenamiento en visión por lenguaje puede mejorar los resultados en tareas de visión por computadora. Los autores aconsejan a los profesionales investigar las estructuras fundamentales preentrenadas disponibles a través de CLIP.

El estado del arte de los marcos de visión por computadora se describe en BoB. Sin embargo, el campo es dinámico, con avances constantes en arquitecturas novedosas y técnicas de preentrenamiento. Por lo tanto, el equipo considera vital evaluar y comparar constantemente nuevas infraestructuras y encontrar formas de mejorar el rendimiento.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de UC Berkeley presentan LLMCompiler Un compilador de LLM que optimiza el rendimiento de la llamada de funciones paralelas de LLMs

Las tareas de llamadas multifunción pueden ser lentas e inexactas cuando se utilizan LLM. Para abordar este problema,...

Aprendizaje Automático

Red Cat y Athena AI crean drones militares inteligentes con visión nocturna.

Red Cat Holdings, Inc., una empresa líder en tecnología militar, ha logrado un hito en su colaboración con Athena AI....