Este artículo de IA presenta un análisis exhaustivo de las espinas dorsales de visión por computadora desvelando las fortalezas y debilidades de los modelos preentrenados
Este artículo de IA ofrece un análisis exhaustivo de las espinas dorsales de visión por computadora, revelando las fortalezas y debilidades de los modelos preentrenados
En la visión por computadora, las estructuras fundamentales son componentes fundamentales de muchos modelos de aprendizaje profundo. Las actividades posteriores como la categorización, detección y segmentación dependen de las características extraídas por la estructura fundamental. Ha habido una explosión de nuevas estrategias de preentrenamiento y arquitecturas de estructuras fundamentales en los últimos años. Como resultado, los profesionales se enfrentan al desafío de elegir cuál es la estructura fundamental ideal para su actividad y conjunto de datos específico.
La Batalla de las Estructuras Fundamentales (BoB) es un nuevo benchmark a gran escala que compara muchos puntos de control preentrenados populares disponibles públicamente y líneas de base inicializadas de forma aleatoria en diversas tareas posteriores. Fue desarrollado por investigadores de la Universidad de Nueva York, la Universidad Johns Hopkins, la Universidad de Maryland, el Instituto de Tecnología de Georgia, Inria y Meta AI Research. Los hallazgos de BoB arrojan luz sobre los méritos relativos de varias topologías de estructuras fundamentales y estrategias de preentrenamiento.
El estudio encontró algunas cosas interesantes, incluyendo:
- Investigadores de China proponen iTransformer Repensando la arquitectura Transformer para una mejora en la previsión de series temporales
- Álgebra Lineal 4 Ecuaciones Matriciales
- Generando más perspectivas de calidad por mes
- Las redes convolucionales supervisadas preentrenadas suelen tener un mejor rendimiento que los transformadores. Esto probablemente se deba a que las redes convolucionales supervisadas son accesibles y entrenadas en conjuntos de datos más grandes. Por otro lado, los modelos auto-supervisados tienen un mejor rendimiento que sus análogos supervisados cuando se comparan los resultados en conjuntos de datos del mismo tamaño.
- En comparación con las CNN, las ViTs son más sensibles al número de parámetros y a la cantidad de datos de preentrenamiento. Esto indica que el entrenamiento de las ViTs puede requerir más datos y potencia de procesamiento que el entrenamiento de las CNN. La precisión, el costo computacional y los profesionales deben tener en cuenta las compensaciones de disponibilidad de datos antes de decidirse por una arquitectura de estructura fundamental.
- El grado de correlación entre el rendimiento de las tareas es alto. Las mejores estructuras fundamentales de BoB funcionan admirablemente en una amplia variedad de escenarios.
- La optimización integral ayuda más a los transformadores que a las CNN en tareas de predicción densa. Esto indica que los transformadores pueden depender más de la tarea y el conjunto de datos que las CNN.
- Modelado de visión y lenguaje utilizando modelos CLIP y otras arquitecturas avanzadas prometedoras. El preentrenamiento de CLIP es el mejor entre las estructuras fundamentales de transformadores de visión convencionales, incluso en comparación con las estructuras fundamentales entrenadas supervisadas de ImageNet-21k. Estos datos demuestran que el preentrenamiento en visión por lenguaje puede mejorar los resultados en tareas de visión por computadora. Los autores aconsejan a los profesionales investigar las estructuras fundamentales preentrenadas disponibles a través de CLIP.
El estado del arte de los marcos de visión por computadora se describe en BoB. Sin embargo, el campo es dinámico, con avances constantes en arquitecturas novedosas y técnicas de preentrenamiento. Por lo tanto, el equipo considera vital evaluar y comparar constantemente nuevas infraestructuras y encontrar formas de mejorar el rendimiento.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Pareto, Ley de Potencias y Colas Gruesas
- Creando una animación de descenso de gradiente en Python
- Haz que Python sea más rápido mediante el almacenamiento en caché de funciones Memoización
- Guía para principiantes sobre cómo construir conjuntos de datos de alta calidad para el aprendizaje automático
- La desmitificación de la dependencia y por qué es importante en la inferencia causal y la validación causal
- Luma AI lanza Genie un nuevo modelo de IA generativa en 3D que te permite crear objetos en 3D a partir de texto.
- La caja de herramientas del científico de datos Análisis sintáctico