Clasificación de Imágenes para Principiantes
Guía de Clasificación de Imágenes para Principiantes
Arquitectura VGG y ResNet desde 2014
![Imágenes de unsplash - modificadas por el autor](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*CsqLl7_fFxTeF6sPP4dF4Q.png)
La clasificación de imágenes fue el primer tema que enseñé en Interview Kickstart para preparar a profesionales para conseguir empleos en las empresas tecnológicas más importantes. Escribí este artículo cuando me estaba preparando para una de mis conferencias allí. Así que si no estás familiarizado con este tema, esta explicación intuitiva también puede ayudarte.
En este artículo, vemos los modelos VGG y ResNet; ambos son trabajos seminales e influyentes en el desarrollo de redes neuronales convolucionales (CNNs) para la visión por computadora. VGG[2] fue propuesto en 2014 por un grupo de investigación en Oxford, y ResNet[3] fue propuesto por investigadores de Microsoft en 2015.
Empecemos.
¿Qué es VGG?
VGG significa Visual Geometry Group y es un grupo de investigación en la Universidad de Oxford. En 2014, diseñaron una arquitectura de red neuronal convolucional profunda para tareas de clasificación de imágenes y le pusieron su propio nombre; es decir, VGG [2].
Arquitectura de la red VGG
Esta red viene en varias configuraciones; todas tienen la misma arquitectura pero difieren en la cantidad de capas. Las más famosas son VGG16 y VGG19. VGG19 es más profunda y tiene un mejor rendimiento que VGG16. Por simplicidad, nos enfocaremos en VGG16.
La arquitectura de VGG16 se muestra en la siguiente imagen. Como podemos ver, tiene 16 capas; 13 capas convolucionales y 3 capas totalmente conectadas.
![Arquitectura VGG16 - imagen por el autor](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*cX_iynTJ4JRN5eA0BTuxmA.png)
Es una arquitectura muy sencilla; consta de 6 bloques donde los primeros 5 bloques contienen capas convolucionales seguidas de un max pool, y el sexto bloque contiene solo capas totalmente conectadas.
Todas las capas convolucionales utilizan filtros de 3×3 con stride=1, y todas las capas de max pooling son de 2×2 con stride=2, por lo que reducen a la mitad el ancho y el alto del mapa de características de entrada. Esto se llama downsampling, ya que reduce el tamaño del mapa de características de salida.
Observa que las capas convolucionales comienzan con 64 filtros y se duplican después de cada pooling hasta que alcanzan los 512 filtros. Todas las capas convolucionales utilizan un relleno “same” para mantener…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Top importantes Documentos de Visión por Computadora de la semana del 9/10 al 15/10
- Tendencias futuras en la integración de datos
- ChatGPT vs. BARD
- Conoce Universal Simulator (UniSim) Un simulador interactivo de la interacción del mundo real a través del modelado generativo
- DALL·E 3 está aquí con integración de ChatGPT
- De desbloquear generaciones confiables a través de la cadena de verificación Un salto en la ingeniería oportuna
- Investigadores de Stanford y Microsoft presentan Inteligencia Artificial de Auto-Mejora Aprovechando GPT-4 para elevar el rendimiento del programa de andamiaje.