Clasificación de Imágenes para Principiantes

Guía de Clasificación de Imágenes para Principiantes

Arquitectura VGG y ResNet desde 2014

Imágenes de unsplash - modificadas por el autor

La clasificación de imágenes fue el primer tema que enseñé en Interview Kickstart para preparar a profesionales para conseguir empleos en las empresas tecnológicas más importantes. Escribí este artículo cuando me estaba preparando para una de mis conferencias allí. Así que si no estás familiarizado con este tema, esta explicación intuitiva también puede ayudarte.

En este artículo, vemos los modelos VGG y ResNet; ambos son trabajos seminales e influyentes en el desarrollo de redes neuronales convolucionales (CNNs) para la visión por computadora. VGG[2] fue propuesto en 2014 por un grupo de investigación en Oxford, y ResNet[3] fue propuesto por investigadores de Microsoft en 2015.

Empecemos.

¿Qué es VGG?

VGG significa Visual Geometry Group y es un grupo de investigación en la Universidad de Oxford. En 2014, diseñaron una arquitectura de red neuronal convolucional profunda para tareas de clasificación de imágenes y le pusieron su propio nombre; es decir, VGG [2].

Arquitectura de la red VGG

Esta red viene en varias configuraciones; todas tienen la misma arquitectura pero difieren en la cantidad de capas. Las más famosas son VGG16 y VGG19. VGG19 es más profunda y tiene un mejor rendimiento que VGG16. Por simplicidad, nos enfocaremos en VGG16.

La arquitectura de VGG16 se muestra en la siguiente imagen. Como podemos ver, tiene 16 capas; 13 capas convolucionales y 3 capas totalmente conectadas.

Arquitectura VGG16 - imagen por el autor

Es una arquitectura muy sencilla; consta de 6 bloques donde los primeros 5 bloques contienen capas convolucionales seguidas de un max pool, y el sexto bloque contiene solo capas totalmente conectadas.

Todas las capas convolucionales utilizan filtros de 3×3 con stride=1, y todas las capas de max pooling son de 2×2 con stride=2, por lo que reducen a la mitad el ancho y el alto del mapa de características de entrada. Esto se llama downsampling, ya que reduce el tamaño del mapa de características de salida.

Observa que las capas convolucionales comienzan con 64 filtros y se duplican después de cada pooling hasta que alcanzan los 512 filtros. Todas las capas convolucionales utilizan un relleno “same” para mantener…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Traducción de imágenes de bocetos a imágenes Transformando bocetos abstractos en imágenes fotorrealistas con GANs

Algunas personas son habilidosas para dibujar a mano alzada, mientras que otras pueden tener talento para otras tarea...

Inteligencia Artificial

Las Pruebas Asistidas por Computadora Abordan el Flujo de Fluidos

Los investigadores utilizan computadoras para demostrar que las ecuaciones pueden explotar.

Inteligencia Artificial

Conoce al Omnívoro Startup desarrolla aplicación que permite a los usuarios convertir objetos en modelos 3D con solo un teléfono inteligente.

Nota del editor: Esta publicación forma parte de nuestra serie Meet the Omnivore, que presenta a creadores y desarrol...

Inteligencia Artificial

Cómo gané en el fútbol de fantasía italiano ⚽ utilizando el aprendizaje automático

Como ingeniero mecánico con un gran interés en la programación y la informática, me fasciné por el mundo del aprendiz...

Inteligencia Artificial

Meet LLMWare Un marco de Inteligencia Artificial todo en uno para agilizar el desarrollo de aplicaciones basadas en LLM para aplicaciones de IA generativa

A pesar del gran interés en los Modelos de Lenguaje Grande LLM (por sus siglas en inglés) durante el último año, much...