Clasificación de Imágenes para Principiantes

Guía de Clasificación de Imágenes para Principiantes

Arquitectura VGG y ResNet desde 2014

Imágenes de unsplash - modificadas por el autor — Imágenes de unsplash – modificadas por el autor

La clasificación de imágenes fue el primer tema que enseñé en Interview Kickstart para preparar a profesionales para conseguir empleos en las empresas tecnológicas más importantes. Escribí este artículo cuando me estaba preparando para una de mis conferencias allí. Así que si no estás familiarizado con este tema, esta explicación intuitiva también puede ayudarte.

En este artículo, vemos los modelos VGG y ResNet; ambos son trabajos seminales e influyentes en el desarrollo de redes neuronales convolucionales (CNNs) para la visión por computadora. VGG[2] fue propuesto en 2014 por un grupo de investigación en Oxford, y ResNet[3] fue propuesto por investigadores de Microsoft en 2015.

Empecemos.

¿Qué es VGG?

VGG significa Visual Geometry Group y es un grupo de investigación en la Universidad de Oxford. En 2014, diseñaron una arquitectura de red neuronal convolucional profunda para tareas de clasificación de imágenes y le pusieron su propio nombre; es decir, VGG [2].
Nuevo método de IA para la predicción de la estructura de proteínas maneja todo tipo de moléculas biológicamente relevantes
Construye un RAG Pipeline con el Índice LLama
Un lugar para el clustering de K-means

Arquitectura de la red VGG

Esta red viene en varias configuraciones; todas tienen la misma arquitectura pero difieren en la cantidad de capas. Las más famosas son VGG16 y VGG19. VGG19 es más profunda y tiene un mejor rendimiento que VGG16. Por simplicidad, nos enfocaremos en VGG16.

La arquitectura de VGG16 se muestra en la siguiente imagen. Como podemos ver, tiene 16 capas; 13 capas convolucionales y 3 capas totalmente conectadas.

Arquitectura VGG16 - imagen por el autor — Arquitectura VGG16 – imagen por el autor

Es una arquitectura muy sencilla; consta de 6 bloques donde los primeros 5 bloques contienen capas convolucionales seguidas de un max pool, y el sexto bloque contiene solo capas totalmente conectadas.

Todas las capas convolucionales utilizan filtros de 3×3 con stride=1, y todas las capas de max pooling son de 2×2 con stride=2, por lo que reducen a la mitad el ancho y el alto del mapa de características de entrada. Esto se llama downsampling, ya que reduce el tamaño del mapa de características de salida.

Observa que las capas convolucionales comienzan con 64 filtros y se duplican después de cada pooling hasta que alcanzan los 512 filtros. Todas las capas convolucionales utilizan un relleno “same” para mantener…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Clasificación de Imágenes para Principiantes

Arquitectura VGG y ResNet desde 2014

¿Qué es VGG?

Arquitectura de la red VGG

Was this article helpful?

Nuevo método de IA para la predicción de la estructura de proteínas maneja todo tipo de moléculas biológicamente relevantes

Redes Neuronales Convolucionales para principiantes

Inteligencia Artificial

Traducción de imágenes de bocetos a imágenes Transformando bocetos abstractos en imágenes fotorrealistas con GANs

Las Pruebas Asistidas por Computadora Abordan el Flujo de Fluidos

Este artículo de Inteligencia Artificial (IA) de Corea del Sur propone FFNeRV una nueva representación de video por cuadros utilizando mapas de flujo por cuadros y cuadrículas temporales de múltiple resolución

Conoce al Omnívoro Startup desarrolla aplicación que permite a los usuarios convertir objetos en modelos 3D con solo un teléfono inteligente.

Cómo gané en el fútbol de fantasía italiano ⚽ utilizando el aprendizaje automático

Meet LLMWare Un marco de Inteligencia Artificial todo en uno para agilizar el desarrollo de aplicaciones basadas en LLM para aplicaciones de IA generativa