Algoritmos de optimización Redes neuronales 101

Optimización con Algoritmos en Redes Neuronales 101

Cómo mejorar el entrenamiento más allá del algoritmo de descenso de gradiente “vanilla”

https://www.flaticon.com/free-icons/neural-network.neural network icons. Neural network icons created by andinur — Flaticon.

Antecedentes

En mi último artículo, discutimos cómo puedes mejorar el rendimiento de las redes neuronales a través de la afinación de hiperparámetros:

Afinación de hiperparámetros: Redes neuronales 101

Cómo puedes mejorar el “aprendizaje” y “entrenamiento” de las redes neuronales mediante la afinación de hiperparámetros

towardsdatascience.com

Este es un proceso mediante el cual se ajustan los mejores hiperparámetros, como la tasa de aprendizaje y el número de capas ocultas, para encontrar los más óptimos para nuestra red y mejorar su rendimiento.

Desafortunadamente, este proceso de afinación para redes neuronales profundas grandes (aprendizaje profundo) es extremadamente lento. Una forma de mejorar esto es utilizar optimizadores más rápidos que el método tradicional de descenso de gradiente “vanilla”. En este artículo, nos sumergiremos en los optimizadores más populares y sus variantes de descenso de gradiente que pueden mejorar la velocidad de entrenamiento y también la convergencia, ¡y los compararemos en PyTorch!

Si estás disfrutando de este artículo, ¡asegúrate de suscribirte a mi canal de YouTube!

Haz clic en el enlace para ver tutoriales en video que te enseñan conceptos fundamentales de ciencia de datos de manera fácil de digerir.

Egor Howell

Científico de datos que actualmente vive en Londres. ¡Comparto tutoriales de ciencia de datos, consejos y temas generales de tecnología! Conéctate con…

www.youtube.com

Repaso: Descenso de gradiente

Antes de sumergirnos, repasemos rápidamente nuestro conocimiento sobre el descenso de gradiente y la teoría que lo respalda.

El objetivo del descenso de gradiente es actualizar los parámetros del modelo restando el gradiente (derivada parcial) del parámetro respecto a la función de pérdida. Una tasa de aprendizaje, α, sirve para regular este proceso y garantizar que la actualización de los parámetros se realice en una escala razonable y no se sobrepase o se quede corta del valor óptimo.

  • θ son los parámetros del modelo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Principales extensiones de Chrome con inteligencia artificial AI

La idea de una máquina que escriba por ti ha pasado de ser ciencia ficción a realidad gracias a los avances en la tec...

Inteligencia Artificial

EU AI Act ¿Un paso prometedor o una apuesta arriesgada para el futuro de la IA?

La Ley de la UE sobre IA es la primera ley de regulación internacional sobre IA. Su objetivo es garantizar el desarro...

Inteligencia Artificial

Olvida ChatGPT, este nuevo asistente de IA está a años luz y cambiará la forma en que trabajas para siempre

Apuesto a que no estás familiarizado/a con esta aplicación de IA rápida, que proporciona flexibilidad, facilidad de u...

Inteligencia Artificial

Conoce a Skill-it un marco de habilidades impulsado por datos para comprender y entrenar modelos de lenguaje

Los modelos de lenguaje grandes (LM) son notablemente capaces de crear código fuente, crear obras de arte originales ...