Valentía para aprender ML Desmitificando la regularización L1 y L2 (parte 4)

Valentía para aprender ML Desmitificando la regularización L1 y L2 (parte 4)

Explora la regularización L1 y L2 como prioridades Bayesianas

Foto de Dominik Jirovský en Unsplash

Bienvenido de nuevo a ‘Valentía para aprender ML: Desentrañando la regularización L1 y L2’, en su cuarto post. La última vez, nuestra pareja de mentor-aprendiz exploró las propiedades de la regularización L1 y L2 a través del prisma de los Multiplicadores de Lagrange.

En este segmento final sobre la regularización L1 y L2, la pareja se sumergirá en estos temas desde un enfoque fresco: las prioridades Bayesianas. También resumiremos cómo se aplican las regularizaciones L1 y L2 en diferentes algoritmos.

En este artículo, abordaremos varias preguntas intrigantes. ¡Si alguno de estos temas despierta tu curiosidad, estás en el lugar correcto!

  • Cómo las prioridades MAP se relacionan con las regularizaciones L1 y L2
  • Un desglose intuitivo del uso de distribuciones Laplace y normales como prioridades
  • Comprender la escasez inducida por la regularización L1 con una prioridad de Laplace
  • Algoritmos compatibles con la regularización L1 y L2
  • Por qué la regularización L2 a menudo se denomina ‘decaimiento de peso’ en el entrenamiento de redes neuronales
  • Las razones detrás del uso menos frecuente de la norma L1 en las redes neuronales

Entonces, hemos hablado de cómo MAP difiere de MLE, principalmente porque MAP tiene en cuenta una pieza adicional de información: nuestras creencias antes de ver los datos, o el prior. ¿Cómo se relaciona esto con las regularizaciones L1 y L2?

Sumergámonos en cómo diferentes priors en la fórmula MAP moldean nuestro enfoque hacia la regularización L1 y L2 (para una guía detallada sobre cómo formular esta ecuación, consulta este post).

Cuando consideramos priors para los pesos, nuestra intuición inicial a menudo nos lleva a elegir una distribución normal como prior para los pesos del modelo. Con esto, típicamente usamos una distribución normal de media cero para cada peso wi, compartiendo la misma desviación estándar 𝜎. Al incorporar esta creencia en el término prior logp(w) en MAP (donde p(w) representa el prior del peso) llegamos naturalmente a la suma de los pesos al cuadrado. Este término es precisamente el L2

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

Lo que aprendí al llevar la Ingeniería de Prompt al límite

Pasé los últimos dos meses construyendo una aplicación impulsada por un modelo de lenguaje grande (LLM). Fue una expe...

Inteligencia Artificial

6 Mitos sobre la Inteligencia Artificial Desacreditados Separando la Realidad de la Ficción

Descubre la verdad detrás de los mitos populares de la IA y sumérgete en las auténticas capacidades e impacto de la I...

Inteligencia Artificial

¿Podemos transformar texto en gráficos vectoriales científicos? Este artículo de IA presenta AutomaTikZ y explica el poder de TikZ

Los últimos avances en la generación de texto a imagen han hecho posible la creación de gráficos detallados a partir ...