Valentía para aprender ML Desmitificando la regularización L1 y L2 (parte 4)

Explora la regularización L1 y L2 como prioridades Bayesianas

Bienvenido de nuevo a ‘Valentía para aprender ML: Desentrañando la regularización L1 y L2’, en su cuarto post. La última vez, nuestra pareja de mentor-aprendiz exploró las propiedades de la regularización L1 y L2 a través del prisma de los Multiplicadores de Lagrange.

En este segmento final sobre la regularización L1 y L2, la pareja se sumergirá en estos temas desde un enfoque fresco: las prioridades Bayesianas. También resumiremos cómo se aplican las regularizaciones L1 y L2 en diferentes algoritmos.

En este artículo, abordaremos varias preguntas intrigantes. ¡Si alguno de estos temas despierta tu curiosidad, estás en el lugar correcto!

Cómo las prioridades MAP se relacionan con las regularizaciones L1 y L2
Un desglose intuitivo del uso de distribuciones Laplace y normales como prioridades
Comprender la escasez inducida por la regularización L1 con una prioridad de Laplace
Algoritmos compatibles con la regularización L1 y L2
Por qué la regularización L2 a menudo se denomina ‘decaimiento de peso’ en el entrenamiento de redes neuronales
Las razones detrás del uso menos frecuente de la norma L1 en las redes neuronales

Entonces, hemos hablado de cómo MAP difiere de MLE, principalmente porque MAP tiene en cuenta una pieza adicional de información: nuestras creencias antes de ver los datos, o el prior. ¿Cómo se relaciona esto con las regularizaciones L1 y L2?

Sumergámonos en cómo diferentes priors en la fórmula MAP moldean nuestro enfoque hacia la regularización L1 y L2 (para una guía detallada sobre cómo formular esta ecuación, consulta este post).

Cuando consideramos priors para los pesos, nuestra intuición inicial a menudo nos lleva a elegir una distribución normal como prior para los pesos del modelo. Con esto, típicamente usamos una distribución normal de media cero para cada peso wi, compartiendo la misma desviación estándar 𝜎. Al incorporar esta creencia en el término prior logp(w) en MAP (donde p(w) representa el prior del peso) llegamos naturalmente a la suma de los pesos al cuadrado. Este término es precisamente el L2…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Valentía para aprender ML Desmitificando la regularización L1 y L2 (parte 4)

Explora la regularización L1 y L2 como prioridades Bayesianas

Entonces, hemos hablado de cómo MAP difiere de MLE, principalmente porque MAP tiene en cuenta una pieza adicional de información: nuestras creencias antes de ver los datos, o el prior. ¿Cómo se relaciona esto con las regularizaciones L1 y L2?

Was this article helpful?

Mejorando la documentación de Python Una guía paso a paso para enlazar código fuente

¿Pueden los LLM reemplazar a los analistas de datos? Construyendo un analista potenciado por LLM

Inteligencia Artificial

Lo que aprendí al llevar la Ingeniería de Prompt al límite

Conoce CipherChat Un marco de inteligencia artificial para examinar sistemáticamente la generalización de la alineación de seguridad a lenguajes no naturales, específicamente cifrados.

¿Puede un Modelo de Lenguaje Revolucionar la Radiología? Conozca Radiology-Llama2 Un Gran Modelo de Lenguaje Especializado en Radiología a través de un Proceso Conocido como Ajuste de Instrucciones.

6 Mitos sobre la Inteligencia Artificial Desacreditados Separando la Realidad de la Ficción

¿Podemos transformar texto en gráficos vectoriales científicos? Este artículo de IA presenta AutomaTikZ y explica el poder de TikZ

Investigadores de Apple presentan DeepPCR Un novedoso algoritmo de aprendizaje automático que paraleliza operaciones típicamente secuenciales para acelerar la inferencia y el entrenamiento de redes neuronales.