Valentía para aprender ML Desmitificando la regularización L1 y L2 (parte 4)
Valentía para aprender ML Desmitificando la regularización L1 y L2 (parte 4)
Explora la regularización L1 y L2 como prioridades Bayesianas
Bienvenido de nuevo a ‘Valentía para aprender ML: Desentrañando la regularización L1 y L2’, en su cuarto post. La última vez, nuestra pareja de mentor-aprendiz exploró las propiedades de la regularización L1 y L2 a través del prisma de los Multiplicadores de Lagrange.
En este segmento final sobre la regularización L1 y L2, la pareja se sumergirá en estos temas desde un enfoque fresco: las prioridades Bayesianas. También resumiremos cómo se aplican las regularizaciones L1 y L2 en diferentes algoritmos.
En este artículo, abordaremos varias preguntas intrigantes. ¡Si alguno de estos temas despierta tu curiosidad, estás en el lugar correcto!
- Cómo las prioridades MAP se relacionan con las regularizaciones L1 y L2
- Un desglose intuitivo del uso de distribuciones Laplace y normales como prioridades
- Comprender la escasez inducida por la regularización L1 con una prioridad de Laplace
- Algoritmos compatibles con la regularización L1 y L2
- Por qué la regularización L2 a menudo se denomina ‘decaimiento de peso’ en el entrenamiento de redes neuronales
- Las razones detrás del uso menos frecuente de la norma L1 en las redes neuronales
Entonces, hemos hablado de cómo MAP difiere de MLE, principalmente porque MAP tiene en cuenta una pieza adicional de información: nuestras creencias antes de ver los datos, o el prior. ¿Cómo se relaciona esto con las regularizaciones L1 y L2?
Sumergámonos en cómo diferentes priors en la fórmula MAP moldean nuestro enfoque hacia la regularización L1 y L2 (para una guía detallada sobre cómo formular esta ecuación, consulta este post).
- Mejorando la documentación de Python Una guía paso a paso para enlazar código fuente
- Revelando la Esencia de lo Estocástico en el Aprendizaje Automático
- El Manual para Construir Aplicaciones de AI Generativas
Cuando consideramos priors para los pesos, nuestra intuición inicial a menudo nos lleva a elegir una distribución normal como prior para los pesos del modelo. Con esto, típicamente usamos una distribución normal de media cero para cada peso wi, compartiendo la misma desviación estándar 𝜎. Al incorporar esta creencia en el término prior logp(w) en MAP (donde p(w) representa el prior del peso) llegamos naturalmente a la suma de los pesos al cuadrado. Este término es precisamente el L2…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Volver a lo básico semana de bonificación Implementación en la nube
- 7 Funciones de Trama de Pandas para una Visualización Rápida de Datos
- En el año 2024, se espera que la industria de la moda y belleza experimente grandes avances en términos de infraestructura. Aquí están algunas predicciones sobre lo que podemos esperar 1. Tiendas de belleza y moda inteligentes Con los avances en la
- ¿Cómo utilizar AutoGen sin depender de OpenAI o LM Studio?
- Slawa Madelska, emprendedora de tecnología sanitaria IA en atención médica, tecnología para el manejo del dolor, cuidado preventivo, innovaciones en el tratamiento del dolor de espalda y tendencias en la atención médica.
- Cómo filtrar listas en Python?
- Investigadores de Meta IA publican como código abierto Pearl una biblioteca de agentes de IA de aprendizaje por refuerzo lista para la producción.