Coraje para aprender ML Desmitificando la Regularización L1 y L2 (parte 3)
Derrochando valentía para aprender ML Desmitificando la Regularización L1 y L2 (parte 3)
Por qué las Regularizaciones L0.5, L3 y L4 no son Comunes
Bienvenidos a la tercera entrega de “Courage to Learn ML: Desmitificando la Regularización L1 y L2”. Previamente, nos adentramos en el propósito de la regularización y decodificamos los métodos L1 y L2 a través de los multiplicadores de Lagrange.
Continuando nuestro viaje, nuestro dúo mentor-aprendiz explorará aún más la regularización L1 y L2 utilizando los multiplicadores de Lagrange.
En este artículo, abordaremos algunas preguntas intrigantes que podrían haber cruzado por tu mente. Si estás confundido acerca de estos temas, estás en el lugar correcto:
- ¿Cuál es la razón detrás de no tener una regularización L0.5?
- ¿Por qué nos importa si un problema es un problema no convexo considerando que la mayoría de los problemas de aprendizaje profundo son no convexos?
- ¿Por qué las normas L3 y L4 no son comúnmente utilizadas?
- ¿Se pueden combinar las regularizaciones L1 y L2? ¿Cuáles son las ventajas y desventajas de hacer esto?
Tengo una pregunta basada en nuestra última discusión, he comprobado que para la norma Lp, el valor de p puede ser cualquier número mayor que 0. ¿Por qué no usar p entre 0 y 1? ¿Cuál es la razón detrás de no tener una regularización L0.5?
Me alegra que hayas planteado esta pregunta. Para ir al grano, típicamente evitamos valores de p inferiores a 1 porque conducen a problemas de optimización no convexos. Permíteme ilustrar esto con una imagen que muestra la forma de las normas Lp para diferentes valores de p. Observa detenidamente cuando p=0.5; notarás que la forma es decididamente no convexa.
- Conoce GPT Crawler una herramienta de IA que puede rastrear un sitio para generar archivos de conocimiento y crear un GPT personalizado a partir de una o varias URL.
- Cuadrículas de Voronoi Una Aplicación Práctica
- Grandes modelos de lenguaje DeBERTa – BERT mejorado con decodificación y atención desentrelazada
![Forma de las normas Lp para diferentes valores de p. Fuente: https://lh5.googleusercontent.com/EoX3sngY7YnzCGY9CyMX0tEaNuKD3_ZiF4Fp3HQqbyqPtXks2TAbpTj5e4tiDv-U9PT0MAarRrPv6ClJ06C0HXQZKHeK40ZpVgRKke8-Ac0TAqdI7vWFdCXjK4taR40bdSdhGkWB](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*ZIjL7fI-OsPdWGl5p6147w.png)
Esto se vuelve aún más claro cuando observamos una representación en 3D, asumiendo que estamos optimizando tres pesos. En este caso, es evidente que el problema no es convexo, con numerosos mínimos locales apareciendo a lo largo de las fronteras.
![Fuente: https://ekamperi.github.io/images/lp_norms_3d.png](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*03rwecgNiide_f2wdfz6sQ.png)
La razón por la que normalmente evitamos problemas no convexos en el aprendizaje automático es su complejidad. Con un problema convexo, se garantiza un mínimo global, lo que generalmente lo hace más fácil de resolver. Por otro lado, los problemas no convexos a menudo tienen múltiples mínimos locales y pueden ser intensivos computacionalmente e impredecibles. Estos son exactamente los desafíos que pretendemos evitar en el aprendizaje automático.
Cuando usamos técnicas como los multiplicadores de Lagrange para optimizar una función con ciertas restricciones, es crucial que estas restricciones sean funciones convexas. Esto asegura que al agregarlas al problema original no se alteren sus propiedades fundamentales, lo que dificultaría su resolución. Este aspecto es crítico; de lo contrario, agregar restricciones podría dificultar aún más el problema original.
¿Por qué nos importa si un problema o una restricción es un problema no convexo aquí? ¿No son la mayoría de los problemas de aprendizaje profundo no convexos?
Tu pregunta toca un aspecto interesante del aprendizaje profundo. Si bien no es que prefiramos problemas no convexos, es más preciso decir que a menudo nos encontramos y tenemos que lidiar con ellos en el campo del aprendizaje profundo. Aquí está el porqué:
- Naturaleza de los modelos de aprendizaje profundo da como resultado una superficie de pérdida no convexa: La mayoría de los modelos de aprendizaje profundo, particularmente las redes neuronales con capas ocultas, inherentemente tienen funciones de pérdida no convexas. Esto se debe a las transformaciones no lineales y complejas que ocurren dentro de estos modelos. La combinación de estas no linealidades y la alta dimensionalidad del espacio de parámetros generalmente resulta en una superficie de pérdida no convexa.
- Los mínimos locales ya no son un problema en el aprendizaje profundo: En espacios de alta dimensionalidad, que son típicos en el aprendizaje profundo, los mínimos locales no son tan problemáticos como podrían ser en espacios de menor dimensionalidad. La investigación sugiere que muchos de los mínimos locales en el aprendizaje profundo están cerca del valor del mínimo global. Además, los puntos de silla, puntos donde el gradiente es cero pero no son máximos ni mínimos, son más comunes en tales espacios y representan un desafío mayor.
- Existen técnicas de optimización avanzadas que son más efectivas para lidiar con espacios no convexos. Las técnicas de optimización avanzadas, como el descenso de gradiente estocástico (SGD) y sus variantes, han sido particularmente efectivas para encontrar buenas soluciones en estos espacios no convexos. Si bien estas soluciones no suelen ser mínimos globales, suelen ser lo suficientemente buenas para lograr un alto rendimiento en tareas prácticas.
Aunque los modelos de aprendizaje profundo son no convexos, sobresalen en la captura de patrones y relaciones complejas en conjuntos de datos grandes. Además, la investigación sobre funciones no convexas está en constante progreso, lo que mejora nuestra comprensión. Mirando hacia el futuro, existe el potencial para manejar problemas no convexos de manera más eficiente y con menos preocupaciones.
¿Por qué no consideramos el uso de normas más altas, como L3 y L4, para la regularización?
Recuerda la imagen que discutimos anteriormente que muestra las formas de las normas Lp para varios valores de p. A medida que p aumenta, la forma de la norma Lp evoluciona. Por ejemplo, cuando p = 3, se asemeja a un cuadrado con esquinas redondeadas, y a medida que p tiende a infinito, forma un cuadrado perfecto.
![Forma de las normas Lp para diferentes valores de p. Fuente: https://lh5.googleusercontent.com/EoX3sngY7YnzCGY9CyMX0tEaNuKD3_ZiF4Fp3HQqbyqPtXks2TAbpTj5e4tiDv-U9PT0MAarRrPv6ClJ06C0HXQZKHeK40ZpVgRKke8-Ac0TAqdI7vWFdCXjK4taR40bdSdhGkWB](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*ZIjL7fI-OsPdWGl5p6147w.png)
En el contexto de nuestro problema de optimización, consideremos normas superiores como L3 o L4. Al igual que la regularización L2, donde las curvas de pérdida y restricción se intersectan en bordes redondeados, estas normas superiores alentarían a los pesos a aproximarse a cero, al igual que la regularización L2. (Si esta parte no está clara, no dudes en revisar Parte 2 para obtener una explicación más detallada.) En base a esta afirmación, podemos hablar sobre las dos razones cruciales por las cuales las normas L3 y L4 no se utilizan comúnmente:
- Las normas L3 y L4 demuestran efectos similares a L2, sin ofrecer ventajas significativas nuevas (hacer que los pesos se acerquen a 0). En contraste, la regularización L1 anula los pesos y presenta escasez, útil para la selección de características.
- La complejidad computacional es otro aspecto vital. La regularización afecta la complejidad del proceso de optimización. Las normas L3 y L4 son más pesadas computacionalmente que L2, lo que las hace menos factibles para la mayoría de las aplicaciones de aprendizaje automático.
En resumen, aunque en teoría se podrían usar las normas L3 y L4, no proporcionan beneficios únicos en comparación con la regularización L1 o L2, y su ineficiencia computacional las convierte en una opción menos práctica.
¿Es posible combinar la regularización L1 y L2?
Sí, de hecho es posible combinar la regularización L1 y L2, una técnica que a menudo se conoce como regularización Elastic Net. Este enfoque combina las propiedades de la regularización L1 (lasso) y L2 (ridge) y puede ser útil aunque desafiante.
La regularización Elastic Net es una combinación lineal de los términos de regularización L1 y L2. Agrega tanto la norma L1 como la L2 a la función de pérdida. Por lo tanto, tiene dos parámetros que se ajustan, lambda1 y lambda2
¿Cuál es el beneficio de utilizar la regularización Elastic Net? Si es así, ¿por qué no la usamos más a menudo?
Al combinar ambas técnicas de regularización, Elastic Net puede mejorar la capacidad de generalización del modelo, reduciendo el riesgo de sobreajuste de manera más efectiva que al utilizar solo L1 o L2.
Analicemos sus ventajas:
- Elastic Net proporciona más estabilidad que L1. La regularización L1 puede llevar a modelos dispersos, lo cual es útil para la selección de características. Pero también puede ser inestable en ciertas situaciones. Por ejemplo, la regularización L1 puede seleccionar características arbitrariamente entre variables altamente correlacionadas (mientras hace que los coeficientes de otras sean 0). Mientras tanto, Elastic Net puede distribuir los pesos de manera más equitativa entre esas variables.
- L2 puede ser más estable que la regularización L1, pero no fomenta la escasez. Elastic Net tiene como objetivo equilibrar estos dos aspectos, lo que puede llevar a modelos más robustos.
Sin embargo, la regularización Elastic Net introduce un hiperparámetro adicional que requiere ajuste meticuloso. Lograr el equilibrio adecuado entre la regularización L1 y L2 y el rendimiento óptimo del modelo implica un mayor esfuerzo computacional. Esta complejidad adicional es la razón por la que no se utiliza con frecuencia.
En nuestra siguiente sesión, exploraremos la regularización L1 y L2 desde un ángulo completamente nuevo, adentrándonos en el ámbito de las creencias previas bayesianas para profundizar en nuestra comprensión. Pausaremos aquí por ahora, ¡esperando con ansias nuestra próxima discusión!
Otros artículos de esta serie:
- Courage to Learn ML: Desmitificando la regularización L1 y L2 (parte 1)
- Courage to Learn ML: Desmitificando la regularización L1 y L2 (parte 2)
- Si te gustó el artículo, puedes encontrarme en LinkedIn.
Referencia:
Regularización de la red elástica a través de umbralización suave iterativa
Introducción a la regularización
Parte de: secuencia de aprendizaje automáticoSeguimiento a: Sesgo vs Varianza, Descenso de gradienteResumen del contenido: 1100 palabras, 11 min…
kevinbinz.com
Normas y aprendizaje automático
Una introducción a las normas en el aprendizaje automático y la optimización en general, haciendo hincapié en la regresión LASSO y ridge.
ekamperi.github.io
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- NVIDIA impulsa el entrenamiento para algunos de los modelos más grandes de la Fundación Amazon Titan.
- Las GPUs de NVIDIA en AWS ofrecerán un salto de simulación de 2x en Omniverse Isaac Sim, acelerando robots más inteligentes
- Aceptando la Transformación AWS y NVIDIA avanzan en IA generativa e innovación en la nube
- Técnica de Machine Learning Mejor para Predecir Tasas de Cura del Cáncer
- Demanda afirma que Meta diseñó Instagram y Facebook para enganchar a los niños
- Predicción Conformal para la Clasificación de Aprendizaje Automático Desde Cero
- Guías de trucos de diseño del sistema ElasticSearch