Coraje para aprender ML Desmitificando la Regularización L1 y L2 (parte 3)

Derrochando valentía para aprender ML Desmitificando la Regularización L1 y L2 (parte 3)

Por qué las Regularizaciones L0.5, L3 y L4 no son Comunes

Foto de Kelvin Han en Unsplash

Bienvenidos a la tercera entrega de “Courage to Learn ML: Desmitificando la Regularización L1 y L2”. Previamente, nos adentramos en el propósito de la regularización y decodificamos los métodos L1 y L2 a través de los multiplicadores de Lagrange.

Continuando nuestro viaje, nuestro dúo mentor-aprendiz explorará aún más la regularización L1 y L2 utilizando los multiplicadores de Lagrange.

En este artículo, abordaremos algunas preguntas intrigantes que podrían haber cruzado por tu mente. Si estás confundido acerca de estos temas, estás en el lugar correcto:

  • ¿Cuál es la razón detrás de no tener una regularización L0.5?
  • ¿Por qué nos importa si un problema es un problema no convexo considerando que la mayoría de los problemas de aprendizaje profundo son no convexos?
  • ¿Por qué las normas L3 y L4 no son comúnmente utilizadas?
  • ¿Se pueden combinar las regularizaciones L1 y L2? ¿Cuáles son las ventajas y desventajas de hacer esto?

Tengo una pregunta basada en nuestra última discusión, he comprobado que para la norma Lp, el valor de p puede ser cualquier número mayor que 0. ¿Por qué no usar p entre 0 y 1? ¿Cuál es la razón detrás de no tener una regularización L0.5?

Me alegra que hayas planteado esta pregunta. Para ir al grano, típicamente evitamos valores de p inferiores a 1 porque conducen a problemas de optimización no convexos. Permíteme ilustrar esto con una imagen que muestra la forma de las normas Lp para diferentes valores de p. Observa detenidamente cuando p=0.5; notarás que la forma es decididamente no convexa.

Forma de las normas Lp para diferentes valores de p. Fuente: https://lh5.googleusercontent.com/EoX3sngY7YnzCGY9CyMX0tEaNuKD3_ZiF4Fp3HQqbyqPtXks2TAbpTj5e4tiDv-U9PT0MAarRrPv6ClJ06C0HXQZKHeK40ZpVgRKke8-Ac0TAqdI7vWFdCXjK4taR40bdSdhGkWB

Esto se vuelve aún más claro cuando observamos una representación en 3D, asumiendo que estamos optimizando tres pesos. En este caso, es evidente que el problema no es convexo, con numerosos mínimos locales apareciendo a lo largo de las fronteras.

Fuente: https://ekamperi.github.io/images/lp_norms_3d.png

La razón por la que normalmente evitamos problemas no convexos en el aprendizaje automático es su complejidad. Con un problema convexo, se garantiza un mínimo global, lo que generalmente lo hace más fácil de resolver. Por otro lado, los problemas no convexos a menudo tienen múltiples mínimos locales y pueden ser intensivos computacionalmente e impredecibles. Estos son exactamente los desafíos que pretendemos evitar en el aprendizaje automático.

Cuando usamos técnicas como los multiplicadores de Lagrange para optimizar una función con ciertas restricciones, es crucial que estas restricciones sean funciones convexas. Esto asegura que al agregarlas al problema original no se alteren sus propiedades fundamentales, lo que dificultaría su resolución. Este aspecto es crítico; de lo contrario, agregar restricciones podría dificultar aún más el problema original.

¿Por qué nos importa si un problema o una restricción es un problema no convexo aquí? ¿No son la mayoría de los problemas de aprendizaje profundo no convexos?

Tu pregunta toca un aspecto interesante del aprendizaje profundo. Si bien no es que prefiramos problemas no convexos, es más preciso decir que a menudo nos encontramos y tenemos que lidiar con ellos en el campo del aprendizaje profundo. Aquí está el porqué:

  1. Naturaleza de los modelos de aprendizaje profundo da como resultado una superficie de pérdida no convexa: La mayoría de los modelos de aprendizaje profundo, particularmente las redes neuronales con capas ocultas, inherentemente tienen funciones de pérdida no convexas. Esto se debe a las transformaciones no lineales y complejas que ocurren dentro de estos modelos. La combinación de estas no linealidades y la alta dimensionalidad del espacio de parámetros generalmente resulta en una superficie de pérdida no convexa.
  2. Los mínimos locales ya no son un problema en el aprendizaje profundo: En espacios de alta dimensionalidad, que son típicos en el aprendizaje profundo, los mínimos locales no son tan problemáticos como podrían ser en espacios de menor dimensionalidad. La investigación sugiere que muchos de los mínimos locales en el aprendizaje profundo están cerca del valor del mínimo global. Además, los puntos de silla, puntos donde el gradiente es cero pero no son máximos ni mínimos, son más comunes en tales espacios y representan un desafío mayor.
  3. Existen técnicas de optimización avanzadas que son más efectivas para lidiar con espacios no convexos. Las técnicas de optimización avanzadas, como el descenso de gradiente estocástico (SGD) y sus variantes, han sido particularmente efectivas para encontrar buenas soluciones en estos espacios no convexos. Si bien estas soluciones no suelen ser mínimos globales, suelen ser lo suficientemente buenas para lograr un alto rendimiento en tareas prácticas.

Aunque los modelos de aprendizaje profundo son no convexos, sobresalen en la captura de patrones y relaciones complejas en conjuntos de datos grandes. Además, la investigación sobre funciones no convexas está en constante progreso, lo que mejora nuestra comprensión. Mirando hacia el futuro, existe el potencial para manejar problemas no convexos de manera más eficiente y con menos preocupaciones.

¿Por qué no consideramos el uso de normas más altas, como L3 y L4, para la regularización?

Recuerda la imagen que discutimos anteriormente que muestra las formas de las normas Lp para varios valores de p. A medida que p aumenta, la forma de la norma Lp evoluciona. Por ejemplo, cuando p = 3, se asemeja a un cuadrado con esquinas redondeadas, y a medida que p tiende a infinito, forma un cuadrado perfecto.

Forma de las normas Lp para diferentes valores de p. Fuente: https://lh5.googleusercontent.com/EoX3sngY7YnzCGY9CyMX0tEaNuKD3_ZiF4Fp3HQqbyqPtXks2TAbpTj5e4tiDv-U9PT0MAarRrPv6ClJ06C0HXQZKHeK40ZpVgRKke8-Ac0TAqdI7vWFdCXjK4taR40bdSdhGkWB

En el contexto de nuestro problema de optimización, consideremos normas superiores como L3 o L4. Al igual que la regularización L2, donde las curvas de pérdida y restricción se intersectan en bordes redondeados, estas normas superiores alentarían a los pesos a aproximarse a cero, al igual que la regularización L2. (Si esta parte no está clara, no dudes en revisar Parte 2 para obtener una explicación más detallada.) En base a esta afirmación, podemos hablar sobre las dos razones cruciales por las cuales las normas L3 y L4 no se utilizan comúnmente:

  1. Las normas L3 y L4 demuestran efectos similares a L2, sin ofrecer ventajas significativas nuevas (hacer que los pesos se acerquen a 0). En contraste, la regularización L1 anula los pesos y presenta escasez, útil para la selección de características.
  2. La complejidad computacional es otro aspecto vital. La regularización afecta la complejidad del proceso de optimización. Las normas L3 y L4 son más pesadas computacionalmente que L2, lo que las hace menos factibles para la mayoría de las aplicaciones de aprendizaje automático.

En resumen, aunque en teoría se podrían usar las normas L3 y L4, no proporcionan beneficios únicos en comparación con la regularización L1 o L2, y su ineficiencia computacional las convierte en una opción menos práctica.

¿Es posible combinar la regularización L1 y L2?

Sí, de hecho es posible combinar la regularización L1 y L2, una técnica que a menudo se conoce como regularización Elastic Net. Este enfoque combina las propiedades de la regularización L1 (lasso) y L2 (ridge) y puede ser útil aunque desafiante.

La regularización Elastic Net es una combinación lineal de los términos de regularización L1 y L2. Agrega tanto la norma L1 como la L2 a la función de pérdida. Por lo tanto, tiene dos parámetros que se ajustan, lambda1 y lambda2

Regularización Elastic Net. Fuente: https://wikimedia.org/api/rest_v1/media/math/render/svg/a66c7bfcf201d515eb71dd0aed5c8553ce990b6e

¿Cuál es el beneficio de utilizar la regularización Elastic Net? Si es así, ¿por qué no la usamos más a menudo?

Al combinar ambas técnicas de regularización, Elastic Net puede mejorar la capacidad de generalización del modelo, reduciendo el riesgo de sobreajuste de manera más efectiva que al utilizar solo L1 o L2.

Analicemos sus ventajas:

  1. Elastic Net proporciona más estabilidad que L1. La regularización L1 puede llevar a modelos dispersos, lo cual es útil para la selección de características. Pero también puede ser inestable en ciertas situaciones. Por ejemplo, la regularización L1 puede seleccionar características arbitrariamente entre variables altamente correlacionadas (mientras hace que los coeficientes de otras sean 0). Mientras tanto, Elastic Net puede distribuir los pesos de manera más equitativa entre esas variables.
  2. L2 puede ser más estable que la regularización L1, pero no fomenta la escasez. Elastic Net tiene como objetivo equilibrar estos dos aspectos, lo que puede llevar a modelos más robustos.

Sin embargo, la regularización Elastic Net introduce un hiperparámetro adicional que requiere ajuste meticuloso. Lograr el equilibrio adecuado entre la regularización L1 y L2 y el rendimiento óptimo del modelo implica un mayor esfuerzo computacional. Esta complejidad adicional es la razón por la que no se utiliza con frecuencia.

En nuestra siguiente sesión, exploraremos la regularización L1 y L2 desde un ángulo completamente nuevo, adentrándonos en el ámbito de las creencias previas bayesianas para profundizar en nuestra comprensión. Pausaremos aquí por ahora, ¡esperando con ansias nuestra próxima discusión!

Otros artículos de esta serie:

  • Si te gustó el artículo, puedes encontrarme en LinkedIn.

Referencia:

Regularización de la red elástica a través de umbralización suave iterativa

Introducción a la regularización

Parte de: secuencia de aprendizaje automáticoSeguimiento a: Sesgo vs Varianza, Descenso de gradienteResumen del contenido: 1100 palabras, 11 min…

kevinbinz.com

Normas y aprendizaje automático

Una introducción a las normas en el aprendizaje automático y la optimización en general, haciendo hincapié en la regresión LASSO y ridge.

ekamperi.github.io

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

De los Cristales de Tiempo a los Agujeros de Gusano ¿Cuándo es una Simulación Cuántica Real?

Los físicos están utilizando computadoras cuánticas para conjurar fenómenos exóticos y afirmando que sus creaciones s...

Inteligencia Artificial

Conoce AudioLDM 2 Un marco de trabajo de IA único para la generación de audio que combina habla, música y efectos de sonido

En un mundo cada vez más dependiente de los conceptos de Inteligencia Artificial y Aprendizaje Profundo, el ámbito de...

Inteligencia Artificial

Desarrollar un ChatGPT específico de la empresa es un tercio tecnología y dos tercios mejoras en los procesos.

A lo largo de 2023, hemos estado desarrollando un asistente virtual basado en el modelo GPT para los empleados de Ene...

Inteligencia Artificial

Repensando la Integridad Académica en la Era de la IA Un Análisis Comparativo de ChatGPT y Estudiantes Universitarios en 32 Cursos

La inteligencia artificial (IA) que genera nuevo contenido utilizando algoritmos de aprendizaje automático para ampli...

Inteligencia Artificial

Ya está mucho más allá de lo que los humanos pueden hacer' ¿Eliminará la IA a los arquitectos?

Está revolucionando la construcción, pero ¿podría la inteligencia artificial eliminar toda una profesión?

Inteligencia Artificial

Este artículo de IA propone inyectar el mundo 3D en los grandes modelos de lenguaje y presentar una nueva familia completa de modelos de lenguaje 3D (3D-LLMs).

En los últimos años, hemos visto un aumento en los modelos de lenguaje grandes (LLMs) (como GPT4) que son excelentes ...