Coraje para aprender ML Desmitificando la regularización L1 y L2 (parte 1)

Valentía para aprender ML Desmitificando la regularización L1 y L2 (parte 1)

Comprenda el propósito subyacente de la regularización L1 y L2

Foto de Holly Mandarich en Unsplash

Bienvenido a ‘El valor de aprender ML’, donde comenzaremos con una exploración de la regularización L1 y L2. Esta serie tiene como objetivo simplificar los conceptos complejos de aprendizaje automático, presentándolos como un diálogo relajado e informativo, al igual que el estilo atractivo de “El valor de la imperfección”, pero con un enfoque en ML.

Estas sesiones de preguntas y respuestas son un reflejo de mi propio camino de aprendizaje, que estoy emocionado de compartir contigo. Piensa en esto como un blog que narra mi viaje hacia las profundidades del aprendizaje automático. Tus interacciones, likes, comentarios y seguidores van más allá de simplemente apoyar; son la motivación que impulsa la continuación de esta serie y mi proceso de compartir.

La discusión de hoy va más allá de simplemente revisar las fórmulas y propiedades de la regularización L1 y L2. Estamos adentrándonos en las razones fundamentales por las que se utilizan estos métodos en el aprendizaje automático. Si buscas comprender realmente estos conceptos, ¡estás en el lugar correcto para obtener ideas esclarecedoras!

En esta publicación, responderemos las siguientes preguntas:

  • ¿Qué es la regularización? ¿Por qué la necesitamos?
  • ¿Qué es la regularización L1, L2?
  • ¿Por qué preferimos coeficientes más pequeños sobre los grandes? ¿Cómo se relacionan los coeficientes grandes con la complejidad del modelo?
  • ¿Por qué hay múltiples combinaciones de pesos y sesgos en una red neuronal?
  • ¿Por qué los términos de sesgo no son penalizados en la regularización L1 y L2?

¿Qué es la regularización? ¿Por qué la necesitamos?

La regularización es una técnica fundamental en el aprendizaje automático, diseñada para evitar el sobreajuste de los modelos. El sobreajuste ocurre cuando un modelo, a menudo demasiado complejo, no solo aprende los patrones subyacentes (señales) en los datos de entrenamiento, sino que también capta y amplifica el ruido. Esto resulta en un modelo que funciona bien en los datos de entrenamiento pero mal en datos no vistos.

¿Qué es la regularización L1, L2?

Existen múltiples formas de evitar el sobreajuste. La regularización L1, L2 aborda principalmente el sobreajuste añadiendo un término de penalización a los coeficientes de la función de pérdida del modelo. Esta penalización desalienta al modelo a asignar demasiada importancia a una sola característica (representada por coeficientes grandes), simplificando así el modelo. En esencia, la regularización mantiene el modelo equilibrado y enfocado en la verdadera señal, mejorando su capacidad de generalización a datos no vistos.

Espera, ¿por qué exactamente imponemos una penalización a los pesos grandes en nuestros modelos? ¿Cómo se relacionan los coeficientes grandes con la complejidad del modelo?

Aunque hay muchas combinaciones que pueden minimizar la función de pérdida, no todas son igualmente buenas para la generalización. Los coeficientes grandes tienden a amplificar tanto la información útil (señal) como el ruido no deseado en los datos. Esta amplificación hace que el modelo sea sensible a pequeños cambios en la entrada, lo que lo lleva a enfatizar demasiado el ruido. Como resultado, no puede tener un buen rendimiento en datos nuevos y no vistos.

Los coeficientes más pequeños, por otro lado, ayudan al modelo a centrarse en los patrones más significativos y generales de los datos, reduciendo su sensibilidad a las fluctuaciones menores. Este enfoque promueve un mejor equilibrio, permitiendo que el modelo generalice de manera más efectiva.

Considera un ejemplo en el que una red neuronal se entrena para predecir el peso de un gato. Si un modelo tiene un coeficiente de 10 y otro un coeficiente mucho más grande de 1000, sus salidas para la próxima capa serían drásticamente diferentes: 300 y 30000, respectivamente. El modelo con el coeficiente más grande tiene más probabilidades de hacer predicciones extremas. En casos donde 30 lbs es un valor atípico (¡lo cual es bastante inusual para un gato!), el segundo modelo con el coeficiente más grande daría resultados significativamente menos precisos. Este ejemplo ilustra la importancia de moderar los coeficientes para evitar respuestas exageradas a valores atípicos en los datos.

¿Podrías explicar por qué hay múltiples combinaciones de pesos y sesgos en una red neuronal?

Imagínate navegando por el complejo terreno de la función de pérdida de una red neuronal, donde tu misión es encontrar el punto más bajo, o un mínimo. Esto es lo que podrías encontrar:

Foto de Tamas Tuzes-Katai en Unsplash
  • Un paisaje de múltiples destinos: A medida que atraviesas este paisaje, te darás cuenta de que está lleno de varios mínimos locales, al igual que un terreno no convexo con muchos valles y bajadas. Esto se debe a que la función de pérdida de una red neuronal con múltiples capas ocultas es inherentemente no convexa. Cada mínimo local representa una combinación diferente de pesos y sesgos, ofreciendo múltiples soluciones potenciales.
  • Diversas rutas hacia el mismo destino: Las funciones de activación no lineales de la red le permiten formar patrones intrincados, aproximando la verdadera función subyacente de los datos. Con varias capas de estas funciones, hay numerosas formas de representar la misma verdad, cada una caracterizada por un conjunto distinto de pesos y sesgos. Esta es la redundancia en el diseño de la red.
  • Flexibilidad en la secuencia: Imagina alterar la secuencia de tu viaje, como intercambiar el orden de andar en bicicleta y tomar un autobús, pero aún así llegar al mismo destino. Relacionando esto con una red neuronal con dos capas ocultas: si duplicas los pesos y sesgos en la primera capa y luego los divides a la mitad en la segunda capa, la salida final no cambia. (Ten en cuenta que esta flexibilidad, sin embargo, se aplica principalmente a funciones de activación con algunas características lineales, como ReLU, pero no a otras como sigmoid o tanh). Este fenómeno se conoce como “simetría de escala” en las redes neuronales.

He estado leyendo sobre la regularización L1 y L2 y he observado que los términos de penalización se centran principalmente en los pesos en lugar de los sesgos. ¿Pero por qué es eso? ¿No son los sesgos también coeficientes que podrían ser penalizados?

Fuente: http://laid.delanover.com/difference-between-l1-and-l2-regularization-implementation-and-visualization-in-tensorflow/

En resumen, el objetivo principal de las técnicas de regularización como L1 y L2 es prevenir principalmente el sobreajuste regulando la magnitud de los pesos del modelo (personalmente, creo que eso es por lo que las llamamos regularizaciones). Por otro lado, los sesgos tienen un impacto relativamente modesto en la complejidad del modelo, lo que generalmente hace innecesario penalizarlos.

Para entender mejor, veamos qué hacen los pesos y los sesgos. Los pesos determinan la importancia de cada característica en el modelo, afectando su complejidad y la forma de su límite de decisión en un espacio de alta dimensión. Piensa en ellos como los botones que ajustan la forma del proceso de toma de decisiones del modelo en un espacio de alta dimensión, influyendo en la complejidad del modelo.

Los sesgos, sin embargo, tienen un propósito diferente. Actúan como la intersección en una función lineal, desplazando la salida del modelo independientemente de las características de entrada.

Aquí está la idea principal: El sobreajuste ocurre principalmente debido a la interacción intrincada entre las características, y estas interacciones son principalmente controladas por los pesos. Para abordar esto, aplicamos penalizaciones a los pesos, ajustando cuánta importancia lleva cada característica y cuánta información extrae el modelo de ellas. Esto, a su vez, remodela el paisaje del modelo y, como resultado, su complejidad.

En contraste, los sesgos no contribuyen significativamente a la complejidad del modelo. Además, pueden adaptarse a medida que cambian los pesos, reduciendo la necesidad de penalidades por sesgo separadas.

Ahora que has obtenido información sobre la existencia de múltiples conjuntos de pesos y sesgos y la preferencia por los más pequeños, estamos listos para profundizar.

Acompáñame en la segunda parte de la serie, desentrañaré las capas detrás de la regularización L1 y L2, ofreciendo una comprensión intuitiva con multiplicadores de Lagrange (no te preocupes por el nombre, es un concepto sencillo 😃)

¡Nos vemos allí!

Si te gustó el artículo, puedes encontrarme en LinkedIn, ¡y no dudes en conectar o comunicarte con tus preguntas y sugerencias!

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Esta investigación de IA presenta Point-Bind un modelo de multimodalidad 3D que alinea nubes de puntos con imágenes 2D, lenguaje, audio y video

En el actual panorama tecnológico, la visión 3D ha emergido como una estrella en ascenso, capturando el foco de atenc...

Inteligencia Artificial

Comprendiendo el Lado Oscuro de los Modelos de Lenguaje Grandes Una Guía Completa sobre Amenazas de Seguridad y Vulnerabilidades

Los LLM se han vuelto cada vez más populares en la comunidad de procesamiento de lenguaje natural (NLP, por sus sigla...

Inteligencia Artificial

Un estudio encuentra que ChatGPT aumenta la productividad de los trabajadores en algunas tareas de escritura

Un nuevo informe realizado por investigadores del MIT destaca el potencial de la IA generativa para ayudar a los trab...