Coraje para aprender ML Desmitificando la regularización L1 y L2 (parte 1)
Valentía para aprender ML Desmitificando la regularización L1 y L2 (parte 1)
Comprenda el propósito subyacente de la regularización L1 y L2
Bienvenido a ‘El valor de aprender ML’, donde comenzaremos con una exploración de la regularización L1 y L2. Esta serie tiene como objetivo simplificar los conceptos complejos de aprendizaje automático, presentándolos como un diálogo relajado e informativo, al igual que el estilo atractivo de “El valor de la imperfección”, pero con un enfoque en ML.
Estas sesiones de preguntas y respuestas son un reflejo de mi propio camino de aprendizaje, que estoy emocionado de compartir contigo. Piensa en esto como un blog que narra mi viaje hacia las profundidades del aprendizaje automático. Tus interacciones, likes, comentarios y seguidores van más allá de simplemente apoyar; son la motivación que impulsa la continuación de esta serie y mi proceso de compartir.
La discusión de hoy va más allá de simplemente revisar las fórmulas y propiedades de la regularización L1 y L2. Estamos adentrándonos en las razones fundamentales por las que se utilizan estos métodos en el aprendizaje automático. Si buscas comprender realmente estos conceptos, ¡estás en el lugar correcto para obtener ideas esclarecedoras!
En esta publicación, responderemos las siguientes preguntas:
- Eleva tus análisis de negocios Guía paso a paso para el ajuste estacional
- Valentía para aprender ML Descifrando la Regularización L1 y L2 (parte 2)
- Python __init__ NO es un constructor un análisis profundo de la creación de objetos en Python
- ¿Qué es la regularización? ¿Por qué la necesitamos?
- ¿Qué es la regularización L1, L2?
- ¿Por qué preferimos coeficientes más pequeños sobre los grandes? ¿Cómo se relacionan los coeficientes grandes con la complejidad del modelo?
- ¿Por qué hay múltiples combinaciones de pesos y sesgos en una red neuronal?
- ¿Por qué los términos de sesgo no son penalizados en la regularización L1 y L2?
¿Qué es la regularización? ¿Por qué la necesitamos?
La regularización es una técnica fundamental en el aprendizaje automático, diseñada para evitar el sobreajuste de los modelos. El sobreajuste ocurre cuando un modelo, a menudo demasiado complejo, no solo aprende los patrones subyacentes (señales) en los datos de entrenamiento, sino que también capta y amplifica el ruido. Esto resulta en un modelo que funciona bien en los datos de entrenamiento pero mal en datos no vistos.
¿Qué es la regularización L1, L2?
Existen múltiples formas de evitar el sobreajuste. La regularización L1, L2 aborda principalmente el sobreajuste añadiendo un término de penalización a los coeficientes de la función de pérdida del modelo. Esta penalización desalienta al modelo a asignar demasiada importancia a una sola característica (representada por coeficientes grandes), simplificando así el modelo. En esencia, la regularización mantiene el modelo equilibrado y enfocado en la verdadera señal, mejorando su capacidad de generalización a datos no vistos.
Espera, ¿por qué exactamente imponemos una penalización a los pesos grandes en nuestros modelos? ¿Cómo se relacionan los coeficientes grandes con la complejidad del modelo?
Aunque hay muchas combinaciones que pueden minimizar la función de pérdida, no todas son igualmente buenas para la generalización. Los coeficientes grandes tienden a amplificar tanto la información útil (señal) como el ruido no deseado en los datos. Esta amplificación hace que el modelo sea sensible a pequeños cambios en la entrada, lo que lo lleva a enfatizar demasiado el ruido. Como resultado, no puede tener un buen rendimiento en datos nuevos y no vistos.
Los coeficientes más pequeños, por otro lado, ayudan al modelo a centrarse en los patrones más significativos y generales de los datos, reduciendo su sensibilidad a las fluctuaciones menores. Este enfoque promueve un mejor equilibrio, permitiendo que el modelo generalice de manera más efectiva.
Considera un ejemplo en el que una red neuronal se entrena para predecir el peso de un gato. Si un modelo tiene un coeficiente de 10 y otro un coeficiente mucho más grande de 1000, sus salidas para la próxima capa serían drásticamente diferentes: 300 y 30000, respectivamente. El modelo con el coeficiente más grande tiene más probabilidades de hacer predicciones extremas. En casos donde 30 lbs es un valor atípico (¡lo cual es bastante inusual para un gato!), el segundo modelo con el coeficiente más grande daría resultados significativamente menos precisos. Este ejemplo ilustra la importancia de moderar los coeficientes para evitar respuestas exageradas a valores atípicos en los datos.
¿Podrías explicar por qué hay múltiples combinaciones de pesos y sesgos en una red neuronal?
Imagínate navegando por el complejo terreno de la función de pérdida de una red neuronal, donde tu misión es encontrar el punto más bajo, o un mínimo. Esto es lo que podrías encontrar:
- Un paisaje de múltiples destinos: A medida que atraviesas este paisaje, te darás cuenta de que está lleno de varios mínimos locales, al igual que un terreno no convexo con muchos valles y bajadas. Esto se debe a que la función de pérdida de una red neuronal con múltiples capas ocultas es inherentemente no convexa. Cada mínimo local representa una combinación diferente de pesos y sesgos, ofreciendo múltiples soluciones potenciales.
- Diversas rutas hacia el mismo destino: Las funciones de activación no lineales de la red le permiten formar patrones intrincados, aproximando la verdadera función subyacente de los datos. Con varias capas de estas funciones, hay numerosas formas de representar la misma verdad, cada una caracterizada por un conjunto distinto de pesos y sesgos. Esta es la redundancia en el diseño de la red.
- Flexibilidad en la secuencia: Imagina alterar la secuencia de tu viaje, como intercambiar el orden de andar en bicicleta y tomar un autobús, pero aún así llegar al mismo destino. Relacionando esto con una red neuronal con dos capas ocultas: si duplicas los pesos y sesgos en la primera capa y luego los divides a la mitad en la segunda capa, la salida final no cambia. (Ten en cuenta que esta flexibilidad, sin embargo, se aplica principalmente a funciones de activación con algunas características lineales, como ReLU, pero no a otras como sigmoid o tanh). Este fenómeno se conoce como “simetría de escala” en las redes neuronales.
He estado leyendo sobre la regularización L1 y L2 y he observado que los términos de penalización se centran principalmente en los pesos en lugar de los sesgos. ¿Pero por qué es eso? ¿No son los sesgos también coeficientes que podrían ser penalizados?
![Fuente: http://laid.delanover.com/difference-between-l1-and-l2-regularization-implementation-and-visualization-in-tensorflow/](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/0*lCL30JoOOZjrVQKJ.png)
En resumen, el objetivo principal de las técnicas de regularización como L1 y L2 es prevenir principalmente el sobreajuste regulando la magnitud de los pesos del modelo (personalmente, creo que eso es por lo que las llamamos regularizaciones). Por otro lado, los sesgos tienen un impacto relativamente modesto en la complejidad del modelo, lo que generalmente hace innecesario penalizarlos.
Para entender mejor, veamos qué hacen los pesos y los sesgos. Los pesos determinan la importancia de cada característica en el modelo, afectando su complejidad y la forma de su límite de decisión en un espacio de alta dimensión. Piensa en ellos como los botones que ajustan la forma del proceso de toma de decisiones del modelo en un espacio de alta dimensión, influyendo en la complejidad del modelo.
Los sesgos, sin embargo, tienen un propósito diferente. Actúan como la intersección en una función lineal, desplazando la salida del modelo independientemente de las características de entrada.
Aquí está la idea principal: El sobreajuste ocurre principalmente debido a la interacción intrincada entre las características, y estas interacciones son principalmente controladas por los pesos. Para abordar esto, aplicamos penalizaciones a los pesos, ajustando cuánta importancia lleva cada característica y cuánta información extrae el modelo de ellas. Esto, a su vez, remodela el paisaje del modelo y, como resultado, su complejidad.
En contraste, los sesgos no contribuyen significativamente a la complejidad del modelo. Además, pueden adaptarse a medida que cambian los pesos, reduciendo la necesidad de penalidades por sesgo separadas.
Ahora que has obtenido información sobre la existencia de múltiples conjuntos de pesos y sesgos y la preferencia por los más pequeños, estamos listos para profundizar.
Acompáñame en la segunda parte de la serie, desentrañaré las capas detrás de la regularización L1 y L2, ofreciendo una comprensión intuitiva con multiplicadores de Lagrange (no te preocupes por el nombre, es un concepto sencillo 😃)
¡Nos vemos allí!
Si te gustó el artículo, puedes encontrarme en LinkedIn, ¡y no dudes en conectar o comunicarte con tus preguntas y sugerencias!
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Aplicaciones de ChatGPT Desatando el Potencial en Diversas Industrias
- ¿Qué hace destacar a las aplicaciones móviles impulsadas por IA en el mercado actual?
- Creando una aplicación de chat dinámica Configurando ChatGPT en FastAPI y mostrando conversaciones en ReactJS
- Microsoft lanza Orca 2 Pionera en la lógica avanzada en modelos de lenguaje más pequeños con estrategias de entrenamiento personalizadas
- Colaboración entre humanos y IA
- Plataforma de IA empresarial con Amazon Bedrock
- Estás perdiendo tiempo con tu Daily Standup diario