Por qué más es más (en Inteligencia Artificial)
Más es más (en IA)
Cómo los Grandes Redes Neuronales Generalizan
Menos es más. – Ludwig Mies van der Rohe Menos es más solo cuando más es demasiado. – Frank Loyd Wright
Las redes neuronales profundas (DNNs) han transformado profundamente el panorama del aprendizaje automático, a menudo convirtiéndose en sinónimo de los campos más amplios de la inteligencia artificial y el aprendizaje automático. Sin embargo, su ascenso habría sido inimaginable sin su cómplice: el descenso de gradiente estocástico (SGD, por sus siglas en inglés).
SGD, junto con sus optimizadores derivados, forma el núcleo de muchos algoritmos de autoaprendizaje. En su esencia, el concepto es sencillo: calcular la pérdida de la tarea utilizando datos de entrenamiento, determinar los gradientes de esta pérdida en relación con sus parámetros, y luego ajustar los parámetros en una dirección que minimice la pérdida.
Suena simple, pero en aplicaciones, ha demostrado ser inmensamente poderoso: SGD puede encontrar soluciones para todo tipo de problemas complejos y datos de entrenamiento, siempre que se utilice en conjunto con una arquitectura suficientemente expresiva. Es especialmente bueno en encontrar conjuntos de parámetros que hagan que la red funcione perfectamente en los datos de entrenamiento, algo llamado el régimen de interpolación. Pero, ¿bajo qué condiciones se cree que las redes neuronales generalizan bien, es decir, que funcionan bien en datos de prueba no vistos?
- Un Análisis Profundo del Código del Modelo Visual Transformer (ViT)
- Gorilla – Mejorando la capacidad de los modelos de lenguaje grandes para utilizar llamadas a la API
- Las 6 mejores herramientas para mejorar tu productividad en Snowflake
De alguna manera, es casi demasiado poderoso: las habilidades de SGD no se limitan solo a datos de entrenamiento que se espera que conduzcan a una buena generalización. Se ha demostrado, por ejemplo, en este influyente artículo, que SGD puede hacer que una red memorice perfectamente un conjunto de imágenes que fueron etiquetadas aleatoriamente (hay una relación profunda entre la memoria y la generalización de la cual he escrito anteriormente). Aunque esto puede parecer desafiante, dada la falta de correspondencia entre las etiquetas y el contenido de las imágenes, es sorprendentemente sencillo para las redes neuronales entrenadas con SGD. De hecho, no es mucho más desafiante que ajustar datos genuinos.
Esta capacidad indica que las NN, entrenadas con SGD, corren el riesgo de sobreajuste, y medidas para regularizar el sobreajuste, como las normas, la detención temprana y la reducción del tamaño del modelo, se vuelven cruciales para evitarlo.
Desde el punto de vista de la estadística clásica, menos es más, y por lo tanto más es menos, como se resume de manera concisa en…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- La Evolución de los Datos Tabulares Desde el Análisis hasta la IA
- Este artículo de IA sugiere que los modelos de aprendizaje automático cuántico pueden estar mejor defendidos contra ataques adversarios generados por computadoras clásicas.
- Taplio La Mejor Herramienta de IA para el Crecimiento en LinkedIn
- XGBoost La Guía Definitiva (Parte 2)
- Las complejidades de la implementación de la resolución de entidades
- La IA generativa impulsa una nueva era en la industria automotriz, desde el diseño y la ingeniería hasta la producción y las ventas
- Visual Effects Multiplier Wylie Co. apuesta todo por el rendimiento de GPU para obtener ganancias de 24 veces