Por qué más es más (en Inteligencia Artificial)

Más es más (en IA)

Cómo los Grandes Redes Neuronales Generalizan

Menos es más. – Ludwig Mies van der Rohe Menos es más solo cuando más es demasiado. – Frank Loyd Wright

Las redes neuronales profundas (DNNs) han transformado profundamente el panorama del aprendizaje automático, a menudo convirtiéndose en sinónimo de los campos más amplios de la inteligencia artificial y el aprendizaje automático. Sin embargo, su ascenso habría sido inimaginable sin su cómplice: el descenso de gradiente estocástico (SGD, por sus siglas en inglés).

SGD, junto con sus optimizadores derivados, forma el núcleo de muchos algoritmos de autoaprendizaje. En su esencia, el concepto es sencillo: calcular la pérdida de la tarea utilizando datos de entrenamiento, determinar los gradientes de esta pérdida en relación con sus parámetros, y luego ajustar los parámetros en una dirección que minimice la pérdida.

Suena simple, pero en aplicaciones, ha demostrado ser inmensamente poderoso: SGD puede encontrar soluciones para todo tipo de problemas complejos y datos de entrenamiento, siempre que se utilice en conjunto con una arquitectura suficientemente expresiva. Es especialmente bueno en encontrar conjuntos de parámetros que hagan que la red funcione perfectamente en los datos de entrenamiento, algo llamado el régimen de interpolación. Pero, ¿bajo qué condiciones se cree que las redes neuronales generalizan bien, es decir, que funcionan bien en datos de prueba no vistos?

La búsqueda de generalización está en el corazón del aprendizaje automático. Concebido por DALL-E.

De alguna manera, es casi demasiado poderoso: las habilidades de SGD no se limitan solo a datos de entrenamiento que se espera que conduzcan a una buena generalización. Se ha demostrado, por ejemplo, en este influyente artículo, que SGD puede hacer que una red memorice perfectamente un conjunto de imágenes que fueron etiquetadas aleatoriamente (hay una relación profunda entre la memoria y la generalización de la cual he escrito anteriormente). Aunque esto puede parecer desafiante, dada la falta de correspondencia entre las etiquetas y el contenido de las imágenes, es sorprendentemente sencillo para las redes neuronales entrenadas con SGD. De hecho, no es mucho más desafiante que ajustar datos genuinos.

Esta capacidad indica que las NN, entrenadas con SGD, corren el riesgo de sobreajuste, y medidas para regularizar el sobreajuste, como las normas, la detención temprana y la reducción del tamaño del modelo, se vuelven cruciales para evitarlo.

Desde el punto de vista de la estadística clásica, menos es más, y por lo tanto más es menos, como se resume de manera concisa en…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Por qué más es más (en Inteligencia Artificial)

Cómo los Grandes Redes Neuronales Generalizan

Was this article helpful?

Un Análisis Profundo del Código del Modelo Visual Transformer (ViT)

¿Qué es la calidad de los datos?

Inteligencia Artificial

Conoce a GPS-Gaussian Un nuevo enfoque de inteligencia artificial para sintetizar nuevas perspectivas de un personaje de forma en tiempo real.

Google AI presenta WeatherBench 2 un marco de aprendizaje automático para evaluar y comparar diversos modelos de pronóstico del tiempo

Computación de siguiente nivel NVIDIA y AMD ofrecen potentes estaciones de trabajo para acelerar la IA, el renderizado y la simulación.

LLMs y Análisis de Datos Cómo la IA está dando sentido a los grandes datos para obtener información empresarial

Comprendiendo la IA Explicable y la IA Interpretable

Herramientas de IA Generativa se están quedando rápidamente 'sin texto' para entrenarse