Investigadores de CMU descubren ideas clave sobre el comportamiento de las redes neuronales la interacción entre datos de distribución pesada y la profundidad de la red en la formación de la dinámica de optimización

Investigadores de CMU desvelan claves fundamentales sobre la interacción entre datos de distribución pesada y la profundidad de las redes neuronales en la formación dinámica de la optimización

Hay una lista en constante crecimiento de propiedades intrigantes de la optimización de redes neuronales (NN) que no son explicadas fácilmente por herramientas clásicas de optimización. Del mismo modo, el equipo de investigación tiene diferentes grados de comprensión de las causas mecánicas de cada una. Esfuerzos extensos han llevado a explicaciones posibles para la efectividad de Adam, la Normalización de Lotes y otras herramientas para un entrenamiento exitoso, pero la evidencia solo a veces es completamente convincente, y ciertamente hay poco entendimiento teórico. Otros hallazgos, como “grokking” o el borde de la estabilidad, no tienen implicaciones prácticas inmediatas, pero brindan nuevas formas de estudiar lo que distingue a la optimización de las redes neurales. Estos fenómenos se consideran típicamente de forma aislada, aunque no son completamente dispares; se desconoce qué causas subyacentes específicas pueden compartir. Un mejor entendimiento de la dinámica del entrenamiento de redes neuronales en un contexto particular puede llevar a mejoras algorítmicas; esto sugiere que cualquier similitud será una herramienta valiosa para una investigación adicional.

En este trabajo, el equipo de investigación de la Universidad Carnegie Mellon identifica un fenómeno en la optimización de redes neuronales NN que ofrece una nueva perspectiva sobre muchas de estas observaciones previas, las cuales el equipo de investigación espera que contribuyan a una comprensión más profunda de cómo pueden estar conectadas. Si bien el equipo de investigación no pretende ofrecer una explicación completa, presenta una fuerte evidencia cualitativa y cuantitativa para una idea de alto nivel única, que encaja naturalmente en varias narrativas existentes y sugiere una imagen más coherente de su origen. Específicamente, el equipo de investigación demuestra la prevalencia de grupos emparejados de valores atípicos en datos naturales, que influyen significativamente en la dinámica de optimización de una red. Estos grupos incluyen una o más características de mayor magnitud (relativamente) que dominan la salida de la red en la inicialización y durante la mayor parte del entrenamiento. Además de su magnitud, la otra propiedad distintiva de estas características es que proporcionan gradientes grandes, consistentes y opuestos, es decir, seguir el gradiente de un grupo para disminuir su pérdida aumentará la pérdida del otro de manera similar. Debido a esta estructura, el equipo de investigación los llama Señales Opuestas. Estas características comparten una correlación no trivial con la tarea objetivo, pero a menudo no son la señal “correcta” (por ejemplo, alineada con los humanos).

En muchos casos, estas características encapsulan perfectamente el clásico dilema estadístico de “correlación vs. causalidad”. Por ejemplo, un cielo azul brillante no determina la etiqueta de una imagen de CIFAR, pero ocurre con mayor frecuencia en imágenes de aviones. Otras características relevantes son la presencia de ruedas y faros en imágenes de camiones y autos, o que dos puntos a menudo preceden a “the” o un token de salto de línea en texto escrito. La Figura 1 muestra la pérdida de entrenamiento de una ResNet-18 entrenada con descenso degradiente de lote completo (GD) en CIFAR-10, junto con algunos grupos de valores atípicos dominantes y sus respectivas pérdidas.

Figura 1: Los valores atípicos con señales contradictorias tienen un impacto significativo en la dinámica de entrenamiento de las redes neuronales. Además, las pérdidas de una muestra pequeña pero típica de grupos de valores atípicos exhiben la pérdida total de una ResNet-18 entrenada usando GD en CIFAR-10. Estos grupos muestran consistentemente señales contradictorias (las ruedas y los faros pueden indicar un camión o un vehículo, por ejemplo). Las pérdidas en estos grupos oscilan entre aumentos y disminuciones con amplitud creciente a lo largo del entrenamiento; esto corresponde a los picos esporádicos en la pérdida total y parece ser la causa raíz del fenómeno del borde de la estabilidad.

En las primeras etapas del entrenamiento, la red entra en un valle estrecho en el espacio de pesos, que equilibra cuidadosamente los gradientes opuestos de los pares; el posterior afilado del paisaje de pérdida hace que la red oscile con una magnitud creciente a lo largo de ejes particulares, perturbando este equilibrio. Volviendo a su ejemplo de un fondo de cielo, un paso resulta en que la clase de un avión se le asigne una mayor probabilidad para todas las imágenes con cielo, y el siguiente revertirá ese efecto. En esencia, la subred “cielo = avión” crece y se reduce. El resultado directo de esta oscilación es que la pérdida de la red en imágenes de aviones con un fondo de cielo alternará entre un aumento y una disminución bruscos con amplitud creciente, con lo opuesto ocurriendo exactamente para imágenes de no aviones con el cielo. En consecuencia, los gradientes de estos grupos alternarán también de dirección mientras aumentan su magnitud. Como estos pares representan una pequeña fracción de los datos, este comportamiento no es inmediatamente aparente desde la pérdida de entrenamiento general. Sin embargo, eventualmente, progresa lo suficiente como para que los picos de pérdida amplios aparezcan.

Como hay una clara correspondencia directa entre estos dos eventos a lo largo de, el equipo de investigación conjectura que señales opuestas causan directamente el fenómeno de la estabilidad. El equipo de investigación también señala que las señales más influyentes parecen aumentar en complejidad con el tiempo. El equipo de investigación repitió este experimento en una variedad de arquitecturas de visión e hiperparámetros de entrenamiento: aunque los grupos precisos y su orden de aparición cambian, el patrón ocurre de manera consistente. El equipo de investigación también verificó este comportamiento en transformadores en la predicción de textos naturales y en pequeñas MLP ReLU en funciones simples de 1D. Sin embargo, el equipo de investigación se basa en imágenes para exponer porque ofrecen la intuición más clara. La mayoría de sus experimentos utilizan GD para aislar este efecto, pero el equipo de investigación observó patrones similares durante SGD, resumen de las contribuciones. La contribución principal de este trabajo es demostrar la existencia, la omnipresencia y la gran influencia de las señales opuestas durante la optimización de NN.

El equipo de investigación presenta además su mejor comprensión actual, con experimentos de apoyo, de cómo estas señales causan las dinámicas de entrenamiento observadas. En particular, el equipo de investigación proporciona evidencia de que es una consecuencia de la profundidad y los métodos de descenso más pronunciado. El equipo de investigación complementa esta discusión con un ejemplo ilustrativo y un análisis de una red lineal de dos capas en un modelo simple. Es destacable que, aunque rudimentaria, su explicación permite hacer predicciones cualitativas concretas sobre el comportamiento de las NN durante el entrenamiento, las cuales el equipo de investigación confirma experimentalmente. También proporciona una nueva perspectiva desde la cual estudiar los métodos modernos de optimización estocástica, que el equipo de investigación destaca mediante un estudio de caso de SGD vs. Adam. El equipo de investigación ve posibles conexiones entre las señales opuestas y diversos fenómenos de optimización y generalización de las NN, incluyendo grokking, catapulting/slingshotting, bias de simplicidad, double descent y minimización sensible a la nitidez.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

EE.UU. busca malware chino que podría interrumpir las operaciones militares

Funcionarios de seguridad de Estados Unidos dicen que la Casa Blanca está buscando malware supuestamente oculto por C...

Aprendizaje Automático

Comprendiendo nuestro lugar en el universo

El becario Martin Luther King Jr., Brian Nord, entrena a las máquinas para explorar el cosmos y lucha por la equidad ...

Inteligencia Artificial

Transmisión de respuestas de modelos de lenguaje amplios en Amazon SageMaker JumpStart

Estamos emocionados de anunciar que Amazon SageMaker JumpStart ahora puede transmitir respuestas de inferencia de mod...

Inteligencia Artificial

PhotoGuard de MIT utiliza inteligencia artificial para defenderse contra la manipulación de imágenes por inteligencia artificial

A medida que la inteligencia artificial (IA) avanza, la capacidad de generar y manipular imágenes hiperrealistas se v...

Inteligencia Artificial

DeepMind pronostica con precisión el clima en una computadora de escritorio

Google DeepMind desarrolló un modelo de pronóstico del tiempo basado en aprendizaje automático que superó a las mejor...

Inteligencia Artificial

Investigadores de China proponen iTransformer Repensando la arquitectura Transformer para una mejora en la previsión de series temporales

El Transformer se ha convertido en el modelo básico que se adhiere a la regla de escalado después de alcanzar un gran...