¿Qué sucede si ejecutas un modelo Transformer con una red neuronal óptica?

¿Qué pasa si ejecutas un modelo Transformer con una red neuronal óptica?

La escala exponencialmente creciente de los modelos de deep learning es una fuerza importante para avanzar en el estado del arte y una fuente de preocupación creciente por el consumo de energía, la velocidad y, por lo tanto, la viabilidad del deep learning a gran escala. Recientemente, investigadores de Cornell hablaron sobre las topologías de los Transformadores, particularmente cómo mejoran drásticamente cuando se escalan a miles de millones o incluso billones de parámetros, lo que lleva a un aumento exponencial en la utilización de la computación de deep learning. Estos Transformers a gran escala son una solución popular pero costosa para muchas tareas porque la eficiencia energética del hardware digital no ha seguido el ritmo de los requisitos de FLOP cada vez mayores de los modelos de deep learning de vanguardia. También tienen un rendimiento cada vez más impresionante en otros ámbitos, como la visión por computadora, los gráficos y los entornos multimodales.

Además, exhiben habilidades de transfer learning, lo que les permite generalizar rápidamente a ciertas actividades, a veces en un entorno de cero entrenamiento adicional. El costo de estos modelos y sus capacidades generales de aprendizaje automático son fuerzas motrices importantes detrás de la creación de aceleradores de hardware para una inferencia efectiva y rápida. El hardware de deep learning se ha desarrollado previamente de manera extensiva en electrónica digital, incluyendo GPUs, chips aceleradores móviles, FPGAs y sistemas de aceleradores dedicados a la inteligencia artificial a gran escala. Se han propuesto redes neuronales ópticas como soluciones que proporcionan una mejor eficiencia y latencia que las implementaciones de redes neuronales en computadoras digitales, entre otras formas. Al mismo tiempo, también hay un interés significativo en la computación analógica.

Aunque estos sistemas analógicos son susceptibles al ruido y al error, las operaciones de las redes neuronales a menudo se pueden realizar ópticamente a un costo mucho menor, siendo el costo principal típicamente el gasto eléctrico asociado con la carga de los pesos y los datos amortizados en operaciones lineales a gran escala. La aceleración de modelos a gran escala como los Transformadores es especialmente prometedora. Teóricamente, la escalabilidad es asintóticamente más eficiente en términos de energía por MAC que los sistemas digitales. Aquí, demuestran cómo los Transformadores aprovechan cada vez más esta escalabilidad. Muestran operaciones de un verdadero Transformer utilizado para el modelado del lenguaje en un sistema experimental basado en un modulador de luz espacial real. Luego utilizaron los resultados para crear una simulación calibrada de un Transformer completo funcionando ópticamente. Esto se hizo para demostrar que los Transformadores pueden funcionar en estos sistemas a pesar de sus características de ruido y error.

En sus simulaciones utilizando pesos y entradas obtenidos de estas pruebas con error sistemático, ruido e imprecisión, descubrieron que los Transformers aún funcionan casi tan bien como los que operan digitalmente. Aquí se presenta un resumen de sus principales contribuciones:

• Crearon reglas de escalado para el rendimiento y los costos totales de energía de los Transformers ópticos en comparación con el tamaño del modelo y el uso de energía óptica. Experimentalmente demostraron que las operaciones lineales en los Transformers se pueden realizar con precisión en hardware óptico real, a pesar de los errores y el ruido.

• Utilizando un diseño basado en sus simulaciones y pruebas, predijeron el consumo de energía de un acelerador de redes neuronales ópticas completo.

• Calcularon que la óptica consume órdenes de magnitud menos energía que los procesadores de vanguardia.

Aunque sus simulaciones y pruebas utilizaron una pieza específica de hardware como ilustración, su enfoque aquí es más amplio. Quieren saber cómo se relacionan la escalabilidad energética óptica y el ruido con la construcción y el rendimiento de los Transformers. Como resultado, casi todas sus conclusiones se aplican en general a los procesadores ópticos lineales, independientemente de los detalles de su implementación de hardware.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI Paper SummaryAI ShortsApplicationsartificial intelligenceDeep LearningEditors PickLanguage ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

¿Por qué el aprendizaje profundo siempre se realiza en datos de matriz? Nueva investigación de IA introduce ‘Spatial Functa’, donde desde los datos hasta la Functa se tratan como uno solo.

¿Qué sucede si ejecutas un modelo Transformer con una red neuronal óptica?

Was this article helpful?

Esta Herramienta de IA Explica Cómo la IA ‘Ve’ Imágenes y por qué Puede Equivocarse al Confundir un Astronauta con una Pala.

¿Por qué el aprendizaje profundo siempre se realiza en datos de matriz? Nueva investigación de IA introduce ‘Spatial Functa’, donde desde los datos hasta la Functa se tratan como uno solo.

Aprendizaje Automático

Esta investigación de IA de Corea presenta MagiCapture un método de personalización para integrar conceptos de sujeto y estilo para generar imágenes de retratos de alta resolución.

Creando un GPT Climático Utilizando la API de Energía de la NASA

Conoce EasyEdit Un marco de inteligencia artificial de edición de conocimientos fácil de usar para LLMs.

Investigadores de CMU y Google DeepMind presentan AlignProp un enfoque de IA basado en retropropagación directa para afinar los modelos de difusión de texto a imagen para una función de recompensa deseada.

Aprendamos Inteligencia Artificial Juntos - Boletín de la Comunidad Towards AI #4

¿Cuántos datos necesitamos? Equilibrando el aprendizaje automático con consideraciones de seguridad