¿Qué sucede si ejecutas un modelo Transformer con una red neuronal óptica?

¿Qué pasa si ejecutas un modelo Transformer con una red neuronal óptica?

La escala exponencialmente creciente de los modelos de deep learning es una fuerza importante para avanzar en el estado del arte y una fuente de preocupación creciente por el consumo de energía, la velocidad y, por lo tanto, la viabilidad del deep learning a gran escala. Recientemente, investigadores de Cornell hablaron sobre las topologías de los Transformadores, particularmente cómo mejoran drásticamente cuando se escalan a miles de millones o incluso billones de parámetros, lo que lleva a un aumento exponencial en la utilización de la computación de deep learning. Estos Transformers a gran escala son una solución popular pero costosa para muchas tareas porque la eficiencia energética del hardware digital no ha seguido el ritmo de los requisitos de FLOP cada vez mayores de los modelos de deep learning de vanguardia. También tienen un rendimiento cada vez más impresionante en otros ámbitos, como la visión por computadora, los gráficos y los entornos multimodales.

Además, exhiben habilidades de transfer learning, lo que les permite generalizar rápidamente a ciertas actividades, a veces en un entorno de cero entrenamiento adicional. El costo de estos modelos y sus capacidades generales de aprendizaje automático son fuerzas motrices importantes detrás de la creación de aceleradores de hardware para una inferencia efectiva y rápida. El hardware de deep learning se ha desarrollado previamente de manera extensiva en electrónica digital, incluyendo GPUs, chips aceleradores móviles, FPGAs y sistemas de aceleradores dedicados a la inteligencia artificial a gran escala. Se han propuesto redes neuronales ópticas como soluciones que proporcionan una mejor eficiencia y latencia que las implementaciones de redes neuronales en computadoras digitales, entre otras formas. Al mismo tiempo, también hay un interés significativo en la computación analógica.

Aunque estos sistemas analógicos son susceptibles al ruido y al error, las operaciones de las redes neuronales a menudo se pueden realizar ópticamente a un costo mucho menor, siendo el costo principal típicamente el gasto eléctrico asociado con la carga de los pesos y los datos amortizados en operaciones lineales a gran escala. La aceleración de modelos a gran escala como los Transformadores es especialmente prometedora. Teóricamente, la escalabilidad es asintóticamente más eficiente en términos de energía por MAC que los sistemas digitales. Aquí, demuestran cómo los Transformadores aprovechan cada vez más esta escalabilidad. Muestran operaciones de un verdadero Transformer utilizado para el modelado del lenguaje en un sistema experimental basado en un modulador de luz espacial real. Luego utilizaron los resultados para crear una simulación calibrada de un Transformer completo funcionando ópticamente. Esto se hizo para demostrar que los Transformadores pueden funcionar en estos sistemas a pesar de sus características de ruido y error.

En sus simulaciones utilizando pesos y entradas obtenidos de estas pruebas con error sistemático, ruido e imprecisión, descubrieron que los Transformers aún funcionan casi tan bien como los que operan digitalmente. Aquí se presenta un resumen de sus principales contribuciones:

• Crearon reglas de escalado para el rendimiento y los costos totales de energía de los Transformers ópticos en comparación con el tamaño del modelo y el uso de energía óptica. Experimentalmente demostraron que las operaciones lineales en los Transformers se pueden realizar con precisión en hardware óptico real, a pesar de los errores y el ruido.

• Utilizando un diseño basado en sus simulaciones y pruebas, predijeron el consumo de energía de un acelerador de redes neuronales ópticas completo.

• Calcularon que la óptica consume órdenes de magnitud menos energía que los procesadores de vanguardia.

Aunque sus simulaciones y pruebas utilizaron una pieza específica de hardware como ilustración, su enfoque aquí es más amplio. Quieren saber cómo se relacionan la escalabilidad energética óptica y el ruido con la construcción y el rendimiento de los Transformers. Como resultado, casi todas sus conclusiones se aplican en general a los procesadores ópticos lineales, independientemente de los detalles de su implementación de hardware.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Creando un GPT Climático Utilizando la API de Energía de la NASA

En este artículo exploramos la nueva función de los GPT de OpenAI, que ofrece una forma sin código de crear rápidamen...

Inteligencia Artificial

Conoce EasyEdit Un marco de inteligencia artificial de edición de conocimientos fácil de usar para LLMs.

Necesitamos constantemente mantenernos al día en este mundo en constante cambio, al igual que los modelos de aprendiz...

Inteligencia Artificial

Aprendamos Inteligencia Artificial Juntos - Boletín de la Comunidad Towards AI #4

Buenos días, estimados entusiastas de la IA. En este número, compartimos un nuevo video para nuestra serie de videos ...

Inteligencia Artificial

¿Cuántos datos necesitamos? Equilibrando el aprendizaje automático con consideraciones de seguridad

Para un científico de datos, no existe tal cosa como demasiados datos. Pero cuando miramos de manera más amplia el co...