¿Qué sucede si ejecutas un modelo Transformer con una red neuronal óptica?
¿Qué pasa si ejecutas un modelo Transformer con una red neuronal óptica?
La escala exponencialmente creciente de los modelos de deep learning es una fuerza importante para avanzar en el estado del arte y una fuente de preocupación creciente por el consumo de energía, la velocidad y, por lo tanto, la viabilidad del deep learning a gran escala. Recientemente, investigadores de Cornell hablaron sobre las topologías de los Transformadores, particularmente cómo mejoran drásticamente cuando se escalan a miles de millones o incluso billones de parámetros, lo que lleva a un aumento exponencial en la utilización de la computación de deep learning. Estos Transformers a gran escala son una solución popular pero costosa para muchas tareas porque la eficiencia energética del hardware digital no ha seguido el ritmo de los requisitos de FLOP cada vez mayores de los modelos de deep learning de vanguardia. También tienen un rendimiento cada vez más impresionante en otros ámbitos, como la visión por computadora, los gráficos y los entornos multimodales.
Además, exhiben habilidades de transfer learning, lo que les permite generalizar rápidamente a ciertas actividades, a veces en un entorno de cero entrenamiento adicional. El costo de estos modelos y sus capacidades generales de aprendizaje automático son fuerzas motrices importantes detrás de la creación de aceleradores de hardware para una inferencia efectiva y rápida. El hardware de deep learning se ha desarrollado previamente de manera extensiva en electrónica digital, incluyendo GPUs, chips aceleradores móviles, FPGAs y sistemas de aceleradores dedicados a la inteligencia artificial a gran escala. Se han propuesto redes neuronales ópticas como soluciones que proporcionan una mejor eficiencia y latencia que las implementaciones de redes neuronales en computadoras digitales, entre otras formas. Al mismo tiempo, también hay un interés significativo en la computación analógica.
Aunque estos sistemas analógicos son susceptibles al ruido y al error, las operaciones de las redes neuronales a menudo se pueden realizar ópticamente a un costo mucho menor, siendo el costo principal típicamente el gasto eléctrico asociado con la carga de los pesos y los datos amortizados en operaciones lineales a gran escala. La aceleración de modelos a gran escala como los Transformadores es especialmente prometedora. Teóricamente, la escalabilidad es asintóticamente más eficiente en términos de energía por MAC que los sistemas digitales. Aquí, demuestran cómo los Transformadores aprovechan cada vez más esta escalabilidad. Muestran operaciones de un verdadero Transformer utilizado para el modelado del lenguaje en un sistema experimental basado en un modulador de luz espacial real. Luego utilizaron los resultados para crear una simulación calibrada de un Transformer completo funcionando ópticamente. Esto se hizo para demostrar que los Transformadores pueden funcionar en estos sistemas a pesar de sus características de ruido y error.
- Esta Herramienta de IA Explica Cómo la IA ‘Ve’ Imágenes y por qué Puede Equivocarse al Confundir un Astronauta con una Pala.
- Google AI presenta los complementos de difusión de MediaPipe que permiten la generación controlable de texto a imagen en el dispositivo.
- Salesforce presenta XGen-7B Un nuevo 7B LLM entrenado en secuencias de hasta 8K de longitud para 1.5T Tokens.
En sus simulaciones utilizando pesos y entradas obtenidos de estas pruebas con error sistemático, ruido e imprecisión, descubrieron que los Transformers aún funcionan casi tan bien como los que operan digitalmente. Aquí se presenta un resumen de sus principales contribuciones:
• Crearon reglas de escalado para el rendimiento y los costos totales de energía de los Transformers ópticos en comparación con el tamaño del modelo y el uso de energía óptica. Experimentalmente demostraron que las operaciones lineales en los Transformers se pueden realizar con precisión en hardware óptico real, a pesar de los errores y el ruido.
• Utilizando un diseño basado en sus simulaciones y pruebas, predijeron el consumo de energía de un acelerador de redes neuronales ópticas completo.
• Calcularon que la óptica consume órdenes de magnitud menos energía que los procesadores de vanguardia.
Aunque sus simulaciones y pruebas utilizaron una pieza específica de hardware como ilustración, su enfoque aquí es más amplio. Quieren saber cómo se relacionan la escalabilidad energética óptica y el ruido con la construcción y el rendimiento de los Transformers. Como resultado, casi todas sus conclusiones se aplican en general a los procesadores ópticos lineales, independientemente de los detalles de su implementación de hardware.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ¿Pueden los LLMs generar pruebas matemáticas que puedan ser rigurosamente verificadas? Conoce LeanDojo un espacio de juego de inteligencia artificial de código abierto con herramientas, puntos de referencia y modelos para que los modelos de lenguaje grandes demuestren teoremas formales en el asistente de pruebas Lean.
- Contextual AI presenta LENS un marco de inteligencia artificial para modelos de lenguaje con visión aumentada que supera a Flamingo en un 9% (56->65%) en VQAv2.
- Unity anuncia el lanzamiento de Muse una plataforma de juegos de texto a video que te permite crear texturas, sprites y animaciones con lenguaje natural.
- Conoce a FastSAM La solución revolucionaria en tiempo real que logra una segmentación de alto rendimiento con una carga computacional mínima.
- Si la comunicación oral y escrita hizo que los seres humanos desarrollaran inteligencia… ¿Qué hay de los modelos de lenguaje?
- Conoce a DORSal Un modelo de difusión estructurada en 3D para la generación y edición a nivel de objeto de escenas en 3D.
- Enchufes de difusión en el dispositivo para la generación condicionada de texto a imagen