Investigadores de ETH Zurich presentan la arquitectura Fast Feedforward (FFF) un par de la arquitectura Feedforward (FF) que accede a bloques de sus neuronas en tiempo logarítmico.

Investigadores de ETH Zurich presentan la arquitectura Fast Feedforward (FFF), una versión mejorada de la arquitectura Feedforward (FF) que accede a bloques de sus neuronas de forma más eficiente en tiempo logarítmico.

La introducción de increíbles Modelos de Lenguaje Amplio (LLMs, por sus siglas en inglés) ha sido revolucionaria en el campo de la Inteligencia Artificial. La forma en que los humanos interactúan con la tecnología ha cambiado gracias a estos complejos algoritmos, los cuales funcionan con grandes cantidades de datos y potencia informática. La IA está cambiando la forma en que los humanos interactúan con las máquinas y, con el poder de los LLMs, varios dominios están siendo revolucionados.

Los modelos de transformadores necesitan capas de redireccionamiento, ya que son fundamentales para el rendimiento del modelo. Estas capas son responsables de transformar los datos de entrada y son esenciales para el rendimiento del modelo. En los últimos años, los modelos de transformadores han aumentado de tamaño y sus capas de redireccionamiento ahora incluyen decenas de miles de neuronas ocultas. Encontrar estrategias para acelerar los cálculos de las capas de redireccionamiento es crucial, ya que el crecimiento en el tamaño del modelo ha resultado en mayores gastos computacionales durante la inferencia.

Solo se requiere una pequeña porción de las neuronas ocultas de redireccionamiento en redes muy grandes para determinar la salida de una determinada entrada. En respuesta a este conocimiento, se han realizado esfuerzos para crear redes modulares que aprovechen este fenómeno. Estudios recientes en este campo se han centrado en diseños arquitectónicos que fomentan la dispersión de las capas de redireccionamiento. Estos diseños requieren entrenar una capa de control para seleccionar qué expertos utilizar durante la inferencia y subdividir la capa de redireccionamiento en bloques distintos de neuronas. Este método aumenta la complejidad del entrenamiento y reduce el tiempo de inferencia, pero también depende de una capa de control ruidosa.

Como alternativa a los enfoques existentes, un equipo de dos investigadores de ETH Zurich ha introducido la arquitectura de Avance Rápido (FFF, por sus siglas en inglés). FFF utiliza un árbol binario diferenciable, que divide el espacio de entrada en múltiples regiones mientras aprende simultáneamente los límites de cada sector y los bloques neuronales asociados. FFF tiene ventajas en comparación con las capas de redireccionamiento convencionales y las técnicas de modularización. Reduce el tiempo de inferencia al poder acceder a bloques específicos de neuronas en tiempo logarítmico. Esto contrasta con la escala lineal de la anchura de la capa de redireccionamiento de los métodos anteriores.

FFF ha sido comparado con el enfoque de Mezcla de Expertos (MoE, por sus siglas en inglés), que también utiliza bloques de expertos pero implica una capa de control ruidosa. FFF evita este ruido y logra una inferencia más rápida con una complejidad computacional reducida. Los investigadores también han resaltado las impresionantes ganancias de velocidad logradas por FFF. Afirman que FFF puede ser hasta 220 veces más rápido que las redes de redireccionamiento tradicionales, lo que indica una mejora sustancial en la eficiencia computacional. Como ejemplo, se destaca el uso de FFF en transformadores de visión, afirmando que FFF tiene potencial para su uso en actividades relacionadas con la visión, ya que puede mantener el 94,2% del rendimiento de predicción utilizando solo el 1% de las neuronas.

En conclusión, el diseño de FFF es sin duda un método revolucionario para mejorar la eficacia computacional de las redes neuronales. Supera a las redes de mezcla de expertos y reduce significativamente el tiempo de inferencia en comparación con las redes de redireccionamiento típicas. Las características de entrenamiento de FFF, como la ejecución condicional sin ruido y su capacidad para lograr una buena precisión de predicción con un bajo uso de neuronas, también son características principales. Estos avances tienen el potencial de acelerar y mejorar el rendimiento de los modelos enormes, revolucionando la industria del aprendizaje profundo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Guía de un ingeniero de Microsoft para la innovación y el liderazgo en Inteligencia Artificial

Adéntrate en las ideas de la innovación de AI con el Ingeniero de Software Senior de Microsoft, Manas Joshi Un viaje ...

Inteligencia Artificial

Optimiza el costo de implementación de los modelos base de Amazon SageMaker JumpStart con los puntos finales asincrónicos de Amazon SageMaker

En esta publicación, nos enfocamos en estas situaciones y resolvemos el problema de arriesgar altos costos al impleme...

Inteligencia Artificial

¡No, no, no lo pongamos ahí! Este método de IA puede realizar edición de diseño continua con modelos de difusión

En este punto, todos están familiarizados con los modelos de texto a imagen. Se hicieron conocidos con el lanzamiento...

Inteligencia Artificial

Conoce ConceptGraphs Una representación gráfica estructurada de vocabulario abierto para escenas en 3D

La captura y codificación de información sobre una escena visual, típicamente en el contexto de la visión por computa...

Inteligencia Artificial

Una nueva investigación de aprendizaje profundo identifica un medicamento antipalúdico como posible tratamiento para la osteoporosis

El problema de la osteoporosis, una condición caracterizada por una pérdida excesiva de hueso y un alto riesgo de fra...