Una nueva investigación de AI de Apple y Equall AI revela redundancias en la arquitectura de Transformer Cómo optimizar la red de avance de alimentación mejora la eficiencia y la precisión

Investigación AI de Apple y Equall AI descubre redundancias en la arquitectura de Transformer y cómo optimizar la red de avance de alimentación para mejorar eficiencia y precisión.

El diseño del Transformer que se ha vuelto popular recientemente ha tomado el control como el método estándar para las actividades de Procesamiento del Lenguaje Natural (NLP), especialmente la Traducción Automática (MT). Esta arquitectura ha mostrado impresionantes cualidades de escalabilidad, lo que significa que agregar más parámetros del modelo resulta en un mejor rendimiento en una variedad de tareas de NLP. Varios estudios e investigaciones han validado esta observación. Aunque los transformers destacan en términos de escalabilidad, también hay un movimiento paralelo para hacer que estos modelos sean más efectivos y desplegables en el mundo real. Esto implica solucionar problemas de latencia, uso de memoria y espacio en disco.

Los investigadores han estado investigando activamente métodos para abordar estos problemas, incluyendo la reducción de componentes, compartir parámetros y reducción de dimensionalidad. La arquitectura del Transformer ampliamente utilizada consta de varias partes esenciales, de las cuales dos de las más importantes son la Red Neuronal de Alimentación Directa (FFN) y la Atención.

  1. Atención – El mecanismo de Atención permite que el modelo capture las relaciones y dependencias entre las palabras en una oración, independientemente de sus posiciones. Funciona como una especie de mecanismo para ayudar al modelo a determinar qué partes del texto de entrada son más pertinentes para cada palabra que está analizando en ese momento. La comprensión del contexto y las conexiones entre las palabras en una frase depende de esto.
  1. Red Neuronal de Alimentación Directa (FFN): El FFN se encarga de transformar no linealmente cada token de entrada de manera independiente. Agrega complejidad y expresividad a la comprensión del modelo de cada palabra al realizar operaciones matemáticas específicas en la representación de cada palabra.

En una investigación reciente, un equipo de investigadores se ha centrado en investigar el papel del FFN dentro de la arquitectura del Transformer. Han descubierto que el FFN muestra un alto nivel de redundancia siendo un componente grande del modelo y consumiendo un número significativo de parámetros. Han encontrado que podrían reducir la cantidad de parámetros del modelo sin comprometer significativamente la precisión. Han logrado esto eliminando el FFN de las capas del decodificador y en su lugar utilizando un solo FFN compartido en las capas del codificador.

  1. Capas de Decodificador: Cada codificador y decodificador en un modelo Transformer estándar tiene su propio FFN. Los investigadores eliminaron el FFN de las capas del decodificador.
  1. Capas de Codificador: Utilizaron un solo FFN que era compartido por todas las capas del codificador en lugar de tener FFNs individuales para cada capa del codificador.

Los investigadores han compartido los beneficios que han acompañado a este enfoque, que son los siguientes.

  1. Reducción de Parámetros: Han reducido drásticamente la cantidad de parámetros en el modelo al eliminar y compartir los componentes del FFN.
  1. La precisión del modelo solo disminuyó en una cantidad modesta a pesar de eliminar una cantidad considerable de sus parámetros. Esto demuestra que los numerosos FFNs del codificador y el FFN del decodificador tienen cierto grado de redundancia funcional.
  1. Reducción: Ampliaron la dimensión oculta del FFN compartido para restaurar la arquitectura a su tamaño anterior, manteniendo o incluso mejorando el rendimiento del modelo. En comparación con el modelo Transformer a gran escala anterior, esto resultó en mejoras considerablemente en la precisión y la velocidad de procesamiento del modelo, es decir, la latencia.

En conclusión, esta investigación muestra que la Red Neuronal de Alimentación Directa en el diseño del Transformer, especialmente en los niveles del decodificador, puede ser simplificada y compartida sin afectar significativamente el rendimiento del modelo. Esto no solo reduce la carga computacional del modelo, sino que también mejora su eficacia y aplicabilidad para diversas aplicaciones de NLP.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La Escuela de Ingeniería da la bienvenida a Songyee Yoon, PhD '00, como investigadora visitante de innovación.

Un emprendedor e innovador visionario, Yoon se enfocará en el emprendimiento, el apoyo a las ingenieras mujeres y el ...

Inteligencia Artificial

Investigadores de Microsoft y ETH Zurich presentan HoloAssist un conjunto de datos multimodal para copilotos de IA de próxima generación para el mundo físico.

En el campo de la inteligencia artificial, un desafío persistente ha sido desarrollar asistentes de IA interactivos q...

Inteligencia Artificial

UE busca liderar en el mundo del Metaverso y evitar la dominación de las grandes empresas tecnológicas

La Comisión Europea ha delineado una estrategia para que la Unión Europea asuma un papel líder en el sector del metav...

Inteligencia Artificial

Presentamos OpenChat La plataforma gratuita y sencilla para construir chatbots personalizados en minutos.

Enseña a tus chatbots cualquier tema conectándolos a recursos como PDFs, sitios web, Notion, Confluence y Office 365.

Inteligencia Artificial

Shutterstock lleva la IA generativa a los fondos de escenas en 3D con NVIDIA Picasso

Imagínate esto: los creadores pueden crear y personalizar rápidamente fondos de escenas en 3D con la ayuda de la IA g...