Investigadores del Laboratorio de Inteligencia Artificial de Shanghai y del MIT presentan la red neuronal recurrente RNN jerárquicamente controlada una nueva frontera en la eficiente modelización de dependencia a largo plazo

Investigadores del Laboratorio de Inteligencia Artificial de Shanghai y del MIT presentan la revolucionaria red neuronal recurrente RNN jerárquicamente controlada rompiendo barreras en la eficiente modelización de dependencia a largo plazo

La técnica de Redes Neuronales Recurrentes Jerárquicamente Gated (HGRN) desarrollada por investigadores del Laboratorio de Inteligencia Artificial de Shanghai y el MIT CSAI aborda el desafío de mejorar el modelado de secuencias incorporando puertas de olvido en las RNN lineales. El objetivo es permitir que las capas superiores capturen dependencias a largo plazo al tiempo que permiten que las capas inferiores se centren en dependencias a corto plazo, especialmente en el manejo de secuencias muy largas.

El estudio explora la dominación de los Transformers en el modelado de secuencias debido al entrenamiento paralelo y las capacidades de dependencia a largo plazo, pero señala un renovado interés en el modelado eficiente de secuencias utilizando RNN lineales, enfatizando la importancia de las puertas de olvido. Considera las alternativas de recurrencia lineal y convolución larga a los módulos de autoatención para secuencias largas, destacando los desafíos en las convoluciones largas. También se abordan las limitaciones de las RNN en el modelado de dependencias a largo plazo y el uso de mecanismos de puertas.

El modelado de secuencias es crucial en diversos ámbitos como el procesamiento del lenguaje natural, el análisis de series temporales, la visión por computadora y el procesamiento de audio. Mientras que las RNN eran comúnmente utilizadas antes del advenimiento de los Transformers, enfrentaban desafíos con un entrenamiento lento y el modelado de dependencias a largo plazo. Los Transformers destacan en el entrenamiento paralelo pero tienen una complejidad temporal cuadrática para secuencias largas.

La investigación presenta el HGRN para el modelado eficiente de secuencias, que consta de capas apiladas con módulos de mezcla de tokens y canales. Las puertas de olvido dentro de la capa de recurrencia lineal permiten el modelado de dependencias a largo plazo en las capas superiores y dependencias locales en las capas inferiores. El módulo de mezcla de tokens incorpora puertas de salida y proyecciones inspiradas en modelos de espacio de estados. Los mecanismos de puertas y las tasas de decaimiento dinámico abordan el problema de desvanecimiento del gradiente. La evaluación en modelado de lenguaje, clasificación de imágenes y pruebas de largo alcance demuestra la eficiencia y efectividad del HGRN.

El modelo HGRN propuesto destaca en el modelado del lenguaje autoregresivo, la clasificación de imágenes y las pruebas de largo alcance. Superando a variantes eficientes del transformer original, métodos basados en MLP y RNN en tareas de lenguaje, HGRN demuestra un rendimiento comparable al transformer original. En tareas como el razonamiento de sentido común y Super GLUE, iguala a los modelos basados en Transformer utilizando menos tokens. HGRN logra resultados competitivos en el manejo de dependencias a largo plazo en la prueba de Largo Rango. En la clasificación de imágenes de ImageNet-1K, HGRN supera a métodos anteriores como TNN y el transformer original.

En conclusión, el modelo HGRN ha demostrado ser altamente efectivo en diversas tareas y modalidades, incluido el modelado del lenguaje, la clasificación de imágenes y las pruebas de largo alcance. Su uso de puertas de olvido y un límite inferior en sus valores permite el modelado eficiente de dependencias a largo plazo. HGRN ha superado a variantes del transformer original, métodos basados en MLP y RNN en tareas de lenguaje, y ha mostrado un rendimiento superior en la clasificación de imágenes de ImageNet-1K en comparación con métodos como TNN y el transformer original.

Las futuras direcciones para el modelo HGRN incluyen una amplia exploración en diversos ámbitos y tareas para evaluar su generalidad y efectividad. La investigación del impacto de diferentes hiperparámetros y variaciones arquitectónicas tiene como objetivo optimizar el diseño del modelo. La evaluación de conjuntos de datos de referencia adicionales y compararlos con modelos de vanguardia validará aún más su rendimiento. Se explorarán posibles mejoras, como la incorporación de mecanismos de atención u otras puertas, para mejorar la captura de dependencias a largo plazo. Se investigará la escalabilidad para secuencias aún más largas y los beneficios de las implementaciones de escaneo paralelo. Un análisis más detallado de la interpretabilidad y explicabilidad tiene como objetivo obtener una mejor comprensión de la toma de decisiones y mejorar la transparencia.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Investigadores del Laboratorio de Inteligencia Artificial de Shanghai y del MIT presentan la red neuronal recurrente RNN jerárquicamente controlada una nueva frontera en la eficiente modelización de dependencia a largo plazo

Was this article helpful?

El Enfoque Principiado para las Etapas Tempranas de Clasificación

Modelos grandes se encuentran con Big Data Spark y LLM (modelos lineales latentes) en armonía

Inteligencia Artificial

10 millones se registran en la aplicación rival de Twitter de Meta, Threads.

Geoffrey Hinton sobre la Promesa y los Riesgos de la IA Avanzada

Este documento de IA presenta BioCLIP aprovechando el conjunto de datos TreeOfLife-10M para transformar la visión por computadora en biología y conservación

Este boletín de IA es todo lo que necesitas #65

El modelo de inteligencia artificial de NVIDIA para salvar la Tierra, obtiene financiamiento de la NASA.

Investigadores de UC Berkeley proponen FastRLAP un sistema para aprender a conducir a alta velocidad mediante Deep RL (Aprendizaje por Reforzamiento) y práctica autónoma