Revelando los secretos de las neuronas multimodales Un viaje desde Molyneux hasta los Transformadores

Revelando los secretos de las neuronas multimodales Un viaje desde Molyneux hasta los Transformadores

Los Transformers podrían ser una de las innovaciones más importantes en el dominio de la inteligencia artificial. Estas arquitecturas de redes neuronales, introducidas en 2017, han revolucionado cómo las máquinas comprenden y generan lenguaje humano.

A diferencia de sus predecesores, los Transformers se basan en mecanismos de auto-atención para procesar datos de entrada en paralelo, lo que les permite capturar relaciones y dependencias ocultas dentro de secuencias de información. Esta capacidad de procesamiento en paralelo no solo aceleró los tiempos de entrenamiento, sino que también abrió el camino para el desarrollo de modelos con niveles significativos de sofisticación y rendimiento, como el famoso ChatGPT.

Los últimos años nos han mostrado cuán capaces se han vuelto las redes neuronales artificiales en una variedad de tareas. Han cambiado las tareas de lenguaje, las tareas de visión, etc. Pero el verdadero potencial reside en las tareas multimodales, donde integran varias modalidades sensoriales, como la visión y el texto. Estos modelos se han mejorado con entradas sensoriales adicionales y han alcanzado un rendimiento impresionante en tareas que requieren comprender y procesar información de diferentes fuentes.

En 1688, un filósofo llamado William Molyneux presentó un enigma fascinante a John Locke que continuaría cautivando las mentes de los académicos durante siglos. La pregunta que planteó era simple pero profunda: si una persona ciega de nacimiento de repente recuperara la vista, ¿sería capaz de reconocer objetos que previamente solo conocía a través del tacto y otros sentidos no visuales? Esta intrincada pregunta, conocida como el Problema de Molyneux, no solo se adentra en los reinos de la filosofía, sino que también tiene importantes implicaciones para la ciencia de la visión.

En 2011, los neurocientíficos de la visión comenzaron una misión para responder a esta antigua pregunta. Descubrieron que el reconocimiento visual inmediato de objetos previamente solo percibidos por el tacto no es factible. Sin embargo, la revelación importante fue que nuestros cerebros son notablemente adaptables. En pocos días después de una cirugía que restaura la vista, las personas pueden aprender rápidamente a reconocer objetos visualmente, superando la brecha entre diferentes modalidades sensoriales.

¿Este fenómeno también es válido para las neuronas multimodales? Es hora de encontrar la respuesta.

Neuronas multimodales en MLP de Transformer que se activan en características específicas. Fuente: https://arxiv.org/pdf/2308.01544.pdf

Nos encontramos en medio de una revolución tecnológica. Las redes neuronales artificiales, especialmente aquellas entrenadas en tareas de lenguaje, han mostrado una notable destreza en tareas multimodales, donde integran varias modalidades sensoriales, como la visión y el texto. Estos modelos se han mejorado con entradas sensoriales adicionales y han logrado un rendimiento impresionante en tareas que requieren comprender y procesar información de diferentes fuentes.

Un enfoque común en estos modelos de visión y lenguaje implica el uso de una forma condicionada de ajuste de prefijo en función de la imagen. En esta configuración, se alinea un codificador de imágenes independiente con un decodificador de texto, a menudo con la ayuda de una capa adaptadora aprendida. Si bien varios métodos han empleado esta estrategia, por lo general han dependido de codificadores de imágenes, como CLIP, entrenados junto con modelos de lenguaje.

Sin embargo, un estudio reciente, LiMBeR, presentó un escenario único que refleja el Problema de Molyneux en las máquinas. Utilizaron una red de imágenes auto-supervisada, BEIT, que nunca había visto datos lingüísticos, y la conectaron a un modelo de lenguaje, GPT-J, usando una capa de proyección lineal entrenada en una tarea de imagen a texto. Esta configuración intrigante plantea preguntas fundamentales: ¿La traducción de la semántica entre modalidades ocurre dentro de la capa de proyección, o la alineación de las representaciones visuales y del lenguaje ocurre dentro del propio modelo de lenguaje?

Las cinco principales neuronas multimodales para una imagen de muestra de 6 supercategorías de COCO. Fuente: https://arxiv.org/pdf/2308.01544.pdf

La investigación presentada por los autores en MIT busca encontrar respuestas a este misterio de 4 siglos de antigüedad y arrojar luz sobre cómo funcionan estos modelos multimodales.

En primer lugar, descubrieron que las imágenes transformadas en el espacio de incrustación del transformador no codifican semántica interpretable. En cambio, la traducción entre modalidades ocurre dentro del transformador.

En segundo lugar, se descubren neuronas multimodales capaces de procesar tanto información de imagen como de texto con una semántica similar dentro de las MLP (Multilayer Perceptron) solo de texto. Estas neuronas desempeñan un papel crucial en la traducción de representaciones visuales al lenguaje.

El hallazgo final y quizás el más importante es que estas neuronas multimodales tienen un efecto causal en la salida del modelo. La modulación de estas neuronas puede llevar a la eliminación de conceptos específicos de las leyendas de las imágenes, destacando su importancia en la comprensión multimodal del contenido.

Esta investigación sobre el funcionamiento interno de las unidades individuales dentro de las redes profundas descubre una gran cantidad de información. Al igual que las unidades convolucionales en los clasificadores de imágenes pueden detectar colores y patrones, y las unidades posteriores pueden reconocer categorías de objetos, se descubre que surgen neuronas multimodales en los transformadores. Estas neuronas son selectivas para imágenes y texto con una semántica similar.

Además, las neuronas multimodales pueden surgir incluso cuando la visión y el lenguaje se aprenden por separado. Pueden convertir eficazmente representaciones visuales en texto coherente. Esta capacidad de alinear representaciones en distintas modalidades tiene implicaciones de gran alcance, lo que hace que los modelos de lenguaje sean herramientas poderosas para diversas tareas que implican modelado secuencial, desde la predicción de estrategias de juego hasta el diseño de proteínas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Nvidia libera un chip de IA revolucionario para acelerar aplicaciones de IA generativa

En una era en la que la tecnología empuja constantemente los límites, Nvidia ha dejado una vez más su huella. La comp...

Ciencia de Datos

Reinventando la experiencia de los datos Utilice la inteligencia artificial generativa y la arquitectura de datos moderna para desbloquear conocimientos.

Implementar una arquitectura moderna de datos brinda un método escalable para integrar datos de fuentes dispares. Al ...

Inteligencia Artificial

Destaques y Contribuciones de NeurIPS 2023

La conferencia de Sistemas de Procesamiento de Información Neuronal, NeurIPS 2023, se erige como la cima de la búsque...

Inteligencia Artificial

Investigación de AI de SalesForce ha desarrollado ProGen Un gran avance en la ingeniería de proteínas mediante el uso de inteligencia artificial.

El desarrollo de proteínas funcionales ha sido durante mucho tiempo una búsqueda crítica en diversos campos científic...

Inteligencia Artificial

Los Gemelos Digitales Brindan un Camino más Verde para el Crecimiento del Hidrógeno

Un investigador cree que los gemelos digitales podrían ayudar a reducir los costos de producción de hidrógeno limpio ...