Microsoft AI propone MM-REACT un paradigma del sistema que combina ChatGPT y expertos en visión para un razonamiento y acción multimodal avanzados.

Microsoft AI propone MM-REACT, un paradigma que combina ChatGPT y expertos en visión para un razonamiento y acción multimodal avanzados.

Los Grandes Modelos de Lenguaje (LLMs) están avanzando rápidamente y contribuyendo a transformaciones económicas y sociales notables. Con muchas herramientas de inteligencia artificial (IA) que se lanzan en Internet, una de las herramientas más populares en los últimos meses es ChatGPT. ChatGPT es un modelo de procesamiento de lenguaje natural que permite a los usuarios generar texto significativo como los humanos. ChatGPT de OpenAI se basa en la arquitectura transformadora GPT, siendo GPT-4 el último modelo de lenguaje que lo impulsa.

Con los últimos avances en inteligencia artificial y aprendizaje automático, la visión por computadora ha avanzado exponencialmente, con una arquitectura de red mejorada y un entrenamiento de modelos a gran escala. Recientemente, algunos investigadores han introducido MM-REACT, que es un paradigma de sistema que combina numerosos expertos en visión con ChatGPT para el razonamiento y la acción multimodales. MM-REACT combina modelos de visión individuales con el modelo de lenguaje de manera más flexible para superar desafíos complicados de comprensión visual.

MM-REACT se ha desarrollado con el objetivo de ocuparse de una amplia gama de tareas visuales complejas con las que los modelos de visión y visión-lenguaje existentes tienen dificultades. Para esto, MM-REACT utiliza un diseño de indicación para representar diversos tipos de información, como descripciones de texto, coordenadas espaciales textualizadas y señales visuales densas, como imágenes y videos, representados como nombres de archivo alineados. Este diseño permite que ChatGPT acepte y procese diferentes tipos de información en combinación con la entrada visual, lo que lleva a una comprensión más precisa y completa.

MM-REACT es un sistema que combina las habilidades de ChatGPT con un conjunto de expertos en visión para agregar funcionalidades multimodales. La ruta del archivo se utiliza como marcador de posición y se ingresa en ChatGPT para que el sistema acepte imágenes como entrada. Cuando el sistema necesita información específica de la imagen, como identificar el nombre de una celebridad o las coordenadas de una caja, ChatGPT busca ayuda de un experto en visión específico. La salida del experto se serializa como texto y se combina con la entrada para activar aún más ChatGPT. Si no se necesitan expertos externos, la respuesta se devuelve directamente al usuario.

Se ha diseñado ChatGPT para comprender el conocimiento de los usos de los expertos en visión al agregar ciertas instrucciones a las indicaciones de ChatGPT que están relacionadas con la capacidad de cada experto, el tipo de argumento de entrada y el tipo de salida, junto con algunos ejemplos en contexto para cada experto. Además, se instruye una palabra clave especial para usar la coincidencia de expresiones regulares para invocar al experto correspondiente.

Mediante experimentación, los experimentos sin entrenamiento han demostrado cómo MM-REACT aborda eficazmente sus capacidades particulares de interés. Se ha demostrado que es eficiente para resolver una amplia gama de tareas visuales avanzadas que requieren una comprensión visual compleja. Los autores han compartido algunos ejemplos en los que MM-REACT es capaz de proporcionar soluciones a ecuaciones lineales mostradas en una imagen. También es capaz de realizar comprensión conceptual nombrando productos en la imagen y sus ingredientes, entre otras cosas. En conclusión, este paradigma de sistema combina de manera excelente la experiencia en lenguaje y visión y es capaz de lograr una inteligencia visual avanzada.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI Paper SummaryAI ShortsApplicationsartificial intelligenceComputer VisionDeep LearningEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Investigadores del MIT y UC Berkeley presentaron un marco de trabajo que permite a los humanos enseñar rápidamente a un robot lo que quieren que haga con un esfuerzo mínimo.

Microsoft AI propone MM-REACT un paradigma del sistema que combina ChatGPT y expertos en visión para un razonamiento y acción multimodal avanzados.

Was this article helpful?

Conoce Automated Reasoning And Tool-Use (ART) Un marco de trabajo que utiliza modelos de lenguaje grandes congelados (LLMs) para producir rápidamente etapas intermedias en programas de razonamiento.

Investigadores del MIT y UC Berkeley presentaron un marco de trabajo que permite a los humanos enseñar rápidamente a un robot lo que quieren que haga con un esfuerzo mínimo.

Inteligencia Artificial

Principal Financial Group utiliza la solución de análisis posterior a la llamada de AWS para extraer información sobre los clientes omnicanal

Conoce Jupyter AI Un nuevo proyecto de código abierto que lleva la Inteligencia Artificial Generativa a Jupyter Notebooks con Comandos Mágicos y una Interfaz de Chat.

6 Podcasts de GenAI que deberías estar escuchando

Salvando las bibliotecas digitales y el Internet Archive

Libre de Limitaciones La Validación de las Alucinaciones de la Máquina en el MoMA

ChatGPT obtiene una puntuación en el 1% superior en la prueba de creatividad humana