Microsoft AI propone MM-REACT un paradigma del sistema que combina ChatGPT y expertos en visión para un razonamiento y acción multimodal avanzados.
Microsoft AI propone MM-REACT, un paradigma que combina ChatGPT y expertos en visión para un razonamiento y acción multimodal avanzados.
Los Grandes Modelos de Lenguaje (LLMs) están avanzando rápidamente y contribuyendo a transformaciones económicas y sociales notables. Con muchas herramientas de inteligencia artificial (IA) que se lanzan en Internet, una de las herramientas más populares en los últimos meses es ChatGPT. ChatGPT es un modelo de procesamiento de lenguaje natural que permite a los usuarios generar texto significativo como los humanos. ChatGPT de OpenAI se basa en la arquitectura transformadora GPT, siendo GPT-4 el último modelo de lenguaje que lo impulsa.
Con los últimos avances en inteligencia artificial y aprendizaje automático, la visión por computadora ha avanzado exponencialmente, con una arquitectura de red mejorada y un entrenamiento de modelos a gran escala. Recientemente, algunos investigadores han introducido MM-REACT, que es un paradigma de sistema que combina numerosos expertos en visión con ChatGPT para el razonamiento y la acción multimodales. MM-REACT combina modelos de visión individuales con el modelo de lenguaje de manera más flexible para superar desafíos complicados de comprensión visual.
MM-REACT se ha desarrollado con el objetivo de ocuparse de una amplia gama de tareas visuales complejas con las que los modelos de visión y visión-lenguaje existentes tienen dificultades. Para esto, MM-REACT utiliza un diseño de indicación para representar diversos tipos de información, como descripciones de texto, coordenadas espaciales textualizadas y señales visuales densas, como imágenes y videos, representados como nombres de archivo alineados. Este diseño permite que ChatGPT acepte y procese diferentes tipos de información en combinación con la entrada visual, lo que lleva a una comprensión más precisa y completa.
- Conoce Automated Reasoning And Tool-Use (ART) Un marco de trabajo que utiliza modelos de lenguaje grandes congelados (LLMs) para producir rápidamente etapas intermedias en programas de razonamiento.
- Ex CEO de Google empoderará al ejército de Estados Unidos con IA y el Metaverso
- Un nuevo marco de Aprendizaje por Reforzamiento Profundo (DRL) puede reaccionar ante atacantes en un entorno simulado y bloquear el 95% de los ciberataques antes de que se intensifiquen.
MM-REACT es un sistema que combina las habilidades de ChatGPT con un conjunto de expertos en visión para agregar funcionalidades multimodales. La ruta del archivo se utiliza como marcador de posición y se ingresa en ChatGPT para que el sistema acepte imágenes como entrada. Cuando el sistema necesita información específica de la imagen, como identificar el nombre de una celebridad o las coordenadas de una caja, ChatGPT busca ayuda de un experto en visión específico. La salida del experto se serializa como texto y se combina con la entrada para activar aún más ChatGPT. Si no se necesitan expertos externos, la respuesta se devuelve directamente al usuario.
Se ha diseñado ChatGPT para comprender el conocimiento de los usos de los expertos en visión al agregar ciertas instrucciones a las indicaciones de ChatGPT que están relacionadas con la capacidad de cada experto, el tipo de argumento de entrada y el tipo de salida, junto con algunos ejemplos en contexto para cada experto. Además, se instruye una palabra clave especial para usar la coincidencia de expresiones regulares para invocar al experto correspondiente.
Mediante experimentación, los experimentos sin entrenamiento han demostrado cómo MM-REACT aborda eficazmente sus capacidades particulares de interés. Se ha demostrado que es eficiente para resolver una amplia gama de tareas visuales avanzadas que requieren una comprensión visual compleja. Los autores han compartido algunos ejemplos en los que MM-REACT es capaz de proporcionar soluciones a ecuaciones lineales mostradas en una imagen. También es capaz de realizar comprensión conceptual nombrando productos en la imagen y sus ingredientes, entre otras cosas. En conclusión, este paradigma de sistema combina de manera excelente la experiencia en lenguaje y visión y es capaz de lograr una inteligencia visual avanzada.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Democratización de los datos 5 estrategias de Datos para todos adoptadas por las grandes empresas
- Un nuevo artículo de IA explica los diferentes niveles de experiencia que pueden tener los modelos de lenguaje grandes como máquinas de patrones generales
- Este boletín de inteligencia artificial es todo lo que necesitas #56
- Mejora Amazon Lex con LLMs y mejora la experiencia de las preguntas frecuentes utilizando la ingestión de URL
- Mejora Amazon Lex con características de preguntas frecuentes conversacionales utilizando LLMs
- Llama 2 está aquí – obténlo en Hugging Face
- Los actores aseguran que los estudios quieren usar réplicas de IA