Un agente generalista

An all-purpose agent.

:

Inspirado por el progreso en la modelización del lenguaje a gran escala, aplicamos un enfoque similar para construir un único agente generalista más allá del ámbito de las salidas de texto. El agente, al que nos referimos como Gato, funciona como una política generalista multimodal, multitarea y multimodalidad. La misma red con los mismos pesos puede jugar a Atari, describir imágenes, chatear, apilar bloques con un brazo robótico real y mucho más, decidiendo basado en su contexto si emitir texto, torques conjuntos, pulsaciones de botones u otros tokens.

Durante la fase de entrenamiento de Gato, los datos de diferentes tareas y modalidades se serializan en una secuencia plana de tokens, se agrupan por lotes y se procesan mediante una red neuronal transformadora similar a un modelo de lenguaje grande. La pérdida está enmascarada para que Gato solo prediga objetivos de acción y texto.

Cuando se implementa Gato, se tokeniza una indicación, como una demostración, formando la secuencia inicial. A continuación, el entorno produce la primera observación, que también se tokeniza y se agrega a la secuencia. Gato genera el vector de acción de forma autoregresiva, un token a la vez.

Una vez que se han muestreado todos los tokens que componen el vector de acción (determinado por la especificación de acción del entorno), se decodifica y envía la acción al entorno, que avanza y produce una nueva observación. Luego se repite el procedimiento. El modelo siempre ve todas las observaciones y acciones anteriores dentro de su ventana de contexto de 1024 tokens.

Gato se entrena con una gran cantidad de conjuntos de datos que comprenden la experiencia del agente tanto en entornos simulados como en el mundo real, además de una variedad de conjuntos de datos de lenguaje natural e imágenes. Aquí se muestra el número de tareas en las que el rendimiento del modelo preentrenado de Gato supera un porcentaje de la puntuación de experto, agrupado por dominio.

Las siguientes imágenes también muestran cómo el modelo preentrenado de Gato con los mismos pesos puede realizar subtítulos de imágenes, participar en un diálogo interactivo y controlar un brazo robótico, entre muchas otras tareas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Esta investigación de IA presenta Photo-SLAM Elevando el mapeo fotorealista en tiempo real en dispositivos portátiles

En visión por computadora y robótica, la localización y mapeo simultáneos (SLAM, por sus siglas en inglés) con cámara...

Inteligencia Artificial

Revolucionando la segmentación de objetos en videos Descubriendo a Cutie con técnicas avanzadas de lectura de memoria a nivel de objetos

El seguimiento y segmentación de objetos de un vocabulario abierto definido en una anotación de primer fotograma es n...

Inteligencia Artificial

ChatGPT Plugins Todo lo que necesitas saber

Aprenda más sobre los complementos de terceros que OpenAI ha lanzado para comprender ChatGPTs en uso en el mundo real.

Inteligencia Artificial

Microsoft AI lanza LLMLingua una técnica única de compresión rápida que comprime los mensajes para acelerar la inferencia de Modelos de Lenguaje Grandes (LLMs)

Los Modelos de Lenguaje de Gran Tamaño (LLM, por sus siglas en inglés), debido a su gran capacidad de generalización ...

Aprendizaje Automático

Google AI presenta Imagen Editor y EditBench para mejorar y evaluar el rellenado de imágenes guiado por texto.

Ha habido un reciente aumento en la curiosidad sobre los convertidores de texto a imagen. Estos modelos generativos s...

Inteligencia Artificial

Robot Blando Camina al Inflarse Repetidamente

Investigadores de la Universidad de Cornell y del Instituto Tecnológico de Israel, Technion, han diseñado un robot cu...