Investigadores de Apple proponen la política de aprendizaje por refuerzo del modelo de lenguaje grande (LLaRP, por sus siglas en inglés) Enfoque de IA mediante el cual los LLM pueden adaptarse para actuar como políticas generalizables para tareas visuales
Investigadores de Apple proponen el enfoque de aprendizaje por refuerzo del modelo de lenguaje grande (LLaRP) para la adaptación de LLM en tareas visuales
El Procesamiento de Lenguaje Natural, la comprensión y generación han entrado en una nueva fase con la introducción de los Modelos de Lenguaje Grandes (LLM). Modelos como el GPT-3 tienen habilidades de reconocimiento de lenguaje sin precedentes porque han sido entrenados en enormes volúmenes de material textual. Su utilidad va mucho más allá de las actividades relacionadas con el lenguaje, ya que han demostrado ser excepcionalmente hábiles en diversas áreas, como el pensamiento incorporado, el razonamiento, la comprensión visual, los sistemas de diálogo, el desarrollo de código e incluso el control de robots.
El hecho de que muchas de estas habilidades aparezcan sin la necesidad de datos de entrenamiento especializados es muy intrigante, ya que muestra lo amplio y genérico que es el entendimiento de estos modelos. Los LLM tienen la capacidad de manejar tareas que implican entradas y salidas que no se pueden articular fácilmente en lenguaje. También son capaces de proporcionar comandos a los robots como salidas o comprender imágenes como entradas.
En la IA Incorporada, el objetivo es desarrollar agentes que puedan tomar decisiones transferibles a otras tareas y que sean generalizables. Históricamente, los conjuntos de datos estáticos, que requieren grandes cantidades de datos expertos diferentes y costosos, han sido la principal fuente de avance en el uso de LLM para la IA Incorporada. Como alternativa, los agentes pueden aprender en entornos virtuales a través de la interacción, la exploración y la retroalimentación de recompensas con la ayuda de simuladores de IA incorporada. Sin embargo, las capacidades de generalización de dichos agentes a menudo se quedan cortas en comparación con lo que se ha demostrado en otros dominios.
- Presentando las Regiones de Almacenamiento en el HF Hub
- La nueva canción de The Beatles ‘Now and Then’ utilizó inteligencia artificial para rescatar la voz de John Lennon
- La Declaración de Bletchley de los países que asistieron a la Cumbre de Seguridad de la IA
En una investigación reciente, un equipo de investigadores ha propuesto un nuevo enfoque llamado Política de Aprendizaje por Reforzamiento utilizando Modelos de Lenguaje Gran (LLaRP, por sus siglas en inglés), mediante el cual se pueden adaptar los LLM para actuar como políticas generalizables para tareas visuales incorporadas. Utilizando un LLM pre-entrenado y fijo, este enfoque procesa comandos de texto y observaciones visuales egocéntricas para generar acciones en tiempo real dentro de un entorno. LLaRP ha sido entrenado para percibir su entorno y comportarse solamente a través de encuentros con él mediante el aprendizaje por reforzamiento.
Los principales hallazgos de la investigación compartidos por el equipo son los siguientes.
- Robustez ante Parafraseos Complejos: LLaRP demuestra una resistencia excepcional a reformulaciones intrincadas de las instrucciones de la tarea. Esto significa que, manteniendo el comportamiento previsto, puede comprender y llevar a cabo instrucciones dadas de diversas maneras. Es capaz de adaptarse a nuevas formulaciones lingüísticas para la misma tarea.
- Generalización a Nuevas Tareas: Un aspecto notable de LLaRP es su capacidad de generalización. Es capaz de asumir nuevas responsabilidades que requieren comportamientos completamente originales e ideales. Demuestra su variedad y adaptabilidad al ajustarse a tareas que nunca ha experimentado durante el entrenamiento.
- Tasa de Éxito Remarcable: LLaRP ha demostrado una asombrosa tasa de éxito del 42% en un conjunto de 1,000 tareas no vistas. En comparación con otros baselines de aprendizaje ampliamente utilizados o aplicaciones LLM sin necesidad de entrenamiento, esta tasa de éxito es 1.7 veces mayor. Esto demuestra el mejor rendimiento y capacidad de generalización del enfoque LLaRP.
- Lanzamiento de Benchmark: Para mejorar la comprensión de la comunidad de investigación sobre los desafíos de la IA incorporada masiva y condicionada por el lenguaje, el equipo de investigación ha publicado un nuevo benchmark llamado “Rearreglo de Lenguaje”. Este benchmark incluye un gran conjunto de datos con 150,000 tareas de entrenamiento y 1,000 tareas de prueba para el rearrangement condicionado por el lenguaje. Es una excelente herramienta para los investigadores que deseen aprender más sobre y desarrollar esta rama de la IA.
En resumen, LLaRP es definitivamente un enfoque increíble que adapta LLM pre-entrenados para tareas visuales incorporadas y tiene un desempeño excepcional en general, robustez y generalización.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Manteniendo secretos en un mundo cuántico
- Nvidia está probando una IA generativa para sus ingenieros
- Una forma sencilla de mejorar el rendimiento de Zero-Shot CLIP
- Integración de datos multimodales Cómo la inteligencia artificial está revolucionando la atención del cáncer
- ULTRA Modelos de base para el razonamiento del gráfico de conocimiento
- Cómo funciona Nightshade
- Más allá del cálido abrazo Un vistazo más profundo al rostro abrazador