Q* y LVM Evolución de la AGI de LLM

Evolución de la AGI de LLM Q* y LVM

Q* para Razonamiento Avanzado y LVM para Visión AI: Pioneros en Mejoras en el Paisaje de AGI Impulsado por LLM

Fuente: generada por ChatGPT 4 con la indicación del título del artículo

El campo de la inteligencia artificial ha presenciado un surgimiento revolucionario con la llegada de los Modelos de Lenguaje Grande (LLM) como ChatGPT. Estos modelos han transformado drásticamente nuestra interacción con la IA, ofreciendo habilidades conversacionales que parecen casi humanas. Sin embargo, a pesar de su éxito, los LLM tienen lagunas notables en dos áreas críticas: visión AI y razonamiento lógico/matemático. Para abordar estas lagunas existen dos innovaciones revolucionarias: el misterioso proyecto Q* de OpenAI y los pioneros Modelos de Visión Grande (LVM) introducidos por UCB y JHU.

Q*: Acortando la Brecha en el Razonamiento Lógico y Matemático

Q*, un proyecto envuelto en secreto, ha surgido recientemente en discusiones dentro de la comunidad de IA. Si bien los detalles son escasos, la información filtrada a través de varias fuentes, incluyendo un artículo de Wired y discusiones en el foro de la comunidad de OpenAI, sugieren que Q* es la respuesta de OpenAI para mejorar el razonamiento lógico y matemático en los modelos de IA.

La necesidad de Q* surge de las limitaciones inherentes de los LLM actuales para procesar construcciones lógicas complejas y problemas matemáticos. Si bien los LLM como ChatGPT pueden simular el razonamiento hasta cierto punto, a menudo flaquean en tareas que requieren un análisis lógico profundo, sistemático o cálculos matemáticos avanzados. Q* tiene como objetivo llenar esta brecha, potencialmente aprovechando algoritmos avanzados y enfoques novedosos para dotar a la IA con la capacidad de razonar y calcular a un nivel actualmente fuera del alcance de los modelos existentes.

LVM: Revolucionando la Visión AI

Paralelamente al desarrollo de Q* se encuentra el avance en la visión AI, marcado por la introducción de los Modelos de Visión Grande (LVM). Un reciente artículo publicado en arxiv.org por investigadores de la Universidad de California, Berkeley (UCB) y la Universidad Johns Hopkins (JHU) detalla este avance. Los LVM representan un salto significativo en el campo de la visión AI, abordando desafíos de escalabilidad y eficiencia de aprendizaje que han sido desafíos durante mucho tiempo en este ámbito.

Los LVM están diseñados para procesar e interpretar datos visuales a una escala y sofisticación nunca antes vistas. Hacen uso de la modelización secuencial, una técnica que permite un entrenamiento más eficiente y una mejor generalización de grandes conjuntos de datos. Este enfoque permite que los LVM aprendan de grandes cantidades de datos visuales, lo que los convierte en expertos en tareas que van desde el reconocimiento de imágenes hasta la comprensión de escenas complejas.

Arquitectura de LVM (Fuente: el artículo de LVM)

Este LVM utiliza un enfoque de modelado secuencial novedoso, permitiendo el aprendizaje de datos visuales sin depender de información lingüística. En el centro de este enfoque se encuentra el concepto de “oraciones visuales”, un formato que representa una amplia gama de datos visuales, incluyendo imágenes en bruto, videos y fuentes anotadas como segmentaciones semánticas, como tokens secuenciales. Este método permite el manejo de una amplia variedad de datos visuales (más de 420 mil millones de tokens) como secuencias, que el modelo aprende a procesar minimizando la pérdida de entropía cruzada para la predicción del siguiente token.

En el corazón del LVM se encuentra un proceso de dos etapas para manejar los datos visuales. La primera etapa implica la tokenización de imágenes utilizando un modelo VQGAN, que traduce cada imagen en una secuencia de tokens visuales discretos. El marco de VQGAN utiliza una combinación de mecanismos de codificación y decodificación, con una capa de cuantización que asigna las imágenes de entrada a tokens discretos de un libro de códigos preestablecido. La segunda etapa implica el entrenamiento de un modelo transformador auto-regresivo en estas oraciones visuales. Este modelo trata las secuencias de tokens visuales de manera unificada, sin necesidad de tokens específicos para tareas, lo que permite al sistema inferir relaciones entre imágenes de manera contextual.

Para la inferencia y aplicación en diversas tareas de visión, LVM utiliza un método llamado indicación visual. Al construir frases visuales parciales que definen una tarea, el modelo puede generar resultados al predecir y completar la secuencia de tokens visuales. Este enfoque se asemeja al aprendizaje en contexto en modelos de lenguaje, proporcionando flexibilidad y adaptabilidad en la generación de salidas visuales para una amplia gama de aplicaciones.

El camino hacia la AGI

El desarrollo de Q* y LVM representa un paso crucial en el camino hacia la Inteligencia Artificial General (AGI). AGI, el Santo Grial de la investigación en IA, se refiere a la capacidad de una máquina para comprender, aprender y aplicar inteligencia en una amplia gama de tareas, al igual que un cerebro humano. Si bien LLM ha sentado una base sólida, la integración de capacidades especializadas como el razonamiento lógico (Q*) y el procesamiento de visión avanzado (LVM) es esencial para acercarse a la AGI.

Estos avances representan no solo mejoras incrementales, sino también un cambio de paradigma en las capacidades de IA. Con Q* mejorando el razonamiento lógico y matemático y LVM revolucionando la IA de visión, el camino hacia la AGI parece más prometedor que nunca. A medida que anticipamos nuevos avances en estos proyectos, el potencial de la IA para superar las fronteras actuales y evolucionar hacia una inteligencia verdaderamente general se vislumbra en el horizonte, anunciando una nueva era en el mundo de la IA.

  1. Modelado secuencial permite un aprendizaje escalable para modelos de visión grandes: https://arxiv.org/abs/2312.00785
  2. UnifiedVisionGPT: Simplificación de la IA orientada a la visión a través de un marco multimodal generalizado: https://arxiv.org/abs/2311.10125
  3. Modelos de lenguaje de visión físicamente fundamentados para manipulación robótica: https://arxiv.org/abs/2309.02561
  4. Modelado de imágenes vectoriales cuantizadas con VQGAN mejorado: https://blog.research.google/2022/05/vector-quantized-image-modeling-with.html
  5. Una encuesta de modelos de lenguaje grandes: https://arxiv.org/abs/2303.18223

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Web LLM Trae los Chatbots de LLM al Navegador.

¿No sería genial si pudieras ejecutar LLMs y chatbots de LLM de forma nativa en tu navegador? Aprendamos más sobre el...

Inteligencia Artificial

Un derrame le robó la capacidad de hablar a los 30 años. La IA está ayudando a restaurarla años después.

La actividad cerebral de una mujer paralizada se está traduciendo en palabras habladas por un avatar. Este hito podrí...

Inteligencia Artificial

Conoce a Watsonx Code Assistant de IBM Revolucionando la codificación empresarial con asistencia impulsada por IA

En el mundo actual de desarrollo de software, uno de los desafíos clave que enfrentan las empresas es la necesidad de...

Inteligencia Artificial

Los emojis son cada vez más legalmente vinculantes. Pero todavía están abiertos a una amplia interpretación

Cada año, más casos en los tribunales de Estados Unidos consideran los emojis como legalmente vinculantes. Sin embarg...

Inteligencia Artificial

Meet LLMWare Un marco de Inteligencia Artificial todo en uno para agilizar el desarrollo de aplicaciones basadas en LLM para aplicaciones de IA generativa

A pesar del gran interés en los Modelos de Lenguaje Grande LLM (por sus siglas en inglés) durante el último año, much...