Conoce a Fuyu-8B El modelo de fundación muy único detrás de la plataforma Adept

Descubre a Fuyu-8B El sorprendente modelo de base detrás de la plataforma Adept

El modelo fue diseñado para tareas basadas en agentes y muestra algunas capacidades únicas para el lenguaje y la visión por computadora.

Recientemente comencé un boletín educativo centrado en la inteligencia artificial, que ya tiene más de 160,000 suscriptores. TheSequence es un boletín orientado a la IA, sin tonterías (sin exageraciones, sin noticias, etc.), que tarda 5 minutos en leer. El objetivo es mantenerte actualizado sobre proyectos de aprendizaje automático, artículos de investigación y conceptos. Por favor, pruébalo suscribiéndote a continuación:

TheSequence | Jesus Rodriguez | Substack

La mejor fuente para mantenerte actualizado sobre los avances en el aprendizaje automático, la inteligencia artificial y los datos…

thesequence.substack.com

Adept.ai es parte de la generación de unicornios de IA recién creados. Inicialmente incubada por algunos de los autores del icónico artículo sobre transformers, Adept está trabajando en el área de agentes autónomos de IA. Hasta ahora, Adept ha recaudado más de $415 millones con una valoración superior a los $1 mil millones. La plataforma se dedica a construir agentes que comprendan objetivos de alto nivel y los conviertan en acciones, basándose principalmente en la visión por computadora y el lenguaje. Hasta ahora, se sabía muy poco sobre los modelos detrás de Adept, hasta que Adept lanzó Fuyu-8B de código abierto, una versión más pequeña del modelo que impulsa su plataforma.

Adept tiene la misión de crear un compañero inteligente para los trabajadores del conocimiento, un copiloto digital con un intelecto amplio. Para lograr este objetivo, Adept hace hincapié en comprender el contexto del usuario y tomar acciones en su nombre. Una parte crucial de este esfuerzo implica una comprensión experta de imágenes. En el mundo del trabajo del conocimiento, los usuarios esperan que su copiloto acceda sin problemas a lo que ven en sus pantallas. A menudo, se transmite información vital a través de imágenes, ya sean gráficos, diapositivas o PDFs. Además, para realizar acciones, a menudo es necesario interactuar con elementos en pantalla como botones y menús. Si bien sería ideal si todas estas tareas pudieran realizarse a través de APIs, muchos software orientados a los negocios carecen de APIs completas, lo que hace necesario navegar por estas aplicaciones a través de sus interfaces gráficas de usuario (UI) para mantener a los usuarios comprometidos.

En general, Fuyu-8B exhibe algunas características que lo hacen único entre la nueva generación de modelos multimodales:

1. Más pequeño y simple que la arquitectura estándar.

2. Diseñado para el paradigma de agente.

3. Rápido.

4. Capaz de igualar a modelos más grandes en pruebas de referencia estándar y superarlos en tareas específicas de agente.

La arquitectura

Cuando se trata de la última generación de modelos fundamentales, los modelos multimodales comparten una estructura común. Por lo general, cuentan con un codificador de imágenes distinto, cuya salida se integra en un modelo de lenguaje grande (LLM) existente a través de mecanismos de atención cruzada o adaptadores. Los ejemplos son abundantes. Modelos como PALM-e, PALI-X, QWEN-VL, LLaVA 1.5 y Flamingo se adhieren a este paradigma. Estos modelos suelen operar con resoluciones de imagen fijas. Durante la inferencia, las imágenes que superan esta resolución deben reducirse de tamaño, mientras que aquellas con relaciones de aspecto diferentes requieren relleno o distorsión.

En cuanto a la formación, muchos otros modelos multimodales siguen un proceso de formación multietapa. El codificador de imágenes se entrena por separado del LLM, a menudo utilizando objetivos de formación contractivos, que pueden ser intrincados de implementar y gestionar. Se deben tomar decisiones sobre cuándo congelar los pesos de varios componentes. Incluso algunos modelos incluyen una fase adicional de imágenes de alta resolución para garantizar un manejo competente de imágenes de alta resolución.

La escalabilidad de estos modelos presenta un desafío al determinar cómo escalar proporcionalmente cada uno de estos componentes. Surgen preguntas sobre cómo asignar parámetros adicionales al codificador versus el decodificador y dónde asignar recursos computacionales durante la formación. Sin embargo, Adept presenta un modelo que evita estas complejidades.

Arquitecturalmente, Fuyu es un transformador directo y sencillo con las mismas especificaciones que Persimmon-8B, sin un codificador de imágenes dedicado. Los parches de imágenes se proyectan directamente en la primera capa del transformador, omitiendo la búsqueda de incrustaciones. Este enfoque trata al decodificador del transformador tradicional como un transformador de imágenes, aunque sin agrupación y con atención causal. Para obtener más detalles, consulta el diagrama adjunto.

Esta simplificación ofrece la flexibilidad para manejar imágenes de diferentes resoluciones sin esfuerzo. Para lograr esto, los tokens de imagen se tratan de manera similar a sus contrapartes textuales. Se eliminan los embeddings de posición específicos de la imagen y los tokens de imagen se alimentan al modelo en orden de rastreo de raster, con un carácter especial de nueva línea de imagen que indica saltos de línea. El modelo puede aprovechar sus embeddings de posición existentes para adaptarse a diferentes tamaños de imagen. Durante el entrenamiento, se pueden utilizar imágenes de cualquier tamaño, eliminando la necesidad de etapas separadas de entrenamiento de alta y baja resolución.

Las Capacidades

Además de las características estándar esperadas en los modelos fundamentales multimodales, Fuyu-8B muestra un interesante conjunto de capacidades únicas:

Preguntas y Respuestas en Imágenes

Fuyu tiene la capacidad de abordar preguntas intrincadas dentro de las imágenes, como se muestra a continuación:

Comprensión de Gráficos

Cuando se enfrenta a datos visuales complejos, como el gráfico representado a continuación, Fuyu sobresale en discernir relaciones intrincadas, trazar conexiones entre varios elementos y contar para proporcionar respuestas perspicaces:

Dominio de Documentos

La competencia de Fuyu se extiende a descifrar una amplia gama de documentos, ya sea que involucren infografías intrincadas o PDFs envejecidos:

Interpretación de Diagramas

La experiencia del modelo también se extiende a descifrar diagramas científicos complejos, abordando consultas relacionales intrincadas con maestría:

Competencia en OCR

Además de estas habilidades, Adept ha perfeccionado sus modelos internos para sobresalir en dos tareas esenciales cuando se presenta una imagen de una interfaz de usuario (UI):

· bbox_to_text : Dada una caja delimitadora, Adept puede identificar precisamente el texto contenido dentro de esa caja delimitadora.

· text_to_bbox : A la inversa, cuando se proporciona texto, Adept puede hábilmente devolver la caja delimitadora que engloba el texto especificado.

Fuyu-8B es definitivamente uno de los lanzamientos más interesantes recientes en modelos fundamentales de código abierto. La simplicidad de su arquitectura y el conjunto único de capacidades lo convierten en uno de los modelos a tener en cuenta en el espacio.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

artificial intelligenceGenerative AILarge Language ModelsMachine LearningThesequence

Was this article helpful?

93 out of 132 found this helpful

Conoce a Fuyu-8B El modelo de fundación muy único detrás de la plataforma Adept

El modelo fue diseñado para tareas basadas en agentes y muestra algunas capacidades únicas para el lenguaje y la visión por computadora.

TheSequence | Jesus Rodriguez | Substack

La mejor fuente para mantenerte actualizado sobre los avances en el aprendizaje automático, la inteligencia artificial y los datos…

La arquitectura

Las Capacidades

Preguntas y Respuestas en Imágenes

Comprensión de Gráficos

Dominio de Documentos

Interpretación de Diagramas

Competencia en OCR

Was this article helpful?

Preguntas de probabilidad en la vida real de los analistas de datos

NoteGoat ahora permite a los usuarios cargar audio, video y transcripciones.

Inteligencia Artificial

La Administración de Biden selecciona al presidente de Google para el esfuerzo de investigación de chips.

Últimos avances en el campo de la IA multimodal (ChatGPT + DALLE 3) + (Google BARD + extensiones) y muchos más…

Amazon Vs Google Vs Microsoft La carrera para revolucionar la atención médica con IA

Técnica de Machine Learning Mejor para Predecir Tasas de Cura del Cáncer

¿Cómo podemos mitigar el sesgo inducido por el fondo en la clasificación de imágenes de granularidad fina? Un estudio comparativo de estrategias de enmascaramiento y arquitecturas de modelos

Repensando la Integridad Académica en la Era de la IA Un Análisis Comparativo de ChatGPT y Estudiantes Universitarios en 32 Cursos