Conoce a Fuyu-8B El modelo de fundación muy único detrás de la plataforma Adept
Descubre a Fuyu-8B El sorprendente modelo de base detrás de la plataforma Adept
El modelo fue diseñado para tareas basadas en agentes y muestra algunas capacidades únicas para el lenguaje y la visión por computadora.
Recientemente comencé un boletín educativo centrado en la inteligencia artificial, que ya tiene más de 160,000 suscriptores. TheSequence es un boletín orientado a la IA, sin tonterías (sin exageraciones, sin noticias, etc.), que tarda 5 minutos en leer. El objetivo es mantenerte actualizado sobre proyectos de aprendizaje automático, artículos de investigación y conceptos. Por favor, pruébalo suscribiéndote a continuación:
TheSequence | Jesus Rodriguez | Substack
La mejor fuente para mantenerte actualizado sobre los avances en el aprendizaje automático, la inteligencia artificial y los datos…
thesequence.substack.com
Adept.ai es parte de la generación de unicornios de IA recién creados. Inicialmente incubada por algunos de los autores del icónico artículo sobre transformers, Adept está trabajando en el área de agentes autónomos de IA. Hasta ahora, Adept ha recaudado más de $415 millones con una valoración superior a los $1 mil millones. La plataforma se dedica a construir agentes que comprendan objetivos de alto nivel y los conviertan en acciones, basándose principalmente en la visión por computadora y el lenguaje. Hasta ahora, se sabía muy poco sobre los modelos detrás de Adept, hasta que Adept lanzó Fuyu-8B de código abierto, una versión más pequeña del modelo que impulsa su plataforma.
Adept tiene la misión de crear un compañero inteligente para los trabajadores del conocimiento, un copiloto digital con un intelecto amplio. Para lograr este objetivo, Adept hace hincapié en comprender el contexto del usuario y tomar acciones en su nombre. Una parte crucial de este esfuerzo implica una comprensión experta de imágenes. En el mundo del trabajo del conocimiento, los usuarios esperan que su copiloto acceda sin problemas a lo que ven en sus pantallas. A menudo, se transmite información vital a través de imágenes, ya sean gráficos, diapositivas o PDFs. Además, para realizar acciones, a menudo es necesario interactuar con elementos en pantalla como botones y menús. Si bien sería ideal si todas estas tareas pudieran realizarse a través de APIs, muchos software orientados a los negocios carecen de APIs completas, lo que hace necesario navegar por estas aplicaciones a través de sus interfaces gráficas de usuario (UI) para mantener a los usuarios comprometidos.
- Preguntas de probabilidad en la vida real de los analistas de datos
- Simplificando tareas repetitivas durante el análisis exploratorio de datos
- Comprendiendo y Mitigando las Alucinaciones del LLM
En general, Fuyu-8B exhibe algunas características que lo hacen único entre la nueva generación de modelos multimodales:
1. Más pequeño y simple que la arquitectura estándar.
2. Diseñado para el paradigma de agente.
3. Rápido.
4. Capaz de igualar a modelos más grandes en pruebas de referencia estándar y superarlos en tareas específicas de agente.
La arquitectura
Cuando se trata de la última generación de modelos fundamentales, los modelos multimodales comparten una estructura común. Por lo general, cuentan con un codificador de imágenes distinto, cuya salida se integra en un modelo de lenguaje grande (LLM) existente a través de mecanismos de atención cruzada o adaptadores. Los ejemplos son abundantes. Modelos como PALM-e, PALI-X, QWEN-VL, LLaVA 1.5 y Flamingo se adhieren a este paradigma. Estos modelos suelen operar con resoluciones de imagen fijas. Durante la inferencia, las imágenes que superan esta resolución deben reducirse de tamaño, mientras que aquellas con relaciones de aspecto diferentes requieren relleno o distorsión.
En cuanto a la formación, muchos otros modelos multimodales siguen un proceso de formación multietapa. El codificador de imágenes se entrena por separado del LLM, a menudo utilizando objetivos de formación contractivos, que pueden ser intrincados de implementar y gestionar. Se deben tomar decisiones sobre cuándo congelar los pesos de varios componentes. Incluso algunos modelos incluyen una fase adicional de imágenes de alta resolución para garantizar un manejo competente de imágenes de alta resolución.
La escalabilidad de estos modelos presenta un desafío al determinar cómo escalar proporcionalmente cada uno de estos componentes. Surgen preguntas sobre cómo asignar parámetros adicionales al codificador versus el decodificador y dónde asignar recursos computacionales durante la formación. Sin embargo, Adept presenta un modelo que evita estas complejidades.
Arquitecturalmente, Fuyu es un transformador directo y sencillo con las mismas especificaciones que Persimmon-8B, sin un codificador de imágenes dedicado. Los parches de imágenes se proyectan directamente en la primera capa del transformador, omitiendo la búsqueda de incrustaciones. Este enfoque trata al decodificador del transformador tradicional como un transformador de imágenes, aunque sin agrupación y con atención causal. Para obtener más detalles, consulta el diagrama adjunto.
![Crédito de la Imagen: Adept](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/0*OGYLGPwPvUmoCyK4.png)
Esta simplificación ofrece la flexibilidad para manejar imágenes de diferentes resoluciones sin esfuerzo. Para lograr esto, los tokens de imagen se tratan de manera similar a sus contrapartes textuales. Se eliminan los embeddings de posición específicos de la imagen y los tokens de imagen se alimentan al modelo en orden de rastreo de raster, con un carácter especial de nueva línea de imagen que indica saltos de línea. El modelo puede aprovechar sus embeddings de posición existentes para adaptarse a diferentes tamaños de imagen. Durante el entrenamiento, se pueden utilizar imágenes de cualquier tamaño, eliminando la necesidad de etapas separadas de entrenamiento de alta y baja resolución.
Las Capacidades
Además de las características estándar esperadas en los modelos fundamentales multimodales, Fuyu-8B muestra un interesante conjunto de capacidades únicas:
Preguntas y Respuestas en Imágenes
Fuyu tiene la capacidad de abordar preguntas intrincadas dentro de las imágenes, como se muestra a continuación:
![Crédito de la Imagen: Adept](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*blUNN2UVK_oBGNy02uWYBQ.png)
Comprensión de Gráficos
Cuando se enfrenta a datos visuales complejos, como el gráfico representado a continuación, Fuyu sobresale en discernir relaciones intrincadas, trazar conexiones entre varios elementos y contar para proporcionar respuestas perspicaces:
![Crédito de la Imagen: Adept](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*Hk7u0hpOOQ5FcrT2qBvfgQ.png)
Dominio de Documentos
La competencia de Fuyu se extiende a descifrar una amplia gama de documentos, ya sea que involucren infografías intrincadas o PDFs envejecidos:
![Crédito de la Imagen: Adept](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*mEgwz_1sa6dNu3Rt0U8OWw.png)
Interpretación de Diagramas
La experiencia del modelo también se extiende a descifrar diagramas científicos complejos, abordando consultas relacionales intrincadas con maestría:
![Crédito de la Imagen: Adept](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*VDYVJg6IjijP2QUl7t6weQ.png)
Competencia en OCR
Además de estas habilidades, Adept ha perfeccionado sus modelos internos para sobresalir en dos tareas esenciales cuando se presenta una imagen de una interfaz de usuario (UI):
· bbox_to_text : Dada una caja delimitadora, Adept puede identificar precisamente el texto contenido dentro de esa caja delimitadora.
· text_to_bbox : A la inversa, cuando se proporciona texto, Adept puede hábilmente devolver la caja delimitadora que engloba el texto especificado.
![Crédito de la Imagen: Adept](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*3ogZt6Igqa3KGp5djFv2RQ.png)
Fuyu-8B es definitivamente uno de los lanzamientos más interesantes recientes en modelos fundamentales de código abierto. La simplicidad de su arquitectura y el conjunto único de capacidades lo convierten en uno de los modelos a tener en cuenta en el espacio.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- PyTorchEdge presenta ExecuTorch Potenciando la inferencia en dispositivos móviles y de borde
- Google Street View al rescate el aprendizaje profundo abre el camino a edificios más seguros
- La Carrera por Salvar Secretos de las Futuras Computadoras
- Un experto de la industria impulsa una alternativa abierta a la inteligencia artificial de las grandes empresas tecnológicas.
- Gorra de Ondas Cerebrales Salva Vidas al Identificar Derrames Cerebrales
- Cómo la realidad virtual está revolucionando la educación en 2024
- El poder del Análisis de Componentes Independientes (ICA) en aplicaciones del mundo real – ejemplo de EEG