Stability AI lanza el primer modelo japonés de visión y lenguaje

Stability AI lanza modelo japonés de visión y lenguaje

La creación y formulación de un modelo único y completo capaz de manejar una variedad de tareas definidas por el usuario ha sido durante mucho tiempo un campo de interés en la investigación de la inteligencia artificial (IA). Esto ha sido particularmente en el Procesamiento del Lenguaje Natural (PLN) a través de la “afinación de instrucciones”. Este método permite que el modelo lleve a cabo competentemente instrucciones arbitrarias mejorando un modelo de lenguaje grande (MLG) a través de la exposición a una amplia gama de actividades, cada una articulada a través de instrucciones en lenguaje natural.

Un ejemplo de esto es el uso del Modelo de Visión-Lenguaje. Un “Modelo de Visión-Lenguaje” (MVL) es un tipo de inteligencia artificial que es competente en la comprensión de texto e imágenes como entradas. Pueden llevar a cabo varias tareas que involucran la interacción de datos visuales y textuales. Se utilizan para la descripción de imágenes, respuesta a preguntas visuales, creación de descripciones textuales de escenas visuales o traducción entre idiomas y representaciones visuales.

Recientemente, los investigadores de Stability AI anunciaron el lanzamiento de su primer modelo japonés de visión-lenguaje, Japanese InstructBLIP Alpha. Ha habido muchos modelos de visión-lenguaje, pero este es el primero en producir descripciones de texto en japonés. Este nuevo algoritmo tiene la intención de producir descripciones de texto en japonés para fotos entrantes y respuestas textuales a consultas relacionadas con imágenes.

Los investigadores enfatizaron que el modelo puede reconocer lugares de interés japoneses específicos. Esta capacidad ofrece una capa de conciencia localizada esencial para usos que van desde la robótica hasta el turismo. Además, el modelo puede manejar texto e imágenes, lo que permite consultas más complicadas basadas en entradas visuales.

Los investigadores realizaron una investigación exhaustiva para desarrollar este modelo y utilizaron diversos datos de instrucción para entrenarlo. Para conectar los dos, entrenaron el modelo con un codificador de imágenes, un MLG y un Transformador de Consultas (Q-Former). Además, ajustaron finamente el Q-Former para la afinación de instrucciones mientras dejaban el codificador de imágenes y el MLG congelados.

Además, los investigadores recopilaron 26 conjuntos de datos disponibles públicamente, que abarcan una amplia gama de funciones y tareas, y los convirtieron en un formato de afinación de instrucciones. El modelo se entrenó en 13 conjuntos de datos y mostró un rendimiento sin precedentes en cero pruebas en los 13 conjuntos de datos retenidos. Los investigadores enfatizaron además que el modelo mostró un rendimiento de vanguardia cuando se ajustó finamente a tareas individuales posteriores. También diseñaron un Transformador de Consultas que es consciente de las instrucciones y extrae elementos informativos específicos de la instrucción particular.

Plantearon la idea de “extracción de características visuales conscientes de las instrucciones”, que introduce un método que permite extraer características flexibles e informativas de acuerdo con las instrucciones dadas. Para que el Q-Former recupere características visuales conscientes de las instrucciones del codificador de imágenes congelado, la instrucción textual se envía específicamente tanto al MLG congelado como al Q-Former. También realizaron una técnica de muestreo equilibrado para sincronizar el progreso del aprendizaje en los conjuntos de datos.

Los investigadores advierten a los usuarios que deben tener en cuenta posibles sesgos y limitaciones en este punto, a pesar de la utilidad y efectividad del modelo. Agregaron una advertencia de que, al igual que cualquier otro sistema de IA, las respuestas deben ser evaluadas en cuanto a precisión y adecuación utilizando el juicio humano. El rendimiento del modelo en tareas de visión-lenguaje en japonés debe mejorarse mediante una investigación y desarrollo continuos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de Microsoft Research y Georgia Tech revelan los límites estadísticos de las alucinaciones en los modelos de lenguaje

Un problema clave que ha surgido recientemente en los Modelos de Lenguaje es la alta tasa a la que proporcionan infor...

Ciencias de la Computación

Cómo la I.A. está ayudando a los arquitectos a cambiar el diseño de los lugares de trabajo.

Con una mayor cantidad de trabajadores híbridos y nuevas necesidades de oficina, empresas como Zaha Hadid Architects ...

Inteligencia Artificial

Presentamos OpenLLM Biblioteca de código abierto para LLMs

Una plataforma fácil de usar para operar modelos de lenguaje grandes (LLMs) en producción, con características como a...

Inteligencia Artificial

Este boletín de inteligencia artificial es todo lo que necesitas #61

En los últimos meses hemos seguido viendo avances significativos en los modelos de lenguaje (LLM) y una introducción ...

Ciencia de Datos

Conoce AnythingLLM Una Aplicación Full-Stack Que Transforma Tu Contenido en Datos Enriquecidos para Mejorar las Interacciones con Modelos de Lenguaje Amplio (LLMs)

Desde el lanzamiento del revolucionario ChatGPT de OpenAI, el número de proyectos relacionados con la IA, especialmen...