Stability AI lanza el primer modelo japonés de visión y lenguaje
Stability AI lanza modelo japonés de visión y lenguaje
La creación y formulación de un modelo único y completo capaz de manejar una variedad de tareas definidas por el usuario ha sido durante mucho tiempo un campo de interés en la investigación de la inteligencia artificial (IA). Esto ha sido particularmente en el Procesamiento del Lenguaje Natural (PLN) a través de la “afinación de instrucciones”. Este método permite que el modelo lleve a cabo competentemente instrucciones arbitrarias mejorando un modelo de lenguaje grande (MLG) a través de la exposición a una amplia gama de actividades, cada una articulada a través de instrucciones en lenguaje natural.
Un ejemplo de esto es el uso del Modelo de Visión-Lenguaje. Un “Modelo de Visión-Lenguaje” (MVL) es un tipo de inteligencia artificial que es competente en la comprensión de texto e imágenes como entradas. Pueden llevar a cabo varias tareas que involucran la interacción de datos visuales y textuales. Se utilizan para la descripción de imágenes, respuesta a preguntas visuales, creación de descripciones textuales de escenas visuales o traducción entre idiomas y representaciones visuales.
Recientemente, los investigadores de Stability AI anunciaron el lanzamiento de su primer modelo japonés de visión-lenguaje, Japanese InstructBLIP Alpha. Ha habido muchos modelos de visión-lenguaje, pero este es el primero en producir descripciones de texto en japonés. Este nuevo algoritmo tiene la intención de producir descripciones de texto en japonés para fotos entrantes y respuestas textuales a consultas relacionadas con imágenes.
- Conoce a PyGraft una herramienta de IA basada en Python de código abierto que genera esquemas y grafos de conocimiento altamente personalizados y agnósticos al dominio.
- ¿Pueden los modelos de lenguaje grandes realmente hacer matemáticas? Esta investigación de inteligencia artificial AI presenta MathGLM un modelo robusto para resolver problemas matemáticos sin una calculadora.
- ¿Pueden los robots cuadrúpedos de bajo costo dominar el parkour? Revelando un revolucionario sistema de aprendizaje para el movimiento ágil de robots
Los investigadores enfatizaron que el modelo puede reconocer lugares de interés japoneses específicos. Esta capacidad ofrece una capa de conciencia localizada esencial para usos que van desde la robótica hasta el turismo. Además, el modelo puede manejar texto e imágenes, lo que permite consultas más complicadas basadas en entradas visuales.
Los investigadores realizaron una investigación exhaustiva para desarrollar este modelo y utilizaron diversos datos de instrucción para entrenarlo. Para conectar los dos, entrenaron el modelo con un codificador de imágenes, un MLG y un Transformador de Consultas (Q-Former). Además, ajustaron finamente el Q-Former para la afinación de instrucciones mientras dejaban el codificador de imágenes y el MLG congelados.
Además, los investigadores recopilaron 26 conjuntos de datos disponibles públicamente, que abarcan una amplia gama de funciones y tareas, y los convirtieron en un formato de afinación de instrucciones. El modelo se entrenó en 13 conjuntos de datos y mostró un rendimiento sin precedentes en cero pruebas en los 13 conjuntos de datos retenidos. Los investigadores enfatizaron además que el modelo mostró un rendimiento de vanguardia cuando se ajustó finamente a tareas individuales posteriores. También diseñaron un Transformador de Consultas que es consciente de las instrucciones y extrae elementos informativos específicos de la instrucción particular.
Plantearon la idea de “extracción de características visuales conscientes de las instrucciones”, que introduce un método que permite extraer características flexibles e informativas de acuerdo con las instrucciones dadas. Para que el Q-Former recupere características visuales conscientes de las instrucciones del codificador de imágenes congelado, la instrucción textual se envía específicamente tanto al MLG congelado como al Q-Former. También realizaron una técnica de muestreo equilibrado para sincronizar el progreso del aprendizaje en los conjuntos de datos.
Los investigadores advierten a los usuarios que deben tener en cuenta posibles sesgos y limitaciones en este punto, a pesar de la utilidad y efectividad del modelo. Agregaron una advertencia de que, al igual que cualquier otro sistema de IA, las respuestas deben ser evaluadas en cuanto a precisión y adecuación utilizando el juicio humano. El rendimiento del modelo en tareas de visión-lenguaje en japonés debe mejorarse mediante una investigación y desarrollo continuos.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ¿Ha terminado la espera por Jurassic Park? Este modelo de IA utiliza la traducción de imagen a imagen para dar vida a los antiguos fósiles
- El algoritmo de Reingold Tilford explicado, con explicación paso a paso
- Resuelve el Misterio del Gráfico Dentado de COVID
- ¿Cómo influye el Índice Socioeducativo en los resultados de los estudiantes que abandonan la escuela? – Un análisis bayesiano con R y brms
- Mejorando la Sumarización de GPT-4 a través de una Cadena de Indicaciones de Densidad
- Un impulso cuántico cuQuantum con PennyLane permite que las simulaciones se ejecuten en supercomputadoras
- Movilidad se potencia el piso de la feria IAA se energiza con el aumento de revelaciones de vehículos eléctricos y la inteligencia artificial generativa