Introducción al modelo multimodal más potente de Google, Gemini, desde una perspectiva técnica

Introducción a Gemini, el modelo multimodal más potente de Google, desde una perspectiva técnica

El 6 de diciembre de 2023, Google lanzó su modelo multimodal más grande y poderoso, Gemini.

Gemini logra la comprensión y la inferencia de diferentes entradas a través del preentrenamiento multimodal. Es el primer modelo que supera a los expertos humanos en las pruebas multimodales y demuestra un rendimiento destacado en la comprensión y generación de código, entre otras cosas.

El informe técnico[1] de Google consta de 62 páginas, en su mayoría dedicadas a la evaluación del modelo, referencias y una lista de contribuyentes. No se discuten muchos detalles técnicos.

Este artículo ofrece una breve introducción a este excelente modelo multimodal basada en las partes valiosas del informe técnico.

Familia del modelo

Gemini incluye tres modelos de diferentes escalas, actualmente no disponibles como código abierto:

Ultra: El modelo más potente que proporciona un rendimiento de vanguardia en diversas tareas altamente complejas, incluyendo inferencia y tareas multimodales.
Pro: Un modelo optimizado en rendimiento con objetivos de costo y latencia, que ofrece mejoras significativas en el rendimiento en diversas tareas.
Nano: El modelo más eficiente diseñado para funcionar en dispositivos. Nano tiene dos versiones, Nano-1 con 1.8 mil millones de parámetros y Nano-2 con 3.25 mil millones de parámetros, dirigido a dispositivos con poca memoria y alta memoria, respectivamente. Nano se construye destilando modelos Gemini más grandes y luego cuantizándolos a 4 bits. ¿Por qué construir un modelo nano en lugar de utilizar directamente el modelo Ultra basado en la nube? Creo que probablemente se debe a proteger la privacidad del usuario, de modo que dispositivos como los teléfonos inteligentes no tengan que enviar datos del usuario a la nube. Además, traslada el costo de inferencia de la nube al dispositivo, ahorrando costos de comunicación.

Arquitectura del modelo

Los detalles de la arquitectura del modelo no se especifican en el informe técnico, solo se describen brevemente en aproximadamente media página. El resumen es el siguiente:

Basado en la estructura del decodificador Transformer[2].
Admite entrada de texto intercalada con diversas entradas de audio y visual, como se muestra en la Figura 1, como imágenes naturales, gráficos, capturas de pantalla, PDF y videos.
El modelo puede generar tanto imágenes como texto.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Introducción al modelo multimodal más potente de Google, Gemini, desde una perspectiva técnica

El 6 de diciembre de 2023, Google lanzó su modelo multimodal más grande y poderoso, Gemini.

Familia del modelo

Arquitectura del modelo

Was this article helpful?

5 Herramientas para ayudar a construir tus aplicaciones de LLM

¡No cometas el mismo error que cometí en un proyecto de aprendizaje automático!

Inteligencia Artificial

Conoce TRACE Un Nuevo Enfoque de IA para la Estimación Precisa de la Postura y la Forma Humana en 3D con Seguimiento de Coordenadas Globales.

Cómo el Aprendizaje Automático se convertirá en un cambio de juego para la industria de datos de ubicación

Destacar el texto mientras se está hablando utilizando Amazon Polly

El Gobierno de Canadá llega a un acuerdo con Google sobre la Ley de Noticias en línea.

Innovaciones autónomas en un mundo incierto

Visión del PM Modi sobre la regulación de la IA en India Cumbre B20 2023