Introducción al modelo multimodal más potente de Google, Gemini, desde una perspectiva técnica
Introducción a Gemini, el modelo multimodal más potente de Google, desde una perspectiva técnica
El 6 de diciembre de 2023, Google lanzó su modelo multimodal más grande y poderoso, Gemini.
Gemini logra la comprensión y la inferencia de diferentes entradas a través del preentrenamiento multimodal. Es el primer modelo que supera a los expertos humanos en las pruebas multimodales y demuestra un rendimiento destacado en la comprensión y generación de código, entre otras cosas.
El informe técnico[1] de Google consta de 62 páginas, en su mayoría dedicadas a la evaluación del modelo, referencias y una lista de contribuyentes. No se discuten muchos detalles técnicos.
Este artículo ofrece una breve introducción a este excelente modelo multimodal basada en las partes valiosas del informe técnico.
Familia del modelo
Gemini incluye tres modelos de diferentes escalas, actualmente no disponibles como código abierto:
- 5 Herramientas para ayudar a construir tus aplicaciones de LLM
- Este artículo de IA presenta MVControl una arquitectura de red neuronal que revoluciona la generación de imágenes en múltiples vistas controlables y la creación de contenido en 3D.
- Estos modelos de aprendizaje profundo completamente automatizados se pueden utilizar para predecir el dolor utilizando la Escala de Rostro Felino (ERF) con integración de teléfonos inteligentes’.
- Ultra: El modelo más potente que proporciona un rendimiento de vanguardia en diversas tareas altamente complejas, incluyendo inferencia y tareas multimodales.
- Pro: Un modelo optimizado en rendimiento con objetivos de costo y latencia, que ofrece mejoras significativas en el rendimiento en diversas tareas.
- Nano: El modelo más eficiente diseñado para funcionar en dispositivos. Nano tiene dos versiones, Nano-1 con 1.8 mil millones de parámetros y Nano-2 con 3.25 mil millones de parámetros, dirigido a dispositivos con poca memoria y alta memoria, respectivamente. Nano se construye destilando modelos Gemini más grandes y luego cuantizándolos a 4 bits. ¿Por qué construir un modelo nano en lugar de utilizar directamente el modelo Ultra basado en la nube? Creo que probablemente se debe a proteger la privacidad del usuario, de modo que dispositivos como los teléfonos inteligentes no tengan que enviar datos del usuario a la nube. Además, traslada el costo de inferencia de la nube al dispositivo, ahorrando costos de comunicación.
Arquitectura del modelo
Los detalles de la arquitectura del modelo no se especifican en el informe técnico, solo se describen brevemente en aproximadamente media página. El resumen es el siguiente:
- Basado en la estructura del decodificador Transformer[2].
- Admite entrada de texto intercalada con diversas entradas de audio y visual, como se muestra en la Figura 1, como imágenes naturales, gráficos, capturas de pantalla, PDF y videos.
- El modelo puede generar tanto imágenes como texto.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Revelando los entresijos Un análisis a fondo del mecanismo de atención de BERT
- Los 10 mejores modelos de lenguaje grandes en Hugging Face
- Dominando la generación de datos sintéticos aplicaciones y mejores prácticas
- ¿Cómo las bases de datos vectoriales dan forma al futuro de las soluciones de IA generativa?
- Microsoft se une a sindicatos laborales estadounidenses para discutir sobre la fuerza laboral de IA
- Meta AI anuncia Purple Llama para ayudar a la comunidad a construir de manera ética con modelos de IA abiertos y generativos.
- Investigadores de Google DeepMind proponen Código de Cadena (CoC) una extensión simple pero sorprendentemente efectiva que mejora el razonamiento del Modelo de Lenguaje (LM) impulsado por código