Introducción al modelo multimodal más potente de Google, Gemini, desde una perspectiva técnica

Introducción a Gemini, el modelo multimodal más potente de Google, desde una perspectiva técnica

El 6 de diciembre de 2023, Google lanzó su modelo multimodal más grande y poderoso, Gemini.

Gemini logra la comprensión y la inferencia de diferentes entradas a través del preentrenamiento multimodal. Es el primer modelo que supera a los expertos humanos en las pruebas multimodales y demuestra un rendimiento destacado en la comprensión y generación de código, entre otras cosas.

El informe técnico[1] de Google consta de 62 páginas, en su mayoría dedicadas a la evaluación del modelo, referencias y una lista de contribuyentes. No se discuten muchos detalles técnicos.

Este artículo ofrece una breve introducción a este excelente modelo multimodal basada en las partes valiosas del informe técnico.

Familia del modelo

Gemini incluye tres modelos de diferentes escalas, actualmente no disponibles como código abierto:

  • Ultra: El modelo más potente que proporciona un rendimiento de vanguardia en diversas tareas altamente complejas, incluyendo inferencia y tareas multimodales.
  • Pro: Un modelo optimizado en rendimiento con objetivos de costo y latencia, que ofrece mejoras significativas en el rendimiento en diversas tareas.
  • Nano: El modelo más eficiente diseñado para funcionar en dispositivos. Nano tiene dos versiones, Nano-1 con 1.8 mil millones de parámetros y Nano-2 con 3.25 mil millones de parámetros, dirigido a dispositivos con poca memoria y alta memoria, respectivamente. Nano se construye destilando modelos Gemini más grandes y luego cuantizándolos a 4 bits. ¿Por qué construir un modelo nano en lugar de utilizar directamente el modelo Ultra basado en la nube? Creo que probablemente se debe a proteger la privacidad del usuario, de modo que dispositivos como los teléfonos inteligentes no tengan que enviar datos del usuario a la nube. Además, traslada el costo de inferencia de la nube al dispositivo, ahorrando costos de comunicación.

Arquitectura del modelo

Los detalles de la arquitectura del modelo no se especifican en el informe técnico, solo se describen brevemente en aproximadamente media página. El resumen es el siguiente:

  • Basado en la estructura del decodificador Transformer[2].
  • Admite entrada de texto intercalada con diversas entradas de audio y visual, como se muestra en la Figura 1, como imágenes naturales, gráficos, capturas de pantalla, PDF y videos.
  • El modelo puede generar tanto imágenes como texto.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Aprendizaje Automático

Conoce TRACE Un Nuevo Enfoque de IA para la Estimación Precisa de la Postura y la Forma Humana en 3D con Seguimiento de Coordenadas Globales.

Muchas áreas pueden beneficiarse y utilizar los avances recientes en la estimación de la pose y forma humana 3D (HPS)...

Inteligencia Artificial

Cómo el Aprendizaje Automático se convertirá en un cambio de juego para la industria de datos de ubicación

La industria de los datos de ubicación está en rápido crecimiento pero aún en su infancia técnica. La mayoría de los ...

Inteligencia Artificial

Destacar el texto mientras se está hablando utilizando Amazon Polly

Amazon Polly es un servicio que convierte texto en habla realista. Permite el desarrollo de una amplia gama de aplica...

Inteligencia Artificial

El Gobierno de Canadá llega a un acuerdo con Google sobre la Ley de Noticias en línea.

El acuerdo se produce tres semanas antes de que entren en vigor las reglas de la Ley de Noticias en Línea.

Inteligencia Artificial

Innovaciones autónomas en un mundo incierto

Jonathan How y su equipo en el Laboratorio de Controles Aeroespaciales desarrollan algoritmos de planificación que pe...

Inteligencia Artificial

Visión del PM Modi sobre la regulación de la IA en India Cumbre B20 2023

A medida que el B20 Summit India 2023 llegaba a su fin en Delhi, las palabras del primer ministro Narendra Modi conti...