Learn more about Multimodal Learning

Búsqueda autónoma de información visual con modelos de lenguaje grandes

Publicado por Ziniu Hu, Investigador Estudiantil, y Alireza Fathi, Científico Investigador, Equipo de Percepción de G...

Pregunta y respuesta visual modular a través de generación de código

Publicado por Sanjay Subramanian, estudiante de doctorado en UC Berkeley, y Arsha Nagrani, científico investigador de...

Pic2Word Mapeo de imágenes a palabras para la recuperación de imágenes compuestas sin entrenamiento previo.

Publicado por Kuniaki Saito, Investigador Estudiantil, Investigación de Google, Equipo de IA en la Nube, y Kihyuk Soh...

AVFormer Inyectando visión en modelos de habla congelados para la conversión automática de voz a texto sin entrenamiento previo (AV-ASR).

Publicado por Arsha Nagrani y Paul Hongsuck Seo, Científicos Investigadores de Google Research El reconocimiento auto...

Find your business way

Globalization of Business, We can all achieve our own Success.

Advertising with us

Web Analytics