Subtítulos visuales Usando modelos de lenguaje grandes para mejorar las videoconferencias con visuales dinámicos.

Visual subtitles Using large language models to enhance videoconferencing with dynamic visuals.

Publicado por Ruofei Du, Científico de Investigación, y Alex Olwal, Científico de Investigación Senior, de Google Augmented Reality

Los avances recientes en videoconferencia han mejorado significativamente la comunicación remota a través de características como subtitulado en vivo y cancelación de ruido. Sin embargo, existen diversas situaciones en las que la incorporación visual dinámica sería útil para transmitir información compleja y matizada. Por ejemplo, al discutir qué pedir en un restaurante japonés, tus amigos podrían compartir imágenes que te ayuden a sentirte más seguro al pedir el “Sukiyaki”. O al hablar de tu reciente viaje familiar a San Francisco, es posible que desees mostrar una foto de tu álbum personal.

En “Visual Captions: Augmenting Verbal Communication With On-the-fly Visuals”, presentado en ACM CHI 2023, presentamos un sistema que utiliza señales verbales para mejorar la comunicación de video sincrónica con visuales en tiempo real. Ajustamos un modelo de lenguaje grande para sugerir proactivamente visuales relevantes en conversaciones de vocabulario abierto utilizando un conjunto de datos que hemos creado para este propósito. Hemos hecho público Visual Captions como parte del proyecto ARChat, que está diseñado para la creación rápida de prototipos de comunicación aumentada con transcripción en tiempo real.

Visual Captions facilita la comunicación verbal con visuales en tiempo real. El sistema es incluso resistente a los errores típicos que pueden aparecer a menudo en la transcripción de voz a texto en tiempo real. Por ejemplo, fuera de contexto, el modelo de transcripción entendió mal la palabra “pier” como “pair”, pero Visual Captions sigue recomendando imágenes del muelle de Santa Mónica.

Espacio de diseño para la ampliación de la comunicación verbal con visuales dinámicos

Invitamos a 10 participantes internos, cada uno con diversos antecedentes técnicos y no técnicos, incluidos ingenieros de software, investigadores, diseñadores UX, artistas visuales, estudiantes, etc., a discutir sus necesidades y deseos particulares para un posible servicio de ampliación visual en tiempo real. En dos sesiones, presentamos prototipos de baja fidelidad del sistema imaginado, seguidos de demostraciones en video de los sistemas existentes de texto a imagen. Estas discusiones dieron lugar a un espacio de diseño con ocho dimensiones para la ampliación visual de conversaciones en tiempo real, etiquetado a continuación como D1 a D8.

Evaluando la síntesis del habla en varios idiomas con SQuId

Las ampliaciones visuales podrían ser sincrónicas o asincrónicas con la conversación (D1: Temporal), podrían usarse tanto para expresar como para comprender el contenido del discurso (D2: Sujeto), y podrían aplicarse utilizando una amplia gama de diferentes contenidos visuales, tipos visuales y fuentes visuales (D3: Visual). Tal ampliación visual podría variar según la escala de las reuniones (D4: Escala) y si una reunión está en entornos co-ubicados o remotos (D5: Espacio). Estos factores también influyen en si los visuales deben mostrarse de manera privada, compartida entre los participantes o pública para todos (D6: Privacidad). Los participantes también identificaron diferentes formas en que les gustaría interactuar con el sistema mientras tienen conversaciones (D7: Iniciación). Por ejemplo, las personas propusieron diferentes niveles de “proactividad”, lo que indica el grado en que los usuarios desean que el modelo tome la iniciativa. Finalmente, los participantes imaginaron diferentes métodos de interacción, por ejemplo, utilizando el habla o los gestos como entrada (D8: Interacción).

Espacio de diseño para la ampliación de la comunicación verbal con visuales dinámicos.

Informado por esta retroalimentación inicial, diseñamos Visual Captions para centrarnos en generar visuales sincrónicas de contenido visual semánticamente relevante, tipo y fuente. Mientras que los participantes en estas sesiones exploratorias iniciales estaban participando en conversaciones remotas uno a uno, la implementación de Visual Captions en la vida real a menudo se producirá en escenarios uno a muchos (por ejemplo, una persona dando una presentación a una audiencia) y muchos a muchos (por ejemplo, una discusión entre varias personas en una reunión).

Debido a que el visual que mejor complementa una conversación depende fuertemente del contexto de la discusión, necesitábamos un conjunto de entrenamiento específico para este propósito. Así que, recopilamos un conjunto de datos de 1595 cuádruples de lenguaje (1), contenido visual (2), tipo (3) y fuente (4) en una variedad de contextos, incluyendo conversaciones diarias, conferencias y guías de viaje. Por ejemplo, “¡Me encantaría verlo!” corresponde a un contenido visual de “cara sonriente”, un tipo visual de “emoji” y una fuente visual de “búsqueda pública”. “¿Te contó sobre nuestro viaje a México?” corresponde a un contenido visual de “una foto del viaje a México”, un tipo visual de “foto” y una fuente visual de “álbum personal”. Hemos publicado este conjunto de datos VC1.5K de forma pública para la comunidad de investigación.

Modelo de predicción de intención visual

Para predecir qué visuales podrían complementar una conversación, entrenamos un modelo de predicción de intención visual basado en un gran modelo de lenguaje usando el conjunto de datos VC1.5K. Para el entrenamiento, analizamos cada intención visual en el formato de “<Tipo visual> de <Contenido visual> de <Fuente visual>“.

{"prompt": "<Dos oraciones anteriores> →", 
  "completion": 
"<Tipo visual 1> de "<Contenido visual 1> de "<Fuente visual 1>;
 <Tipo visual 2> de "<Contenido visual 2> de "<Fuente visual 2>; 
  ... \𝑛"}

Usando este formato, este sistema puede manejar conversaciones de vocabulario abierto y predecir contextualmente el contenido visual, la fuente visual y el tipo visual. Anecdóticamente, descubrimos que supera a los enfoques basados en palabras clave, que no pueden manejar ejemplos de vocabulario abierto como “Tu tía Amy visitará este sábado” y no pueden sugerir tipos visuales o fuentes visuales relevantes.

Ejemplos de predicciones de intención visual por nuestro modelo.

Utilizamos 1276 (80%) ejemplos del conjunto de datos VC1.5K para el ajuste fino del gran modelo de lenguaje y los 319 (20%) ejemplos restantes como datos de prueba. Medimos el rendimiento del modelo ajustado fino con la métrica de precisión de token, es decir, el porcentaje de tokens en un lote que fueron correctamente predichos por el modelo. Durante el entrenamiento, nuestro modelo alcanzó una precisión de token de entrenamiento del 97% y una precisión de token de validación del 87%.

Rendimiento

Para evaluar la utilidad del modelo entrenado de Visual Captions, invitamos a 89 participantes a realizar 846 tareas. Se les pidió que proporcionaran retroalimentación en una escala de “1—Totalmente en desacuerdo” a “7—Totalmente de acuerdo” para seis declaraciones cualitativas. La mayoría de los participantes prefirieron tener el visual durante una conversación (Q1, 83% ≥ 5—Algo de acuerdo). Además, consideraron que los visuales mostrados eran útiles e informativos (Q2, 82% ≥ 5—Algo de acuerdo), de alta calidad (Q3, 82% ≥ 5—Algo de acuerdo) y relevantes para el discurso original (Q4, 84% ≥ 5—Algo de acuerdo). Los participantes también encontraron que el tipo visual predicho (Q5, 87% ≥ 5—Algo de acuerdo) y la fuente visual (Q6, 86% ≥ 5—Algo de acuerdo) eran precisos dados el contexto de la conversación correspondiente.

Resultados de la evaluación técnica del modelo de predicción visual evaluados por los participantes del estudio.

Con este modelo de predicción de intención visual ajustado, desarrollamos Visual Captions en la plataforma ARChat, que puede agregar nuevos widgets interactivos directamente en los flujos de cámara de plataformas de videoconferencia, como Google Meet . Como se muestra en el flujo de trabajo del sistema a continuación, Visual Captions captura automáticamente el habla del usuario, recupera las últimas frases, las alimenta en el modelo de predicción de intención visual cada 100 ms, recupera visuales relevantes y luego sugiere visuales en tiempo real.

Flujo de trabajo del sistema de Visual Captions.

Visual Captions ofrece tres niveles de proactividad al sugerir visuales:

Visualización automática (alta proactividad): el sistema busca y muestra visualizaciones de forma autónoma públicamente a todos los participantes de la reunión. No se requiere interacción del usuario.
Auto-sugerencia (proactividad intermedia): las visuales sugeridas se muestran en una vista de desplazamiento privada. Luego, un usuario hace clic en una visual para mostrarla públicamente. En este modo, el sistema sugiere visualizaciones de manera proactiva, pero el usuario decide cuándo y qué mostrar.
Sugerencia a petición (baja proactividad): el sistema solo sugerirá visuales si un usuario presiona la barra espaciadora.

Evaluación cuantitativa y cualitativa: estudios de usuarios

Evaluamos Visual Captions tanto en un estudio de laboratorio controlado ( n = 26) como en estudios de implementación en la naturaleza ( n = 10). Los participantes encontraron que las visuales en tiempo real facilitaban las conversaciones en vivo al ayudar a explicar conceptos desconocidos, resolver ambigüedades del lenguaje y hacer que las conversaciones fueran más interesantes. Los participantes también informaron diferentes preferencias para interactuar con el sistema in situ y que se prefieren diferentes niveles de proactividad en diferentes escenarios sociales.

Índice de carga de tareas de los participantes y calificaciones de escala Likert (de 1 – Totalmente en desacuerdo a 7 – Totalmente de acuerdo) de cuatro conversaciones sin Visual Captions (“Sin VC”) y los tres modos de Visual Captions: visualización automática, auto-sugerencia y sugerencia a petición.

Conclusiones y direcciones futuras

Este trabajo propone un sistema para la ampliación visual en tiempo real de la comunicación verbal, llamado Visual Captions, que fue entrenado utilizando un conjunto de datos de 1595 intenciones visuales recopiladas de 246 participantes, cubriendo 15 categorías de temas. Liberamos públicamente el conjunto de datos de entrenamiento, VC1.5K, para la comunidad de investigación para apoyar futuras investigaciones en este espacio. También hemos implementado Visual Captions en ARChat , que facilita videoconferencias en Google Meet mediante la transcripción de reuniones y la ampliación de las transmisiones de video de la cámara.

Visual Captions representa un paso significativo hacia la mejora de la comunicación verbal con visuales improvisadas. Al comprender la importancia de las señales visuales en las conversaciones cotidianas, podemos crear herramientas de comunicación más efectivas y mejorar cómo se conectan las personas.

Agradecimientos

Este trabajo es una colaboración entre varios equipos de Google. Los principales contribuyentes al proyecto incluyen a Xingyu “Bruce” Liu, Vladimir Kirilyuk, Xiuxiu Yuan, Peggy Chi, Alex Olwal y Ruofei Du.

Nos gustaría extender nuestro agradecimiento a aquellos en el equipo de ARChat que brindaron asistencia, incluyendo a Jason Mayes, Max Spear, Na Li, Jun Zhang, Jing Jin, Yuan Ren, Adarsh Kowdle, Ping Yu, Darcy Philippon y Ezgi Oztelcan. También nos gustaría agradecer a las muchas personas con las que hemos tenido discusiones perspicaces y aquellas que proporcionaron comentarios sobre el manuscrito, incluyendo a Eric Turner, Yinda Zhang, Feitong Tan, Danhang Tang y Shahram Izadi. También nos gustaría agradecer a nuestros revisores de CHI por sus perspicaces comentarios.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Deep LearningHCINatural Language Understanding

Was this article helpful?

93 out of 132 found this helpful

Subtítulos visuales Usando modelos de lenguaje grandes para mejorar las videoconferencias con visuales dinámicos.

Espacio de diseño para la ampliación de la comunicación verbal con visuales dinámicos

Modelo de predicción de intención visual

Rendimiento

Evaluación cuantitativa y cualitativa: estudios de usuarios

Conclusiones y direcciones futuras

Agradecimientos

Was this article helpful?

Evaluando la síntesis del habla en varios idiomas con SQuId

Modelos de secuencia grandes para actividades de desarrollo de software.

Aprendizaje Automático

Conoce a SPHINX Un modelo de lenguaje grande multi-modal y versátil (MLLM) con una combinación de tareas de entrenamiento, dominios de datos y embebimientos visuales.

Métricas de Evaluación de Aprendizaje Automático Teoría y Resumen

El modelo de IA puede ayudar a determinar dónde se originó el cáncer de un paciente

Células complejas del pulpo son clave para su alta inteligencia

¿Invertir en IA? Aquí tienes qué considerar

Modelado de temas en producción