Medición de la percepción en modelos de IA

Percepción en IA

Nuevo referente para evaluar sistemas multimodales basados en datos reales de video, audio y texto

Desde la prueba de Turing hasta ImageNet, los referentes han desempeñado un papel fundamental en la formación de la inteligencia artificial (IA) al ayudar a definir los objetivos de investigación y permitir a los investigadores medir el progreso hacia esos objetivos. Avances increíbles en los últimos 10 años, como AlexNet en visión por computadora y AlphaFold en plegamiento de proteínas, han estado estrechamente relacionados con el uso de conjuntos de datos de referencia, lo que permite a los investigadores clasificar el diseño del modelo y las opciones de entrenamiento, e iterar para mejorar sus modelos. A medida que trabajamos hacia el objetivo de construir una inteligencia artificial general (AGI), desarrollar referentes sólidos y efectivos que amplíen las capacidades de los modelos de IA es tan importante como desarrollar los propios modelos.

La percepción, el proceso de experimentar el mundo a través de los sentidos, es una parte significativa de la inteligencia. Y construir agentes con una comprensión perceptual del mundo a nivel humano es una tarea central pero desafiante, que se está volviendo cada vez más importante en robótica, coches autónomos, asistentes personales, imágenes médicas y más. Por lo tanto, hoy presentamos la Prueba de Percepción, un referente multimodal que utiliza videos del mundo real para ayudar a evaluar las capacidades de percepción de un modelo.

Desarrollando un referente de percepción

Actualmente se están utilizando muchos referentes relacionados con la percepción en la investigación de IA, como Kinetics para el reconocimiento de acciones en video, Audioset para la clasificación de eventos de audio, MOT para el seguimiento de objetos o VQA para responder preguntas sobre imágenes. Estos referentes han llevado a un progreso asombroso en la forma en que se construyen y desarrollan las arquitecturas y los métodos de entrenamiento de modelos de IA, pero cada uno se centra solo en aspectos restringidos de la percepción: los referentes de imágenes excluyen los aspectos temporales; la pregunta-respuesta visual tiende a centrarse en la comprensión semántica de alto nivel de una escena; las tareas de seguimiento de objetos generalmente capturan aspectos de baja escala de los objetos individuales, como el color o la textura. Y muy pocos referentes definen tareas en ambas modalidades, audio y visual.

Los modelos multimodales, como Perceiver, Flamingo o BEiT-3, tienen como objetivo ser modelos más generales de percepción. Pero sus evaluaciones se basaron en conjuntos de datos especializados porque no existía un referente dedicado. Este proceso es lento, costoso y proporciona una cobertura incompleta de habilidades generales de percepción como la memoria, lo que dificulta la comparación de métodos para los investigadores.

Para abordar muchos de estos problemas, creamos un conjunto de datos de videos diseñados intencionalmente de actividades del mundo real, etiquetados según seis tipos diferentes de tareas:

Seguimiento de objetos: se proporciona un cuadro alrededor de un objeto al principio del video, el modelo debe devolver un seguimiento completo durante todo el video (incluyendo a través de occlusiones).
Seguimiento de puntos: se selecciona un punto al principio del video, el modelo debe seguir el punto a lo largo del video (también a través de occlusiones).
Localización temporal de acciones: el modelo debe localizar temporalmente y clasificar un conjunto predefinido de acciones.
Localización temporal de sonidos: el modelo debe localizar temporalmente y clasificar un conjunto predefinido de sonidos.
Pregunta-respuesta de video de opción múltiple: preguntas textuales sobre el video, cada una con tres opciones para seleccionar la respuesta.
Pregunta-respuesta de video fundamentada: preguntas textuales sobre el video, el modelo debe devolver una o más pistas de objetos.

Nos inspiramos en la forma en que se evalúa la percepción de los niños en psicología del desarrollo, así como en conjuntos de datos sintéticos como CATER y CLEVRER, y diseñamos 37 guiones de video, cada uno con diferentes variaciones para asegurar un conjunto de datos equilibrado. Cada variación fue filmada por al menos una docena de participantes de la multitud (similar a trabajos anteriores en Charades y Something-Something), con un total de más de 100 participantes, lo que resultó en 11,609 videos con una duración promedio de 23 segundos.

Los videos muestran juegos simples o actividades cotidianas, lo que nos permitiría definir tareas que requieren las siguientes habilidades para resolver:

Conocimiento de la semántica: prueba aspectos como la finalización de tareas, el reconocimiento de objetos, acciones o sonidos.
Comprensión de la física: colisiones, movimiento, occlusiones, relaciones espaciales.
Razonamiento temporal o memoria: orden temporal de eventos, contar a lo largo del tiempo, detectar cambios en una escena.
Habilidades de abstracción: coincidencia de formas, nociones de igual/diferente, detección de patrones.

Los participantes de la multitud etiquetaron los videos con anotaciones espaciales y temporales (pistas de cuadros delimitadores de objetos, pistas de puntos, segmentos de acciones, segmentos de sonido). Nuestro equipo de investigación diseñó las preguntas por tipo de guión para las tareas de pregunta-respuesta de video de opción múltiple y fundamentada para garantizar una buena diversidad de habilidades probadas, por ejemplo, preguntas que indagan sobre la capacidad de razonar de manera contrafactual o de proporcionar explicaciones para una situación dada. Las respuestas correspondientes para cada video fueron proporcionadas nuevamente por los participantes de la multitud.

Evaluación de sistemas multimodales con la Prueba de Percepción

Suponemos que los modelos han sido pre-entrenados en conjuntos de datos y tareas externas. La Prueba de Percepción incluye un pequeño conjunto de ajuste fino (20%) que los creadores del modelo pueden usar opcionalmente para transmitir la naturaleza de las tareas a los modelos. Los datos restantes (80%) consisten en una división pública de validación y una división de prueba retenida donde el rendimiento solo puede evaluarse a través de nuestro servidor de evaluación.

Aquí mostramos un diagrama de la configuración de evaluación: las entradas son una secuencia de video y audio, además de una especificación de tarea. La tarea puede estar en forma de texto de alto nivel para responder preguntas visuales o en forma de entrada de bajo nivel, como las coordenadas de la caja delimitadora de un objeto para la tarea de seguimiento de objetos.

Las entradas (video, audio, especificación de tarea como texto u otra forma) y salidas de un modelo evaluado en nuestro banco de pruebas.

Los resultados de evaluación se detallan en varias dimensiones, y medimos habilidades en las seis tareas computacionales. Para las tareas de respuesta a preguntas visuales, también proporcionamos un mapeo de preguntas en diferentes tipos de situaciones mostradas en los videos y en los tipos de razonamiento requeridos para responder las preguntas para un análisis más detallado (consulte nuestro artículo para obtener más detalles). Un modelo ideal maximizaría las puntuaciones en todos los gráficos de radar y todas las dimensiones. Esta es una evaluación detallada de las habilidades de un modelo, lo que nos permite reducir áreas de mejora.

Informe de diagnóstico multidimensional para un modelo de percepción por tarea computacional, área y tipo de razonamiento. También es posible realizar diagnósticos adicionales en subáreas como: movimiento, colisiones, conteo, finalización de acciones y más.

Asegurar la diversidad de participantes y escenas mostradas en los videos fue una consideración crítica al desarrollar el banco de pruebas. Para lograr esto, seleccionamos participantes de diferentes países, etnias y géneros, y nos esforzamos por tener una representación diversa dentro de cada tipo de guion de video.

Geolocalización de los participantes contratados de forma colaborativa para filmar.

Obtener más información sobre la Prueba de Percepción

El banco de pruebas Perception Test está disponible públicamente aquí y hay más detalles disponibles en nuestro artículo . Pronto estará disponible una tabla de clasificación y un servidor de desafío.

El 23 de octubre de 2022, organizaremos un taller sobre modelos de percepción general en la Conferencia Europea sobre Visión por Computadora en Tel Aviv ( ECCV 2022 ), donde discutiremos nuestro enfoque y cómo diseñar y evaluar modelos de percepción general junto con otros expertos líderes en el campo.

Esperamos que la Prueba de Percepción inspire y guíe investigaciones adicionales hacia modelos de percepción general. En el futuro, esperamos colaborar con la comunidad de investigación multimodal para introducir anotaciones adicionales, tareas, métricas o incluso nuevos idiomas en el banco de pruebas.

‍

¡Ponte en contacto enviando un correo electrónico a [email protected] si estás interesado en contribuir!

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Research

Was this article helpful?

93 out of 132 found this helpful

Medición de la percepción en modelos de IA

Nuevo referente para evaluar sistemas multimodales basados en datos reales de video, audio y texto

Desarrollando un referente de percepción

Evaluación de sistemas multimodales con la Prueba de Percepción

Obtener más información sobre la Prueba de Percepción

Was this article helpful?

Transformación digital con Google Cloud

Descubriendo algoritmos novedosos con AlphaTensor

Inteligencia Artificial

40+ Herramientas de IA para la Creación y Edición de Videos en 2023

Investigadores de Microsoft proponen TaskWeaver un marco de trabajo de aprendizaje automático basado en el código para construir agentes autónomos impulsados por LLM.

Los hackers exploran formas de abusar de la IA en una importante prueba de seguridad

Girando hacia el futuro La nueva guía de ondas está cambiando la forma en que se transfiere y se manipula los datos.

Investigadores de la Universidad Vanderbilt y UC Davis presentan PRANC Un marco de aprendizaje profundo que es eficiente en memoria tanto durante la fase de aprendizaje como de reconstrucción.

La ESRB quiere comenzar a utilizar la tecnología de escaneo facial para verificar la edad de las personas