¿Cómo mantener actualizados los modelos de fundación con los últimos datos? Investigadores de Apple y CMU presentan el primer benchmark web-scale Time-Continual (TiC) con 12.7 mil millones de pares de imágenes y texto con marcas de tiempo para el

¿Cómo mantener actualizados los modelos de fundación con los últimos datos? Apple y CMU presentan el primer benchmark web-scale Time-Continual (TiC) con 12.7 mil millones de pares de imágenes y texto con marcas de tiempo

Un cambio de paradigma en el aprendizaje multimodal se ha producido gracias a las contribuciones de grandes modelos de base multimodal como CLIP, Flamingo y Stable Diffusion, que permiten mejoras anteriormente inimaginables en la generación de imágenes y en la generalización de cero disparos. Estos modelos de referencia generalmente se entrenan en conjuntos de datos estáticos a gran escala. Si los modelos heredados, como los modelos CLIP de OpenAI, que se entrenaron con datos a escala de internet hasta 2020, funcionarán en datos futuros, se desconoce.

Para comenzar, los investigadores de Apple y la Universidad Carnegie Mellon examinan cómo los modelos CLIP de OpenAI se comparan con los del repositorio OpenCLIP, que se desarrollaron utilizando conjuntos de datos web seleccionados más actualizados que incluyen datos hasta 2022 en términos de su robustez. Debido a la falta de un estándar con el que se puedan medir los modelos CLIP, han compilado un conjunto de tareas de clasificación y recuperación dinámicas que abarcan desde 2014 hasta 2022. Si bien los modelos de OpenCLIP mantienen su rendimiento, el equipo descubrió que los modelos de OpenAI muestran una disparidad sustancial en el rendimiento de recuperación en datos de 2021-2022 en comparación con 2014-2016. Si bien los modelos CLIP de OpenAI son marginalmente más robustos que los modelos de OpenCLIP, esto no se refleja completamente en pruebas típicas como la precisión en cambios de distribución de ImageNet.

Su trabajo revela que el uso de puntos de referencia estáticos (como ImageNet) tiene sus limitaciones y que los modelos deben adaptarse y evolucionar junto con las distribuciones cambiantes de datos. Un método simplista pero frecuente para adaptarse a los datos cambiantes es comenzar de nuevo cada vez que se obtiene un nuevo conjunto de datos de imagen-texto y entrenar un nuevo modelo CLIP. La razón detrás de este método es que es más difícil adaptar el comportamiento de un modelo a una nueva entrada cuando se inicia el entrenamiento desde un modelo ya existente. Sin embargo, no es práctico invertir repetidamente el tiempo y la energía necesarios para entrenar nuevos modelos de base desde cero.

Los esfuerzos recientes centrados en las técnicas de aprendizaje perpetuo para modelos CLIP han apuntado principalmente a mejorar la eficiencia en una sola tarea posterior o en un pequeño número de tareas. Aunque algunas investigaciones recientes han comenzado a abordar estos problemas, los puntos de referencia actuales son demasiado modestos en alcance o carecen de datos vinculados de imagen-texto para ser realmente útiles.

Como primer paso hacia el entrenamiento de CLIP en Continuo de Tiempo (TIC), los investigadores observan el cambio natural en la distribución de datos con el tiempo. Al incluir datos de “tiempo de rastreo” en el ya existente conjunto de datos CommonPool, establecen TIC-DataComp como un nuevo punto de referencia para el entrenamiento continual de modelos CLIP. Los investigadores también reciclan conjuntos de datos a gran escala de internet, recopilados de lugares como Reddit y Flickr, para nuevos propósitos. En particular, utilizan la información de tiempo proporcionada por YFCC y Redcaps para curar TIC-YFCC y TICRedCaps, respectivamente. Con cada nuevo conjunto de datos disponible, este trabajo tiene como objetivo desarrollar técnicas de aprendizaje continuo que puedan funcionar dentro de un presupuesto computacional limitado. Estas estrategias van en contra de Oracle, que reinicia sus parámetros de entrenamiento cada vez que se recibe un nuevo conjunto de datos y gasta su presupuesto computacional acumulativo en un modelo completamente nuevo.

Los investigadores realizan una evaluación de cero disparos de los modelos entrenados en el marco TIC-CLIP utilizando una serie de 28 tareas de clasificación y recuperación bien establecidas, como ImageNet, cambios de distribución de ImageNet y Flickr. Finalmente, utilizando sus puntos de referencia, diseñan y prueban una variedad de enfoques de aprendizaje continuo, incluidos búferes de repetición, horarios de tasa de aprendizaje y otros tipos de puntos de control (como inicio en caliente, parches y destilación).

El equipo extrae una lección importante de que al comenzar el entrenamiento en el punto de control más reciente y repetir todos los datos históricos, la técnica acumulativa ofrece un rendimiento comparable a un Oracle con una eficiencia computacional 2.7 veces mayor. También obtienen ideas significativas sobre los horarios de tasa de aprendizaje para el entrenamiento secuencial y muestran intercambios interesantes entre los tamaños de los búferes para el rendimiento estático y dinámico. Sus hallazgos son consistentes en todas las dimensiones y técnicas, destacando tendencias en conjuntos de datos que van desde 11 millones de muestras hasta 3 mil millones. El código y los datos de tiempo recopilados sobre los conjuntos de datos existentes pronto se harán públicos para que la comunidad en general pueda utilizar los puntos de referencia propuestos. El equipo espera que al arrojar luz sobre este tema poco explorado, su trabajo pueda allanar el camino para el entrenamiento continuo de modelos de base.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencias de la Computación

Esperanza, Miedo y AI

Encuestamos a 2,000 personas sobre cómo utilizan la IA, qué quieren que haga y qué les asusta más de ella.

Inteligencia Artificial

Una revisión exhaustiva de los modelos de difusión de video en el Contenido Generado por Inteligencia Artificial (CGIA)

La Inteligencia Artificial está en auge, al igual que su subcampo, es decir, el dominio de la Visión por Computadora....

Inteligencia Artificial

Anunciando nuevas herramientas para ayudar a cada negocio a aprovechar la IA generativa

Desde startups hasta empresas, organizaciones de todos los tamaños están comenzando a utilizar la IA generativa. Quie...

Ciencia de Datos

Cómo acceder a futuras versiones de Python como la 3.12 antes que las masas.

Un tutorial sobre la instalación y prueba de futuras versiones de Python, como la 3.12, antes que la mayoría, para ex...

Inteligencia Artificial

El diagnóstico y tratamiento del cáncer podrían recibir un impulso de la IA

Se diseñó un nuevo algoritmo de aprendizaje automático para ayudar a los médicos a diagnosticar tipos específicos de ...

Inteligencia Artificial

Este artículo de IA presenta RMT una fusión de RetNet y Transformer, abriendo una nueva era en eficiencia y precisión de la visión por computadora.

Después de su debut en NLP, el Transformer se transfirió al ámbito de la visión por computadora, donde demostró ser p...