Evaluando el próximo nivel de aprendices inagotables
'Evaluando el siguiente nivel de aprendices ilimitados'
Aprendiendo cómo construir sobre el conocimiento aprovechando 30 años de investigación en visión por computadora
En tan solo unos pocos años, los modelos de aprendizaje profundo a gran escala han logrado un éxito sin precedentes en una variedad de dominios, desde la predicción de estructuras de proteínas hasta el procesamiento del lenguaje natural y la visión [1, 2, 3]. Los ingenieros e investigadores de aprendizaje automático han logrado estos éxitos en su mayoría gracias a nuevos hardware potentes que han permitido que sus modelos se escalen y se entrenen con más datos.
La escalabilidad ha resultado en capacidades fantásticas, pero también significa que los modelos de aprendizaje profundo pueden ser intensivos en recursos. Por ejemplo, cuando se implementan modelos grandes, lo que han aprendido en una tarea rara vez se aprovecha para facilitar su aprendizaje en la siguiente tarea. Además, una vez que se dispone de nuevos datos o más capacidad de cálculo, los modelos grandes suelen volver a entrenarse desde cero, lo cual es un proceso costoso y que consume mucho tiempo.
Esto plantea la pregunta de si podríamos mejorar el equilibrio entre la eficiencia y el rendimiento de estos modelos grandes, haciéndolos más rápidos y sostenibles al tiempo que se preservan sus capacidades excepcionales. Una respuesta a esto es fomentar el desarrollo de modelos que acumulen conocimiento con el tiempo y que, por lo tanto, puedan adaptarse de manera más eficiente a nuevas situaciones y tareas novedosas.
Presentando NEVIS’22
Nuestro nuevo artículo, NEVIS’22: Un flujo de 100 tareas muestreadas de 30 años de investigación en visión por computadora, propone un entorno de estudio para investigar la transferencia eficiente de conocimiento en un entorno controlado y reproducible. El flujo de clasificación visual sin fin (NEVIS’22) es un flujo de trabajo de evaluación que incluye un conjunto de tareas iniciales de referencia y un código fuente de código abierto. Este paquete brinda a los investigadores la oportunidad de explorar cómo los modelos pueden construir continuamente sobre su conocimiento para aprender futuras tareas de manera más eficiente.
- Construyendo agentes interactivos en mundos de videojuegos
- Dominando Stratego, el clásico juego de información imperfecta
- AI para el juego de mesa Diplomacy
NEVIS’22 está compuesto en realidad por 106 tareas extraídas de publicaciones seleccionadas al azar de los procedimientos en línea de las principales conferencias de visión por computadora de las últimas tres décadas. Cada tarea es una tarea de clasificación supervisada, el enfoque mejor comprendido en el aprendizaje automático. Y de manera crucial, las tareas están organizadas cronológicamente, por lo que se vuelven más desafiantes y expansivas, brindando oportunidades crecientes para transferir conocimiento de un conjunto en crecimiento de tareas relacionadas. El desafío es cómo transferir automáticamente el conocimiento útil de una tarea a la siguiente para lograr un rendimiento mejor o más eficiente.
Aquí hay algunas imágenes derivadas de los conjuntos de datos mencionados en el Apéndice H de nuestro artículo:
NEVIS’22 es reproducible y suficientemente escalado para probar algoritmos de aprendizaje de vanguardia. El flujo de trabajo incluye una amplia diversidad de tareas, desde reconocimiento óptico de caracteres y análisis de texturas hasta conteo de multitudes y reconocimiento de escenas. El proceso de selección de tareas, al ser seleccionado al azar, no favoreció ningún enfoque en particular, sino que simplemente refleja lo que la comunidad de visión por computadora ha considerado interesante con el tiempo.
NEVIS’22 no se trata solo de datos, sino también de la metodología utilizada para entrenar y evaluar modelos de aprendizaje. Evaluamos a los modelos según su capacidad para aprender tareas futuras, medida por su equilibrio entre la tasa de error y los cálculos (estos últimos medidos por el número de operaciones de punto flotante). Por lo tanto, por ejemplo, lograr una tasa de error más baja en NEVIS’22 no es suficiente si esto conlleva un costo computacional irrazonable. En cambio, incentivamos a los modelos a ser precisos y eficientes.
Lecciones iniciales y desafíos abiertos
Nuestros experimentos iniciales muestran que los modelos que logran un mejor equilibrio son aquellos que aprovechan la estructura compartida entre las tareas y emplean alguna forma de aprendizaje por transferencia. En particular, los enfoques inteligentes de ajuste fino pueden ser bastante competitivos, incluso cuando se combinan con modelos preentrenados grandes. Este último hallazgo destaca la posibilidad de mejorar aún más las representaciones generales de los modelos a gran escala, abriendo así una nueva vía de investigación. Creemos que NEVIS’22 presenta un nuevo y emocionante desafío para nuestra comunidad mientras nos esforzamos por desarrollar modelos de aprendizaje sin fin más eficientes y efectivos.
Descubre más sobre NEVIS’22 leyendo nuestro artículo y descargando nuestro código.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Programación competitiva con AlphaCode
- ¿Cómo podemos incorporar valores humanos en la IA?
- La última investigación de DeepMind en ICLR 2023
- Conoce DragonDiffusion un método de edición de imágenes de granulación fina que permite la manipulación estilo arrastrar en modelos de difusión.
- ¿Qué tan arriesgado es tu proyecto de LLM de código abierto? Una nueva investigación explica los factores de riesgo asociados con los LLM de código abierto.
- AI Ayuda al Gobierno en Prohibir las Conexiones Móviles Falsas
- OpenAI presenta Super Alignment Abriendo el camino para una IA segura y alineada