La última investigación de DeepMind en ICLR 2023

La última investigación de DeepMind en ICLR 2023.

Investigación hacia modelos de IA que puedan generalizar, escalar y acelerar la ciencia

La próxima semana marca el comienzo de la 11ª Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR), que se llevará a cabo del 1 al 5 de mayo en Kigali, Ruanda. Esta será la primera conferencia importante de inteligencia artificial (IA) que se celebrará en África y el primer evento presencial desde el inicio de la pandemia.

Investigadores de todo el mundo se reunirán para compartir su trabajo de vanguardia en aprendizaje profundo abarcando los campos de IA, estadísticas y ciencia de datos, y aplicaciones que incluyen visión artificial, juegos y robótica. Estamos orgullosos de apoyar la conferencia como patrocinador Diamante y campeón de la diversidad, equidad e inclusión (DEI, por sus siglas en inglés).

Los equipos de DeepMind presentarán 23 artículos este año. Aquí hay algunos aspectos destacados:

Preguntas abiertas sobre el camino hacia AGI

El progreso reciente ha demostrado el increíble rendimiento de la IA en texto e imágenes, pero se necesita más investigación para que los sistemas puedan generalizar en diferentes dominios y escalas. Este será un paso crucial en el camino hacia el desarrollo de la inteligencia artificial general (AGI) como una herramienta transformadora en nuestra vida cotidiana.

Presentamos un nuevo enfoque donde los modelos aprenden resolviendo dos problemas a la vez. Al entrenar modelos para analizar un problema desde dos perspectivas al mismo tiempo, aprenden a razonar sobre tareas que requieren resolver problemas similares, lo cual es beneficioso para la generalización. También exploramos la capacidad de las redes neuronales para generalizar al compararlas con la jerarquía de lenguajes de Chomsky. Al probar rigurosamente 2200 modelos en 16 tareas diferentes, descubrimos que ciertos modelos tienen dificultades para generalizar, y encontramos que es crucial mejorar su rendimiento mediante la incorporación de memoria externa.

Otro desafío al que nos enfrentamos es cómo progresar en tareas a largo plazo a un nivel de experto, donde las recompensas son escasas. Hemos desarrollado un nuevo enfoque y un conjunto de datos de entrenamiento de código abierto para ayudar a los modelos a aprender a explorar de manera similar a los humanos a lo largo de horizontes temporales largos.

Enfoques innovadores

A medida que desarrollamos capacidades de IA más avanzadas, debemos asegurarnos de que los métodos actuales funcionen como se espera y de manera eficiente en el mundo real. Por ejemplo, aunque los modelos de lenguaje pueden dar respuestas impresionantes, muchos no pueden explicar sus respuestas. Introducimos un método para utilizar modelos de lenguaje para resolver problemas de razonamiento de múltiples pasos aprovechando su estructura lógica subyacente, proporcionando explicaciones que pueden ser entendidas y verificadas por los humanos. Por otro lado, los ataques adversarios son una forma de poner a prueba los límites de los modelos de IA al hacer que generen salidas incorrectas o perjudiciales. El entrenamiento con ejemplos adversarios hace que los modelos sean más robustos ante los ataques, pero puede tener un costo en el rendimiento en entradas “normales”. Mostramos que al agregar adaptadores, podemos crear modelos que nos permiten controlar este intercambio sobre la marcha.

El aprendizaje por refuerzo (RL) ha demostrado ser exitoso para una variedad de desafíos del mundo real, pero los algoritmos de RL suelen diseñarse para realizar una tarea específica y tienen dificultades para generalizar a nuevas tareas. Proponemos la destilación de algoritmos, un método que permite que un modelo único generalice eficientemente a nuevas tareas al entrenar un transformador para imitar las historias de aprendizaje de los algoritmos de RL en diversas tareas. Los modelos de RL también aprenden mediante prueba y error, lo cual puede requerir una gran cantidad de datos y tiempo. A nuestro modelo Agent 57 le llevó casi 80 mil millones de cuadros de datos alcanzar un rendimiento a nivel humano en 57 juegos de Atari. Compartimos una nueva forma de entrenar a este nivel utilizando 200 veces menos experiencia, lo que reduce enormemente los costos informáticos y energéticos.

IA para la ciencia

La IA es una herramienta poderosa para que los investigadores analicen vastas cantidades de datos complejos y comprendan el mundo que nos rodea. Varios artículos muestran cómo la IA está acelerando el progreso científico, y cómo la ciencia está avanzando en la IA.

Predecir las propiedades de una molécula a partir de su estructura tridimensional es fundamental para el descubrimiento de medicamentos. Presentamos un método de eliminación de ruido que logra un nuevo estado del arte en la predicción de propiedades moleculares, permite el preentrenamiento a gran escala y generaliza en diferentes conjuntos de datos biológicos. También presentamos un nuevo transformador que puede realizar cálculos de química cuántica más precisos utilizando solo datos sobre posiciones atómicas.

Por último, con FIGnet, nos inspiramos en la física para modelar colisiones entre formas complejas, como una tetera o una rosquilla. Este simulador podría tener aplicaciones en robótica, gráficos y diseño mecánico.

‍

Consulta la lista completa de artículos de DeepMind y el programa de eventos en ICLR 2023.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Events

Was this article helpful?

93 out of 132 found this helpful

La última investigación de DeepMind en ICLR 2023

Investigación hacia modelos de IA que puedan generalizar, escalar y acelerar la ciencia

Preguntas abiertas sobre el camino hacia AGI

Enfoques innovadores

IA para la ciencia

Was this article helpful?

Conoce DragonDiffusion un método de edición de imágenes de granulación fina que permite la manipulación estilo arrastrar en modelos de difusión.

¿Cómo podemos incorporar valores humanos en la IA?

Inteligencia Artificial

Los exámenes no supervisados en línea proporcionan evaluaciones válidas

¿Y si pudiéramos explicar fácilmente modelos excesivamente complejos?

Conoce a GigaGPT la implementación de Cerebras del nanoGPT de Andrei Karpathy que entrena modelos de IA del tamaño de GPT-3 en solo 565 líneas de código.

Este artículo de IA propone un método novedoso basado en gradientes llamado Cones para analizar e identificar las neuronas conceptuales en modelos de difusión

Google AI presenta un novedoso algoritmo de agrupación que combina de manera efectiva los beneficios de escalabilidad de los modelos de incrustación con la calidad de los modelos de atención cruzada.

GitLab presenta Duo Chat una herramienta de IA conversacional para aumentar la productividad