La última investigación de DeepMind en ICLR 2023
La última investigación de DeepMind en ICLR 2023.
Investigación hacia modelos de IA que puedan generalizar, escalar y acelerar la ciencia
La próxima semana marca el comienzo de la 11ª Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR), que se llevará a cabo del 1 al 5 de mayo en Kigali, Ruanda. Esta será la primera conferencia importante de inteligencia artificial (IA) que se celebrará en África y el primer evento presencial desde el inicio de la pandemia.
Investigadores de todo el mundo se reunirán para compartir su trabajo de vanguardia en aprendizaje profundo abarcando los campos de IA, estadísticas y ciencia de datos, y aplicaciones que incluyen visión artificial, juegos y robótica. Estamos orgullosos de apoyar la conferencia como patrocinador Diamante y campeón de la diversidad, equidad e inclusión (DEI, por sus siglas en inglés).
Los equipos de DeepMind presentarán 23 artículos este año. Aquí hay algunos aspectos destacados:
Preguntas abiertas sobre el camino hacia AGI
El progreso reciente ha demostrado el increíble rendimiento de la IA en texto e imágenes, pero se necesita más investigación para que los sistemas puedan generalizar en diferentes dominios y escalas. Este será un paso crucial en el camino hacia el desarrollo de la inteligencia artificial general (AGI) como una herramienta transformadora en nuestra vida cotidiana.
- Conoce DragonDiffusion un método de edición de imágenes de granulación fina que permite la manipulación estilo arrastrar en modelos de difusión.
- ¿Qué tan arriesgado es tu proyecto de LLM de código abierto? Una nueva investigación explica los factores de riesgo asociados con los LLM de código abierto.
- AI Ayuda al Gobierno en Prohibir las Conexiones Móviles Falsas
Presentamos un nuevo enfoque donde los modelos aprenden resolviendo dos problemas a la vez. Al entrenar modelos para analizar un problema desde dos perspectivas al mismo tiempo, aprenden a razonar sobre tareas que requieren resolver problemas similares, lo cual es beneficioso para la generalización. También exploramos la capacidad de las redes neuronales para generalizar al compararlas con la jerarquía de lenguajes de Chomsky. Al probar rigurosamente 2200 modelos en 16 tareas diferentes, descubrimos que ciertos modelos tienen dificultades para generalizar, y encontramos que es crucial mejorar su rendimiento mediante la incorporación de memoria externa.
Otro desafío al que nos enfrentamos es cómo progresar en tareas a largo plazo a un nivel de experto, donde las recompensas son escasas. Hemos desarrollado un nuevo enfoque y un conjunto de datos de entrenamiento de código abierto para ayudar a los modelos a aprender a explorar de manera similar a los humanos a lo largo de horizontes temporales largos.
Enfoques innovadores
A medida que desarrollamos capacidades de IA más avanzadas, debemos asegurarnos de que los métodos actuales funcionen como se espera y de manera eficiente en el mundo real. Por ejemplo, aunque los modelos de lenguaje pueden dar respuestas impresionantes, muchos no pueden explicar sus respuestas. Introducimos un método para utilizar modelos de lenguaje para resolver problemas de razonamiento de múltiples pasos aprovechando su estructura lógica subyacente, proporcionando explicaciones que pueden ser entendidas y verificadas por los humanos. Por otro lado, los ataques adversarios son una forma de poner a prueba los límites de los modelos de IA al hacer que generen salidas incorrectas o perjudiciales. El entrenamiento con ejemplos adversarios hace que los modelos sean más robustos ante los ataques, pero puede tener un costo en el rendimiento en entradas “normales”. Mostramos que al agregar adaptadores, podemos crear modelos que nos permiten controlar este intercambio sobre la marcha.
El aprendizaje por refuerzo (RL) ha demostrado ser exitoso para una variedad de desafíos del mundo real, pero los algoritmos de RL suelen diseñarse para realizar una tarea específica y tienen dificultades para generalizar a nuevas tareas. Proponemos la destilación de algoritmos, un método que permite que un modelo único generalice eficientemente a nuevas tareas al entrenar un transformador para imitar las historias de aprendizaje de los algoritmos de RL en diversas tareas. Los modelos de RL también aprenden mediante prueba y error, lo cual puede requerir una gran cantidad de datos y tiempo. A nuestro modelo Agent 57 le llevó casi 80 mil millones de cuadros de datos alcanzar un rendimiento a nivel humano en 57 juegos de Atari. Compartimos una nueva forma de entrenar a este nivel utilizando 200 veces menos experiencia, lo que reduce enormemente los costos informáticos y energéticos.
IA para la ciencia
La IA es una herramienta poderosa para que los investigadores analicen vastas cantidades de datos complejos y comprendan el mundo que nos rodea. Varios artículos muestran cómo la IA está acelerando el progreso científico, y cómo la ciencia está avanzando en la IA.
Predecir las propiedades de una molécula a partir de su estructura tridimensional es fundamental para el descubrimiento de medicamentos. Presentamos un método de eliminación de ruido que logra un nuevo estado del arte en la predicción de propiedades moleculares, permite el preentrenamiento a gran escala y generaliza en diferentes conjuntos de datos biológicos. También presentamos un nuevo transformador que puede realizar cálculos de química cuántica más precisos utilizando solo datos sobre posiciones atómicas.
Por último, con FIGnet, nos inspiramos en la física para modelar colisiones entre formas complejas, como una tetera o una rosquilla. Este simulador podría tener aplicaciones en robótica, gráficos y diseño mecánico.
Consulta la lista completa de artículos de DeepMind y el programa de eventos en ICLR 2023.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- OpenAI presenta Super Alignment Abriendo el camino para una IA segura y alineada
- Conoce a KITE Un marco de inteligencia artificial para la manipulación semántica utilizando puntos clave como representación para el enlace visual y la inferencia precisa de acciones.
- El costo oculto de los problemas de calidad de datos en el retorno de la inversión publicitaria.
- Operaciones de Matrices y Vectores en Regresión Logística
- DataHour Reducción del 80% de las alucinaciones de ChatGPT
- Pic2Word Mapeo de imágenes a palabras para la recuperación de imágenes compuestas sin entrenamiento previo.
- La IA combate la plaga de los desechos espaciales