Este artículo de inteligencia artificial del MIT explora la escala de los modelos de aprendizaje profundo para la investigación química.

Este artículo del MIT sobre inteligencia artificial explora la aplicación de modelos de aprendizaje profundo en la investigación química.

Investigadores del MIT investigaron el comportamiento de escalamiento de grandes modelos de lenguaje químico, centrándose tanto en los transformadores pre-entrenados generativos (GPT) para química (ChemGPT) como en los campos de fuerza de redes neuronales gráficas (GNN). Introducen el concepto de escalamiento neuronal, donde el rendimiento de los modelos se caracteriza por leyes empíricas de escalamiento, particularmente en términos de la pérdida de escalamiento como una ley de potencia en relación con el número de parámetros del modelo, el tamaño del conjunto de datos o los recursos de cómputo. El estudio analiza los desafíos y oportunidades asociados con el escalamiento de grandes modelos químicos, con el objetivo de proporcionar información sobre la asignación óptima de recursos para mejorar la pérdida de pre-entrenamiento.

Para modelado del lenguaje químico, los investigadores diseñan ChemGPT, un modelo estilo GPT-3 basado en GPT-Neo, con un tokenizador para representaciones de moléculas con cadenas incrustadas de autorreferencia (SELFIES). El modelo se pre-entrena en moléculas de PubChem, y el estudio explora el impacto del tamaño del conjunto de datos y del modelo en la pérdida de pre-entrenamiento.

Además de los modelos de lenguaje, el artículo aborda los campos de fuerza de redes neuronales gráficas (GNN) para tareas que requieren geometría molecular y estructura tridimensional. Se consideran cuatro tipos de GNN, que van desde modelos con capas internas que manipulan solo cantidades invariantes E(3) hasta aquellos que utilizan cantidades equivariantes E(3) con arquitecturas de modelos cada vez más informadas por la física. Los autores evalúan la capacidad de estos GNN, definida en términos de profundidad y anchura, durante los experimentos de escalamiento neuronal.

Para manejar eficientemente la optimización de hiperparámetros (HPO) para modelos químicos profundos, el artículo introduce una técnica llamada Estimación del Rendimiento de Entrenamiento (TPE), adaptándola de un método utilizado en arquitecturas de visión por computadora. TPE utiliza la velocidad de entrenamiento para permitir la estimación del rendimiento en diferentes dominios y tamaños de modelos/conjuntos de datos. El artículo detalla la configuración experimental, incluyendo el uso de GPUs NVIDIA Volta V100, PyTorch y aceleración de datos paralelos distribuidos para la implementación y entrenamiento del modelo.

En general, el estudio proporciona una exploración exhaustiva del escalamiento neuronal en el contexto de grandes modelos de lenguaje químico, considerando tanto los transformadores pre-entrenados generativos como los campos de fuerza de redes neuronales gráficas, e introduce un método eficiente para la optimización de hiperparámetros. Los resultados experimentales y los conocimientos contribuyen a comprender la eficiencia de los diferentes modelos arquitectónicos en aplicaciones científicas de aprendizaje profundo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceDeep LearningEditors PickStaff

Was this article helpful?

93 out of 132 found this helpful

Esta investigación sobre IA de China presenta 4K4D una representación en la nube de puntos 4D que admite rasterización de hardware y permite una velocidad de renderizado sin precedentes.

Este artículo de inteligencia artificial del MIT explora la escala de los modelos de aprendizaje profundo para la investigación química.

Was this article helpful?

Maestría en Ciencia de Datos con el 3er Mejor Programa en línea

Esta investigación sobre IA de China presenta 4K4D una representación en la nube de puntos 4D que admite rasterización de hardware y permite una velocidad de renderizado sin precedentes.

Inteligencia Artificial

El perro robot detecta mejor los nidos invasores de hormigas de fuego que los humanos.

ChatGPT Plugins Todo lo que necesitas saber

Investigadores de CMU y UC Santa Bárbara proponen una innovadora IA basada en el 'Diagnóstico del pensamiento' para la detección de distorsiones cognitivas en psicoterapia

Chipotle presenta Autocado, un robot de preparación de guacamole

Cómo este investigador ganador del Premio Turing se convirtió en un legendario asesor académico

Dentro del acalorado centro del pesimismo de la IA