Este artículo de inteligencia artificial del MIT explora la escala de los modelos de aprendizaje profundo para la investigación química.

Este artículo del MIT sobre inteligencia artificial explora la aplicación de modelos de aprendizaje profundo en la investigación química.

Investigadores del MIT investigaron el comportamiento de escalamiento de grandes modelos de lenguaje químico, centrándose tanto en los transformadores pre-entrenados generativos (GPT) para química (ChemGPT) como en los campos de fuerza de redes neuronales gráficas (GNN). Introducen el concepto de escalamiento neuronal, donde el rendimiento de los modelos se caracteriza por leyes empíricas de escalamiento, particularmente en términos de la pérdida de escalamiento como una ley de potencia en relación con el número de parámetros del modelo, el tamaño del conjunto de datos o los recursos de cómputo. El estudio analiza los desafíos y oportunidades asociados con el escalamiento de grandes modelos químicos, con el objetivo de proporcionar información sobre la asignación óptima de recursos para mejorar la pérdida de pre-entrenamiento.

Para modelado del lenguaje químico, los investigadores diseñan ChemGPT, un modelo estilo GPT-3 basado en GPT-Neo, con un tokenizador para representaciones de moléculas con cadenas incrustadas de autorreferencia (SELFIES). El modelo se pre-entrena en moléculas de PubChem, y el estudio explora el impacto del tamaño del conjunto de datos y del modelo en la pérdida de pre-entrenamiento.

Además de los modelos de lenguaje, el artículo aborda los campos de fuerza de redes neuronales gráficas (GNN) para tareas que requieren geometría molecular y estructura tridimensional. Se consideran cuatro tipos de GNN, que van desde modelos con capas internas que manipulan solo cantidades invariantes E(3) hasta aquellos que utilizan cantidades equivariantes E(3) con arquitecturas de modelos cada vez más informadas por la física. Los autores evalúan la capacidad de estos GNN, definida en términos de profundidad y anchura, durante los experimentos de escalamiento neuronal.

Para manejar eficientemente la optimización de hiperparámetros (HPO) para modelos químicos profundos, el artículo introduce una técnica llamada Estimación del Rendimiento de Entrenamiento (TPE), adaptándola de un método utilizado en arquitecturas de visión por computadora. TPE utiliza la velocidad de entrenamiento para permitir la estimación del rendimiento en diferentes dominios y tamaños de modelos/conjuntos de datos. El artículo detalla la configuración experimental, incluyendo el uso de GPUs NVIDIA Volta V100, PyTorch y aceleración de datos paralelos distribuidos para la implementación y entrenamiento del modelo.

En general, el estudio proporciona una exploración exhaustiva del escalamiento neuronal en el contexto de grandes modelos de lenguaje químico, considerando tanto los transformadores pre-entrenados generativos como los campos de fuerza de redes neuronales gráficas, e introduce un método eficiente para la optimización de hiperparámetros. Los resultados experimentales y los conocimientos contribuyen a comprender la eficiencia de los diferentes modelos arquitectónicos en aplicaciones científicas de aprendizaje profundo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencias de la Computación

El perro robot detecta mejor los nidos invasores de hormigas de fuego que los humanos.

Científicos en China y Brasil están probando perros robóticos e inteligencia artificial (IA) para detectar nidos inva...

Inteligencia Artificial

ChatGPT Plugins Todo lo que necesitas saber

Aprenda más sobre los complementos de terceros que OpenAI ha lanzado para comprender ChatGPTs en uso en el mundo real.

Inteligencia Artificial

Chipotle presenta Autocado, un robot de preparación de guacamole

Chipotle se ha asociado con la firma de soluciones de automatización Vebu para presentar Autocado, un robot de proces...

Inteligencia Artificial

Cómo este investigador ganador del Premio Turing se convirtió en un legendario asesor académico

El científico teórico de la computación Manuel Blum ha guiado a generaciones de estudiantes de posgrado hacia carrera...

Inteligencia Artificial

Dentro del acalorado centro del pesimismo de la IA

Anthropic, una start-up de inteligencia artificial centrada en la seguridad, está tratando de competir con ChatGPT mi...