Este artículo de inteligencia artificial del MIT explora la escala de los modelos de aprendizaje profundo para la investigación química.
Este artículo del MIT sobre inteligencia artificial explora la aplicación de modelos de aprendizaje profundo en la investigación química.
Investigadores del MIT investigaron el comportamiento de escalamiento de grandes modelos de lenguaje químico, centrándose tanto en los transformadores pre-entrenados generativos (GPT) para química (ChemGPT) como en los campos de fuerza de redes neuronales gráficas (GNN). Introducen el concepto de escalamiento neuronal, donde el rendimiento de los modelos se caracteriza por leyes empíricas de escalamiento, particularmente en términos de la pérdida de escalamiento como una ley de potencia en relación con el número de parámetros del modelo, el tamaño del conjunto de datos o los recursos de cómputo. El estudio analiza los desafíos y oportunidades asociados con el escalamiento de grandes modelos químicos, con el objetivo de proporcionar información sobre la asignación óptima de recursos para mejorar la pérdida de pre-entrenamiento.
Para modelado del lenguaje químico, los investigadores diseñan ChemGPT, un modelo estilo GPT-3 basado en GPT-Neo, con un tokenizador para representaciones de moléculas con cadenas incrustadas de autorreferencia (SELFIES). El modelo se pre-entrena en moléculas de PubChem, y el estudio explora el impacto del tamaño del conjunto de datos y del modelo en la pérdida de pre-entrenamiento.
Además de los modelos de lenguaje, el artículo aborda los campos de fuerza de redes neuronales gráficas (GNN) para tareas que requieren geometría molecular y estructura tridimensional. Se consideran cuatro tipos de GNN, que van desde modelos con capas internas que manipulan solo cantidades invariantes E(3) hasta aquellos que utilizan cantidades equivariantes E(3) con arquitecturas de modelos cada vez más informadas por la física. Los autores evalúan la capacidad de estos GNN, definida en términos de profundidad y anchura, durante los experimentos de escalamiento neuronal.
- Maestría en Ciencia de Datos con el 3er Mejor Programa en línea
- Philips acelera el desarrollo de soluciones de atención médica habilitadas para IA con una plataforma de MLOps construida en Amazon SageMaker
- En el Omniverso Mejoras de OpenUSD para Autodesk Maya hacen que los flujos de trabajo 3D sean un cuento de hadas
Para manejar eficientemente la optimización de hiperparámetros (HPO) para modelos químicos profundos, el artículo introduce una técnica llamada Estimación del Rendimiento de Entrenamiento (TPE), adaptándola de un método utilizado en arquitecturas de visión por computadora. TPE utiliza la velocidad de entrenamiento para permitir la estimación del rendimiento en diferentes dominios y tamaños de modelos/conjuntos de datos. El artículo detalla la configuración experimental, incluyendo el uso de GPUs NVIDIA Volta V100, PyTorch y aceleración de datos paralelos distribuidos para la implementación y entrenamiento del modelo.
En general, el estudio proporciona una exploración exhaustiva del escalamiento neuronal en el contexto de grandes modelos de lenguaje químico, considerando tanto los transformadores pre-entrenados generativos como los campos de fuerza de redes neuronales gráficas, e introduce un método eficiente para la optimización de hiperparámetros. Los resultados experimentales y los conocimientos contribuyen a comprender la eficiencia de los diferentes modelos arquitectónicos en aplicaciones científicas de aprendizaje profundo.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Tres formas en que la IA generativa puede reforzar la ciberseguridad
- Creando empatía artificial
- Gafas utilizan sonar e inteligencia artificial para interpretar posturas del cuerpo superior en 3D
- Datos de navegación web recopilados con más detalle de lo que se conocía anteriormente.
- Type-Hinting DataFrames para análisis estático y validación en tiempo de ejecución
- El Otro Lado de los Contratos de Datos Despertando la Responsabilidad del Consumidor
- Tres formas increíbles de innovar tu negocio