Aprendizaje por Refuerzo sin Modelo para el Desarrollo de Procesos Químicos

Aprendizaje por Refuerzo sin Modelo en Procesos Químicos

Hacia Operadores de Procesos Químicos Universales

Introducción

Desarrollo de procesos, diseño, optimización y control son algunas de las principales tareas dentro de la ingeniería química y de procesos. En términos concretos, el objetivo es encontrar una receta óptima o una configuración adecuada de equipos o parámetros del proceso (a través de experimentos de laboratorio) para maximizar ciertos objetivos (por ejemplo, rendimiento o producción) mientras se respetan las posibles restricciones (por ejemplo, concentraciones de entrada, caudales, volúmenes de reactor o puntos de ebullición de los solventes). Al automatizar estas tareas, por ejemplo, mediante robots de laboratorio, se podría ahorrar una gran cantidad de trabajo manual.

El progreso reciente en aprendizaje por refuerzo (RL) dejó claro que los agentes pueden dominar tareas complejas y jugar una variedad de juegos, o incluso descubrir procedimientos matemáticos más eficientes, por ejemplo, para operaciones de matrices. Con la disponibilidad de parámetros cinéticos, ya sea a partir de experimentos o simulaciones numéricas, los agentes pueden encontrar configuraciones óptimas y recetas de síntesis. Sin embargo, a diferencia de la optimización convexa, el algoritmo/modelo se puede utilizar directamente para el control de procesos. Estos experimentos pueden llevarse a cabo tanto en el ordenador como directamente en el laboratorio, dependiendo de la eficiencia de muestra del método. A largo plazo, esto automatizaría (parcialmente) el desarrollo de procesos. El objetivo de este artículo es ilustrar esto en el ejemplo del paracetamol utilizando la optimización de políticas proximales (PPO).

Definición del Problema

Contamos con un programa de computadora, un agente llamado operador de procesos químicos universales. Este operador se encuentra en un entorno en el cual puede realizar operaciones químicas, es decir, acciones. Tales acciones incluyen dosificar el componente A, aumentar/disminuir el flujo de entrada/salida, aumentar/disminuir la temperatura, entre otras. A medida que el agente realiza acciones en ciertos estados como las concentraciones de ciertos componentes, transita hacia nuevos estados.

El paracetamol (PC) se sintetiza a partir de p-aminofenol (AP) y anhídrido acético (AA), como se muestra en la Fig. 1a. Bajo cinética conocida, este proceso se puede modelar y representa el entorno, por ejemplo, en un reactor continuo agitado (CSTR) como se muestra en la Fig…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Aprendizaje por Refuerzo sin Modelo para el Desarrollo de Procesos Químicos

Hacia Operadores de Procesos Químicos Universales

Introducción

Definición del Problema

Was this article helpful?

Herramientas y Agentes de HuggingFace Transformers Práctica

Visión Probabilística del Análisis de Componentes Principales

Inteligencia Artificial

Investigadores de Google DeepMind y YouTube anuncian Lyria un modelo avanzado de generación de música AI

Este artículo de IA de Stanford y Google introduce agentes generativos agentes computacionales interactivos que simulan el comportamiento humano'.

Extensiones de AI para Chrome para la hoja de trucos de científicos de datos

Anunciando mejoras en la extracción de tablas con Amazon Textract

Investigadores de Microsoft proponen PIT (Transformación Permutación Invariante) un compilador de aprendizaje profundo para la escasez dinámica.

Las 10 principales startups de IA generativa en el mundo