Aprendizaje por Refuerzo sin Modelo para el Desarrollo de Procesos Químicos
Aprendizaje por Refuerzo sin Modelo en Procesos Químicos
Hacia Operadores de Procesos Químicos Universales
Introducción
Desarrollo de procesos, diseño, optimización y control son algunas de las principales tareas dentro de la ingeniería química y de procesos. En términos concretos, el objetivo es encontrar una receta óptima o una configuración adecuada de equipos o parámetros del proceso (a través de experimentos de laboratorio) para maximizar ciertos objetivos (por ejemplo, rendimiento o producción) mientras se respetan las posibles restricciones (por ejemplo, concentraciones de entrada, caudales, volúmenes de reactor o puntos de ebullición de los solventes). Al automatizar estas tareas, por ejemplo, mediante robots de laboratorio, se podría ahorrar una gran cantidad de trabajo manual.
El progreso reciente en aprendizaje por refuerzo (RL) dejó claro que los agentes pueden dominar tareas complejas y jugar una variedad de juegos, o incluso descubrir procedimientos matemáticos más eficientes, por ejemplo, para operaciones de matrices. Con la disponibilidad de parámetros cinéticos, ya sea a partir de experimentos o simulaciones numéricas, los agentes pueden encontrar configuraciones óptimas y recetas de síntesis. Sin embargo, a diferencia de la optimización convexa, el algoritmo/modelo se puede utilizar directamente para el control de procesos. Estos experimentos pueden llevarse a cabo tanto en el ordenador como directamente en el laboratorio, dependiendo de la eficiencia de muestra del método. A largo plazo, esto automatizaría (parcialmente) el desarrollo de procesos. El objetivo de este artículo es ilustrar esto en el ejemplo del paracetamol utilizando la optimización de políticas proximales (PPO).
Definición del Problema
Contamos con un programa de computadora, un agente llamado operador de procesos químicos universales. Este operador se encuentra en un entorno en el cual puede realizar operaciones químicas, es decir, acciones. Tales acciones incluyen dosificar el componente A, aumentar/disminuir el flujo de entrada/salida, aumentar/disminuir la temperatura, entre otras. A medida que el agente realiza acciones en ciertos estados como las concentraciones de ciertos componentes, transita hacia nuevos estados.
El paracetamol (PC) se sintetiza a partir de p-aminofenol (AP) y anhídrido acético (AA), como se muestra en la Fig. 1a. Bajo cinética conocida, este proceso se puede modelar y representa el entorno, por ejemplo, en un reactor continuo agitado (CSTR) como se muestra en la Fig…
- Herramientas y Agentes de HuggingFace Transformers Práctica
- Error de Calibración Esperado (ECE) – una explicación visual paso a paso
- Monitoreo de datos no estructurados para LLM y NLP
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Aliasing Tu serie de tiempo te está mintiendo
- IA generativa y el futuro de la ingeniería de datos
- La IA también debería aprender a olvidar
- Cómo los bancos deben aprovechar la IA responsable para abordar el crimen financiero
- Investigadores de la Universidad de Pekín presentan FastServe un sistema de servicio de inferencia distribuida para modelos de lenguaje grandes (LLMs).
- Consejos y trucos para integrar la IA en un equipo bien conectado
- Principales 6 usos de la IA en el sector del transporte