El sistema de IA puede generar proteínas novedosas que cumplan con los objetivos de diseño estructural.

The AI system can generate novel proteins that meet structural design objectives.

Estas proteínas ajustables podrían ser utilizadas para crear nuevos materiales con propiedades mecánicas específicas, como resistencia o flexibilidad.

A new machine-learning system can generate protein designs with certain structural features, and which do not exist in nature. These proteins could be utilized to make materials that have similar mechanical properties to existing materials, like polymers, but which would have a much smaller carbon footprint.

Investigadores del MIT están utilizando inteligencia artificial para diseñar nuevas proteínas que van más allá de las que se encuentran en la naturaleza.

Desarrollaron algoritmos de aprendizaje automático que pueden generar proteínas con características estructurales específicas, que podrían utilizarse para fabricar materiales con ciertas propiedades mecánicas, como rigidez o elasticidad. Tales materiales biológicamente inspirados podrían reemplazar potencialmente materiales hechos de petróleo o cerámica, pero con una huella de carbono mucho más pequeña.

Los investigadores del MIT, el MIT-IBM Watson AI Lab y la Universidad de Tufts utilizaron un modelo generativo, que es el mismo tipo de arquitectura de modelo de aprendizaje automático utilizado en sistemas de inteligencia artificial como DALL-E 2. Pero en lugar de usarlo para generar imágenes realistas a partir de indicaciones de lenguaje natural, como lo hace DALL-E 2, adaptaron la arquitectura del modelo para que pudiera predecir secuencias de aminoácidos de proteínas que logran objetivos estructurales específicos.

En un artículo publicado hoy en Chem, los investigadores demuestran cómo estos modelos pueden generar proteínas realistas pero novedosas. Los modelos, que aprenden relaciones bioquímicas que controlan cómo se forman las proteínas, pueden producir nuevas proteínas que podrían permitir aplicaciones únicas, dice el autor principal Markus Buehler, profesor Jerry McAfee de Ingeniería y profesor de ingeniería civil y ambiental y de ingeniería mecánica.

Por ejemplo, esta herramienta podría usarse para desarrollar recubrimientos de alimentos inspirados en proteínas, que podrían mantener los productos frescos por más tiempo mientras son seguros para que los humanos los consuman. Y los modelos pueden generar millones de proteínas en unos pocos días, lo que les da a los científicos rápidamente un portafolio de nuevas ideas para explorar, agrega.

“Cuando piensas en diseñar proteínas que la naturaleza aún no ha descubierto, es un espacio de diseño tan enorme que no puedes resolverlo con un lápiz y papel. Tienes que descubrir el lenguaje de la vida, la forma en que los aminoácidos están codificados por el ADN y luego se unen para formar estructuras de proteínas. Antes de tener el aprendizaje profundo, realmente no podíamos hacer esto”, dice Buehler, quien también es miembro del MIT-IBM Watson AI Lab.

Junto a Buehler en el artículo se encuentran el autor principal Bo Ni, un postdoc en el Laboratorio de Mecánica Atómica y Molecular de Buehler; y David Kaplan, profesor de Ingeniería de la Familia Stern y profesor de bioingeniería en Tufts.

Adaptando nuevas herramientas para la tarea

Las proteínas se forman por cadenas de aminoácidos, plegadas juntas en patrones 3D. La secuencia de aminoácidos determina las propiedades mecánicas de la proteína. Si bien los científicos han identificado miles de proteínas creadas mediante la evolución, estiman que un número enorme de secuencias de aminoácidos permanecen por descubrir.

Para simplificar el descubrimiento de proteínas, los investigadores han desarrollado recientemente modelos de aprendizaje profundo que pueden predecir la estructura 3D de una proteína para un conjunto de secuencias de aminoácidos. Pero el problema inverso, predecir una secuencia de estructuras de aminoácidos que satisfagan los objetivos de diseño, ha resultado aún más desafiante.

Un nuevo advenimiento en el aprendizaje automático permitió a Buehler y sus colegas abordar este desafiante problema: modelos de difusión basados en atención.

Los modelos basados en atención pueden aprender relaciones de largo alcance, lo que es clave para desarrollar proteínas porque una mutación en una larga secuencia de aminoácidos puede hacer o deshacer todo el diseño, dice Buehler. Un modelo de difusión aprende a generar nuevos datos a través de un proceso que implica agregar ruido a los datos de entrenamiento, luego aprender a recuperar los datos mediante la eliminación del ruido. A menudo son más efectivos que otros modelos para generar datos realistas de alta calidad que se pueden condicionar para satisfacer un conjunto de objetivos de diseño.

Los investigadores utilizaron esta arquitectura para construir dos modelos de aprendizaje automático que pueden predecir una variedad de nuevas secuencias de aminoácidos que forman proteínas que cumplen objetivos de diseño estructural.

“En la industria biomédica, es posible que no desee una proteína completamente desconocida porque entonces no conoce sus propiedades. Pero en algunas aplicaciones, es posible que desee una proteína completamente nueva que sea similar a una encontrada en la naturaleza, pero que haga algo diferente. Podemos generar un espectro con estos modelos, que controlamos ajustando ciertos botones”, dice Buehler.

Los patrones de plegamiento comunes de los aminoácidos, conocidos como estructuras secundarias, producen diferentes propiedades mecánicas. Por ejemplo, las proteínas con estructuras de hélice alfa producen materiales elásticos, mientras que las proteínas con estructuras de lámina beta producen materiales rígidos. Combinar hélices alfa y láminas beta puede crear materiales que sean elásticos y resistentes, como las sedas.

Los investigadores desarrollaron dos modelos, uno que opera en las propiedades estructurales generales de la proteína y otro que opera a nivel de aminoácidos. Ambos modelos funcionan combinando estas estructuras de aminoácidos para generar proteínas. Para el modelo que opera en las propiedades estructurales generales, un usuario ingresa un porcentaje deseado de diferentes estructuras (por ejemplo, el 40 por ciento de hélice alfa y el 60 por ciento de lámina beta). Luego, el modelo genera secuencias que cumplen con esos objetivos. Para el segundo modelo, el científico también especifica el orden de las estructuras de aminoácidos, lo que da un control mucho más detallado.

Los modelos están conectados a un algoritmo que predice el plegamiento de proteínas, que los investigadores utilizan para determinar la estructura en 3D de la proteína. Luego calculan sus propiedades resultantes y las verifican con las especificaciones de diseño.

Diseños realistas pero novedosos

Probaron sus modelos comparando las nuevas proteínas con proteínas conocidas que tienen propiedades estructurales similares. Muchas tenían cierta superposición con secuencias de aminoácidos existentes, alrededor del 50 al 60 por ciento en la mayoría de los casos, pero también algunas secuencias completamente nuevas. El nivel de similitud sugiere que muchas de las proteínas generadas son sintetizables, agrega Buehler.

Para asegurarse de que las proteínas predichas sean razonables, los investigadores intentaron engañar a los modelos ingresando objetivos de diseño físicamente imposibles. Estuvieron impresionados al ver que, en lugar de producir proteínas improbables, los modelos generaron la solución sintetizable más cercana.

“El algoritmo de aprendizaje puede detectar las relaciones ocultas en la naturaleza. Esto nos da la confianza para decir que cualquier cosa que salga de nuestro modelo es muy probable que sea realista”, dice Ni.

A continuación, los investigadores planean validar experimentalmente algunos de los nuevos diseños de proteínas fabricándolos en un laboratorio. También quieren seguir aumentando y refinando los modelos para que puedan desarrollar secuencias de aminoácidos que cumplan con más criterios, como funciones biológicas.

“Para las aplicaciones que nos interesan, como la sostenibilidad, la medicina, los alimentos, la salud y el diseño de materiales, tendremos que ir más allá de lo que ha hecho la naturaleza. Aquí hay una nueva herramienta de diseño que podemos usar para crear soluciones potenciales que podrían ayudarnos a resolver algunos de los problemas sociales realmente apremiantes a los que nos enfrentamos”, dice Buehler.

“Además de su papel natural en las células vivas, las proteínas están desempeñando un papel cada vez más importante en aplicaciones tecnológicas que van desde medicamentos biológicos hasta materiales funcionales. En este contexto, un desafío clave es diseñar secuencias de proteínas con propiedades deseadas adecuadas para aplicaciones específicas. Los enfoques generativos de aprendizaje automático, incluidos los que aprovechan modelos de difusión, han surgido recientemente como herramientas poderosas en este espacio”, dice Tuomas Knowles, profesor de química física y biofísica en la Universidad de Cambridge, que no estuvo involucrado en esta investigación. “Buehler y sus colegas demuestran un avance crucial en esta área al proporcionar un enfoque de diseño que permite adaptar la estructura secundaria de la proteína diseñada. Este es un avance emocionante con implicaciones para muchas áreas potenciales, incluido el diseño de bloques de construcción para materiales funcionales, cuyas propiedades están gobernadas por elementos de estructura secundaria”.

“Este trabajo en particular es fascinante porque examina la creación de nuevas proteínas que en su mayoría no existen, pero luego examina cuáles serían sus características desde una dirección basada en la mecánica”, agrega Philip LeDuc, el profesor William J. Brown de ingeniería mecánica en la Universidad Carnegie Mellon, que tampoco estuvo involucrado en este trabajo. “Personalmente, he estado fascinado por la idea de crear moléculas que no existen y que tienen funcionalidades que ni siquiera hemos imaginado todavía. Este es un paso enorme en esa dirección”.

Esta investigación fue apoyada, en parte, por el MIT-IBM Watson AI Lab, el Departamento de Agricultura de los Estados Unidos, el Departamento de Energía de los Estados Unidos, la Oficina de Investigación del Ejército, los Institutos Nacionales de Salud y la Oficina de Investigación Naval.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Aprendizaje Automático

Google DeepMind está trabajando en un algoritmo para superar a ChatGPT.

En un anuncio innovador, Demis Hassabis, el CEO del laboratorio de IA DeepMind de Google, presentó el desarrollo de u...

Inteligencia Artificial

Seguimiento de experimentos de Machine Learning utilizando MLflow

Introducción El área de aprendizaje automático (ML) está creciendo rápidamente y tiene aplicaciones en muchos sectore...

Inteligencia Artificial

Financiamiento en Startups de IA Edición Sept-1 ConverSight, Voxel, AI21 y Gesund

En el paisaje en constante evolución de la tecnología, la Inteligencia Artificial (IA) se erige como una frontera mon...

Inteligencia Artificial

Investigadores de IA de Salesforce presentan la evolución de los agentes autónomos mejorados con LLM y la innovadora estrategia BOLAA

I had trouble accessing your link so I’m going to try to continue without it. Los recientes logros de los model...

Inteligencia Artificial

Este boletín de inteligencia artificial es todo lo que necesitas #71

Esta semana, el presidente Joe Biden volvió a poner la regulación de la inteligencia artificial en el punto de mira a...