Rompiendo barreras en el diseño de proteínas con un nuevo modelo de IA que comprende interacciones con cualquier tipo de molécula.

New AI model breaks barriers in protein design by understanding interactions with any molecule.

Este nuevo modelo podría ayudar a expandir la aplicabilidad de modelos de aprendizaje automático para el diseño de proteínas con funciones deseadas ajustando sus interacciones específicas con otras moléculas de cualquier tipo, impactando así efectivamente en la biotecnología y las aplicaciones clínicas

Arte conceptual sobre la “ingeniería de proteínas” creado por el autor editando generaciones de Dall-E-2 (originalmente usadas aquí).

Después de la revolución iniciada por AlphaFold de Deepmind en la biología estructural, el campo de diseño de proteínas, estrechamente relacionado, ha entrado más recientemente en una nueva era de avances a través del poder del aprendizaje profundo. Sin embargo, los modelos de aprendizaje automático (ML) existentes para el diseño de proteínas han estado limitados en su capacidad para incorporar entidades no proteicas en el proceso de diseño, manejando solo componentes proteicos. En nuestro nuevo preprint, presentamos un nuevo modelo de aprendizaje profundo, “CARBonAra”, que considera cualquier tipo de entorno molecular que rodea a la proteína, y puede diseñar proteínas que se unen a cualquier tipo de molécula: ligandos parecidos a fármacos, cofactores, sustratos, ácidos nucleicos, o incluso otras proteínas. Al aprovechar una arquitectura de transformador geométrico de nuestro modelo ML anterior, CARBonAra predice secuencias de proteínas de andamios de proteínas mientras es consciente de las restricciones impuestas por moléculas de cualquier naturaleza. Este enfoque innovador podría ayudar a expandir la versatilidad de los modelos de aprendizaje automático para diseñar proteínas con funciones deseadas ajustando interacciones específicas con otros componentes celulares de cualquier tipo.

Esquema que describe lo que este nuevo modelo de aprendizaje profundo puede hacer: calcular probabilidades de aminoácidos para el diseño de proteínas a partir de un andamio de proteínas objetivo rodeado de otra(s) molécula(s) dentro de la distancia de unión (aquí ejemplificado con la molécula verde en la parte superior). Imagen producida por el autor.

Introducción

Como científicos de datos, estamos constantemente esforzándonos por ampliar los límites de lo posible. El diseño de proteínas, es decir, la creación de nuevas proteínas con funciones y propiedades deseadas, es un área de acción con profundas implicaciones en diversas disciplinas que van desde la biología y la medicina hasta la biotecnología y la ciencia de materiales. Si bien los métodos basados en la física han progresado en encontrar secuencias de aminoácidos que se pliegan en una estructura de proteína dada, las técnicas de aprendizaje profundo han surgido como revolucionarias, mejorando significativamente las tasas de éxito y la versatilidad del diseño.

Recientemente, discutí cuatro modelos modernos de ML para el diseño y la ingeniería de proteínas aquí:

La era del aprendizaje automático para el diseño de proteínas, resumida en cuatro métodos clave

Nunca ha habido tiempos tan emocionantes para la biotecnología de proteínas, gracias a estos métodos y herramientas basados en inteligencia artificial

towardsdatascience.com

Aunque estos modelos han tenido éxito en muchas tareas de diseño de proteínas, están limitados en su capacidad para considerar entidades no proteicas durante el proceso de diseño; simplemente no pueden manejarlas en absoluto, una limitación que afecta su versatilidad y estrecha su alcance de aplicación.

Para superar este desafío, presentamos en nuestro último preprint un nuevo modelo llamado CARBonAra, que revoluciona el diseño de secuencias de proteínas aceptando como entradas andamios de proteínas objetivo acompañados de cualquier tipo de moléculas interactuantes. Aquí está el preprint:

Aprendizaje profundo geométrico consciente del contexto para el diseño de secuencias de proteínas

El diseño y la ingeniería de proteínas están evolucionando a un ritmo sin precedentes aprovechando los avances del aprendizaje profundo. Actual…

www.biorxiv.org

CARBonAra se basa en nuestro Protein Structure Transformer (PeSTo), una arquitectura transformadora geométrica que opera en nubes de puntos de átomos tratando moléculas de manera agnóstica en términos de tipos de átomos y representándolos directamente por nombres elementales. Describí PeSTo con más detalle anteriormente:

Nuevo preprint describe un nuevo transformador geométrico de coordenadas atómicas sin parámetros…

Y funciona tan rápido que incluso puede escanear grandes conjuntos de estructuras de proteínas para buscar aminoácidos propensos a la interacción…

towardsdatascience.com

El núcleo de CARBonAra se basa en el modelo PeSTo, lo que le permite incorporar cualquier tipo de moléculas no proteicas, incluidos ácidos nucleicos, lípidos, iones, pequeños ligandos, cofactores u otras proteínas, en el proceso de diseño de una nueva proteína. Por lo tanto, dado una estructura de proteína de entrada con uno o más ligandos dentro de la distancia de interacción, CARBonAra predice las confianzas de aminoácidos por residuo a partir de cuyos máximos se pueden reconstruir las secuencias de proteínas. Para ello, CARBonAra toma andamios de la estructura principal acompañados de moléculas no proteicas como entradas y genera un espacio de secuencias potenciales que pueden ser aún más acotados por requisitos funcionales o estructurales específicos, como fijar ciertos aminoácidos, por ejemplo, si se sabe que son esenciales para una función dada. CARBonAra ofrece un nivel sin precedentes de flexibilidad y profundidad en el diseño de proteínas al considerar el contexto molecular que rodea a la proteína de interés, lo que significa que puede crear regiones especializadas para la unión de iones, sustratos, ácidos nucleicos, lípidos, otras proteínas, etc.

En nuestras evaluaciones, CARBonAra tiene un rendimiento similar a métodos de última generación como ProteinMPNN y ESM-IF1, mientras demuestra una eficiencia computacional similar, siendo todos bastante rápidos. El modelo logra tasas de recuperación de secuencia bastante similares a las de ProteinMPNN y ESM-IF1 para el diseño de monómeros proteicos y complejos de proteínas, pero además puede manejar diseños de proteínas que implican moléculas no proteicas, que ninguno de los otros métodos puede manejar.

Una de las características notables de CARBonAra es su capacidad para adaptar secuencias para cumplir objetivos específicos mediante la incorporación de varias restricciones. Por ejemplo, puede optimizar la identidad de la secuencia, minimizar la similitud o lograr una baja similitud de secuencia. Además, al utilizar CARBonAra con trayectorias estructurales de simulaciones de dinámica molecular, observamos que podemos mejorar las tasas de recuperación de secuencias, especialmente en casos donde los métodos anteriores mostraron tasas de éxito más bajas.

Para conocer más sobre el método, en particular los detalles de la arquitectura de aprendizaje automático, consulte nuestro preprint en bioRxiv:

Aprendizaje automático geométrico consciente del contexto para el diseño de secuencias de proteínas

El diseño y la ingeniería de proteínas están evolucionando a un ritmo sin precedentes aprovechando los avances del aprendizaje profundo. Actualmente…

www.biorxiv.org

Más de un año de AlphaFold 2 gratis para usar y de la revolución que desencadenó en la biología

Modelado confiable de estructuras de proteínas, predicción de sus interacciones con otras biomoléculas e incluso proteínas…

Zepes.com

Una aplicación web para diseñar proteínas estables mediante el método de consenso, creada con JavaScript, ESMFold…

Mezclando tecnologías y herramientas modernas para un trabajo eficiente para crear una aplicación que implementa el método más simple pero más actual…

javascript.plainenglish.io

“¿ML-Everything”? Equilibrando cantidad y calidad en los métodos de aprendizaje automático para la ciencia

La necesidad de validaciones adecuadas y buenos conjuntos de datos, objetivos y equilibrados, y que las predicciones sean útiles en situaciones realistas…

towardsdatascience.com

Cómo los enormes modelos de lenguaje de proteínas podrían interrumpir la biología estructural

Predicción de estructuras con una precisión similar a AlphaFold pero hasta 60 veces más rápido, y desarrollando nuevos métodos de IA al mismo tiempo…

towardsdatascience.com

www.lucianoabriata.com Escribo y hago fotos sobre todo lo que cae dentro de mi amplia esfera de intereses: naturaleza, ciencia, tecnología, programación, etc.

Apóyame aquí o hazte miembro de Zepes para acceder a todas mis historias (yo recibo una pequeña ganancia sin costo para ti). Suscríbete para recibir mis nuevas historias por correo electrónico. Consulta sobre pequeños trabajos en mi página de servicios aquí. Puedes contactarme aquí.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Microsoft lanza Orca 2 Pionera en la lógica avanzada en modelos de lenguaje más pequeños con estrategias de entrenamiento personalizadas

Los LLM (Modelos de Lenguaje Grande) se entrenan en grandes volúmenes de datos textuales para comprender y producir l...

Inteligencia Artificial

Navegando la Curva de Aprendizaje La Lucha de la IA con la Retención de Memoria

A medida que los límites de la inteligencia artificial (IA) se expanden continuamente, los investigadores luchan con ...

Inteligencia Artificial

Descifrando el código del contexto Técnicas de vectorización de palabras en PNL

Te mudaste a una nueva ciudad lejos de tu país, donde casualmente te encontraste con alguien en una cafetería. Una jo...

Ciencias de la Computación

Cómo la inteligencia artificial protege (y ataca) tu bandeja de entrada.

Las empresas, como Google, están buscando formas en que la inteligencia artificial y el aprendizaje automático puedan...