Rompiendo barreras en el diseño de proteínas con un nuevo modelo de IA que comprende interacciones con cualquier tipo de molécula.
New AI model breaks barriers in protein design by understanding interactions with any molecule.
Este nuevo modelo podría ayudar a expandir la aplicabilidad de modelos de aprendizaje automático para el diseño de proteínas con funciones deseadas ajustando sus interacciones específicas con otras moléculas de cualquier tipo, impactando así efectivamente en la biotecnología y las aplicaciones clínicas
![Arte conceptual sobre la “ingeniería de proteínas” creado por el autor editando generaciones de Dall-E-2 (originalmente usadas aquí).](https://miro.medium.com/v2/resize:fit:640/format:webp/0*I27DneFxRb-r4qej.png)
Después de la revolución iniciada por AlphaFold de Deepmind en la biología estructural, el campo de diseño de proteínas, estrechamente relacionado, ha entrado más recientemente en una nueva era de avances a través del poder del aprendizaje profundo. Sin embargo, los modelos de aprendizaje automático (ML) existentes para el diseño de proteínas han estado limitados en su capacidad para incorporar entidades no proteicas en el proceso de diseño, manejando solo componentes proteicos. En nuestro nuevo preprint, presentamos un nuevo modelo de aprendizaje profundo, “CARBonAra”, que considera cualquier tipo de entorno molecular que rodea a la proteína, y puede diseñar proteínas que se unen a cualquier tipo de molécula: ligandos parecidos a fármacos, cofactores, sustratos, ácidos nucleicos, o incluso otras proteínas. Al aprovechar una arquitectura de transformador geométrico de nuestro modelo ML anterior, CARBonAra predice secuencias de proteínas de andamios de proteínas mientras es consciente de las restricciones impuestas por moléculas de cualquier naturaleza. Este enfoque innovador podría ayudar a expandir la versatilidad de los modelos de aprendizaje automático para diseñar proteínas con funciones deseadas ajustando interacciones específicas con otros componentes celulares de cualquier tipo.
![Esquema que describe lo que este nuevo modelo de aprendizaje profundo puede hacer: calcular probabilidades de aminoácidos para el diseño de proteínas a partir de un andamio de proteínas objetivo rodeado de otra(s) molécula(s) dentro de la distancia de unión (aquí ejemplificado con la molécula verde en la parte superior). Imagen producida por el autor.](https://miro.medium.com/v2/resize:fit:640/format:webp/1*IPwvqPpJc2QtxqGX9m-MSQ.png)
Introducción
Como científicos de datos, estamos constantemente esforzándonos por ampliar los límites de lo posible. El diseño de proteínas, es decir, la creación de nuevas proteínas con funciones y propiedades deseadas, es un área de acción con profundas implicaciones en diversas disciplinas que van desde la biología y la medicina hasta la biotecnología y la ciencia de materiales. Si bien los métodos basados en la física han progresado en encontrar secuencias de aminoácidos que se pliegan en una estructura de proteína dada, las técnicas de aprendizaje profundo han surgido como revolucionarias, mejorando significativamente las tasas de éxito y la versatilidad del diseño.
Recientemente, discutí cuatro modelos modernos de ML para el diseño y la ingeniería de proteínas aquí:
La era del aprendizaje automático para el diseño de proteínas, resumida en cuatro métodos clave
Nunca ha habido tiempos tan emocionantes para la biotecnología de proteínas, gracias a estos métodos y herramientas basados en inteligencia artificial
towardsdatascience.com
- Cerrando la brecha entre la comprensión humana y el aprendizaje automático Inteligencia Artificial Explicable como solución.
- Conoce TRACE Un Nuevo Enfoque de IA para la Estimación Precisa de la Postura y la Forma Humana en 3D con Seguimiento de Coordenadas Globales.
- Haciendo Predicciones Una Guía para Principiantes sobre Regresión Lineal en Python.
Aunque estos modelos han tenido éxito en muchas tareas de diseño de proteínas, están limitados en su capacidad para considerar entidades no proteicas durante el proceso de diseño; simplemente no pueden manejarlas en absoluto, una limitación que afecta su versatilidad y estrecha su alcance de aplicación.
Para superar este desafío, presentamos en nuestro último preprint un nuevo modelo llamado CARBonAra, que revoluciona el diseño de secuencias de proteínas aceptando como entradas andamios de proteínas objetivo acompañados de cualquier tipo de moléculas interactuantes. Aquí está el preprint:
Aprendizaje profundo geométrico consciente del contexto para el diseño de secuencias de proteínas
El diseño y la ingeniería de proteínas están evolucionando a un ritmo sin precedentes aprovechando los avances del aprendizaje profundo. Actual…
www.biorxiv.org
CARBonAra se basa en nuestro Protein Structure Transformer (PeSTo), una arquitectura transformadora geométrica que opera en nubes de puntos de átomos tratando moléculas de manera agnóstica en términos de tipos de átomos y representándolos directamente por nombres elementales. Describí PeSTo con más detalle anteriormente:
Nuevo preprint describe un nuevo transformador geométrico de coordenadas atómicas sin parámetros…
Y funciona tan rápido que incluso puede escanear grandes conjuntos de estructuras de proteínas para buscar aminoácidos propensos a la interacción…
towardsdatascience.com
El núcleo de CARBonAra se basa en el modelo PeSTo, lo que le permite incorporar cualquier tipo de moléculas no proteicas, incluidos ácidos nucleicos, lípidos, iones, pequeños ligandos, cofactores u otras proteínas, en el proceso de diseño de una nueva proteína. Por lo tanto, dado una estructura de proteína de entrada con uno o más ligandos dentro de la distancia de interacción, CARBonAra predice las confianzas de aminoácidos por residuo a partir de cuyos máximos se pueden reconstruir las secuencias de proteínas. Para ello, CARBonAra toma andamios de la estructura principal acompañados de moléculas no proteicas como entradas y genera un espacio de secuencias potenciales que pueden ser aún más acotados por requisitos funcionales o estructurales específicos, como fijar ciertos aminoácidos, por ejemplo, si se sabe que son esenciales para una función dada. CARBonAra ofrece un nivel sin precedentes de flexibilidad y profundidad en el diseño de proteínas al considerar el contexto molecular que rodea a la proteína de interés, lo que significa que puede crear regiones especializadas para la unión de iones, sustratos, ácidos nucleicos, lípidos, otras proteínas, etc.
En nuestras evaluaciones, CARBonAra tiene un rendimiento similar a métodos de última generación como ProteinMPNN y ESM-IF1, mientras demuestra una eficiencia computacional similar, siendo todos bastante rápidos. El modelo logra tasas de recuperación de secuencia bastante similares a las de ProteinMPNN y ESM-IF1 para el diseño de monómeros proteicos y complejos de proteínas, pero además puede manejar diseños de proteínas que implican moléculas no proteicas, que ninguno de los otros métodos puede manejar.
Una de las características notables de CARBonAra es su capacidad para adaptar secuencias para cumplir objetivos específicos mediante la incorporación de varias restricciones. Por ejemplo, puede optimizar la identidad de la secuencia, minimizar la similitud o lograr una baja similitud de secuencia. Además, al utilizar CARBonAra con trayectorias estructurales de simulaciones de dinámica molecular, observamos que podemos mejorar las tasas de recuperación de secuencias, especialmente en casos donde los métodos anteriores mostraron tasas de éxito más bajas.
Para conocer más sobre el método, en particular los detalles de la arquitectura de aprendizaje automático, consulte nuestro preprint en bioRxiv:
Aprendizaje automático geométrico consciente del contexto para el diseño de secuencias de proteínas
El diseño y la ingeniería de proteínas están evolucionando a un ritmo sin precedentes aprovechando los avances del aprendizaje profundo. Actualmente…
www.biorxiv.org
Algunos artículos relacionados sobre IA para la biología estructural
Más de un año de AlphaFold 2 gratis para usar y de la revolución que desencadenó en la biología
Modelado confiable de estructuras de proteínas, predicción de sus interacciones con otras biomoléculas e incluso proteínas…
Zepes.com
Una aplicación web para diseñar proteínas estables mediante el método de consenso, creada con JavaScript, ESMFold…
Mezclando tecnologías y herramientas modernas para un trabajo eficiente para crear una aplicación que implementa el método más simple pero más actual…
javascript.plainenglish.io
“¿ML-Everything”? Equilibrando cantidad y calidad en los métodos de aprendizaje automático para la ciencia
La necesidad de validaciones adecuadas y buenos conjuntos de datos, objetivos y equilibrados, y que las predicciones sean útiles en situaciones realistas…
towardsdatascience.com
Cómo los enormes modelos de lenguaje de proteínas podrían interrumpir la biología estructural
Predicción de estructuras con una precisión similar a AlphaFold pero hasta 60 veces más rápido, y desarrollando nuevos métodos de IA al mismo tiempo…
towardsdatascience.com
www.lucianoabriata.com Escribo y hago fotos sobre todo lo que cae dentro de mi amplia esfera de intereses: naturaleza, ciencia, tecnología, programación, etc.
Apóyame aquí o hazte miembro de Zepes para acceder a todas mis historias (yo recibo una pequeña ganancia sin costo para ti). Suscríbete para recibir mis nuevas historias por correo electrónico. Consulta sobre pequeños trabajos en mi página de servicios aquí. Puedes contactarme aquí.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- El Maestro Gamer de la IA de DeepMind Aprende 26 juegos en 2 horas.
- La amistad con la modalidad única ha terminado, ahora la multi-modalidad es mi mejor amiga CoDi es un modelo de IA que puede lograr la generación de cualquier tipo a cualquier tipo a través de la difusión componible.
- CEO de NVIDIA Los creadores serán potenciados por la IA generativa.
- ¿Está lista su solicitud de LLM para el público?
- Desafíos de la producción en masa de conducción autónoma en China.
- SRGANs Acortando la Brecha Entre Imágenes de Baja y Alta Resolución
- La mochila que resuelve el sesgo de ChatGPT Los modelos de lenguaje Backpack son métodos de inteligencia artificial alternativos para los transformadores.