AlphaFold una solución a un gran desafío de 50 años en biología

AlphaFold solución a desafío de 50 años en biología.

En julio de 2022, lanzamos predicciones de la estructura de proteínas AlphaFold para casi todas las proteínas catalogadas conocidas por la ciencia. Lee el último blog aquí.

Las proteínas son esenciales para la vida, ya que respaldan prácticamente todas sus funciones. Son moléculas complejas y grandes, compuestas por cadenas de aminoácidos, y lo que una proteína hace depende en gran medida de su estructura 3D única. Descubrir en qué formas se pliegan las proteínas se conoce como el “problema del plegamiento de proteínas” y ha sido un gran desafío en biología durante los últimos 50 años. En un importante avance científico, la última versión de nuestro sistema de inteligencia artificial AlphaFold ha sido reconocida como una solución a este gran desafío por los organizadores de la Evaluación Crítica de la Predicción de la Estructura de Proteínas (CASP, por sus siglas en inglés) bienal. Este avance demuestra el impacto que la IA puede tener en el descubrimiento científico y su potencial para acelerar drásticamente el progreso en algunos de los campos más fundamentales que explican y dan forma a nuestro mundo.

La forma de una proteína está estrechamente relacionada con su función, y la capacidad de predecir esta estructura nos permite comprender mejor qué hace y cómo funciona. Muchos de los mayores desafíos del mundo, como el desarrollo de tratamientos para enfermedades o la búsqueda de enzimas que descompongan los desechos industriales, están fundamentalmente vinculados a las proteínas y al papel que desempeñan.

Hemos estado atascados en este problema, cómo se pliegan las proteínas, durante casi 50 años. Ver a DeepMind producir una solución para esto, después de haber trabajado personalmente en este problema durante tanto tiempo y después de tantos obstáculos y dudas, preguntándonos si alguna vez llegaríamos allí, es un momento muy especial. – Profesor John Moult, cofundador y presidente de CASP, Universidad de Maryland

Esto ha sido objeto de una intensa investigación científica durante muchos años, utilizando una variedad de técnicas experimentales para examinar y determinar las estructuras de proteínas, como la resonancia magnética nuclear y la cristalografía de rayos X. Estas técnicas, así como los métodos más nuevos como la criomicroscopía electrónica, dependen de un extenso ensayo y error, que puede llevar años de trabajo laborioso y minucioso por estructura, y requieren el uso de equipos especializados que cuestan millones de dólares.

El “problema del plegamiento de proteínas”

En su discurso de aceptación del Premio Nobel de Química en 1972, Christian Anfinsen postuló famosamente que, en teoría, la secuencia de aminoácidos de una proteína debería determinar completamente su estructura. Esta hipótesis desencadenó una búsqueda de cinco décadas para poder predecir computacionalmente la estructura 3D de una proteína basándose únicamente en su secuencia de aminoácidos 1D, como alternativa complementaria a estos métodos experimentales costosos y que requieren mucho tiempo. Sin embargo, un desafío importante es que el número de formas en las que una proteína podría teóricamente plegarse antes de adoptar su estructura 3D final es astronómico. En 1969, Cyrus Levinthal señaló que llevaría más tiempo que la edad del universo conocido enumerar todas las configuraciones posibles de una proteína típica mediante cálculos de fuerza bruta: Levinthal estimó 10^300 posibles conformaciones para una proteína típica. Sin embargo, en la naturaleza, las proteínas se pliegan espontáneamente, algunas en milisegundos, una dicotomía a veces denominada la paradoja de Levinthal.

Resultados de la evaluación CASP14

En 1994, el profesor John Moult y el profesor Krzysztof Fidelis fundaron CASP como una evaluación ciega bienal para catalizar la investigación, monitorear el progreso y establecer el estado del arte en la predicción de la estructura de proteínas. Es el estándar de oro para evaluar técnicas predictivas y una comunidad global única basada en un esfuerzo compartido. Es crucial destacar que CASP elige estructuras de proteínas que han sido determinadas experimentalmente muy recientemente (algunas aún estaban esperando su determinación en el momento de la evaluación) como objetivos para que los equipos prueben sus métodos de predicción de estructuras; no se publican con anticipación. Los participantes deben predecir a ciegas la estructura de las proteínas, y estas predicciones se comparan posteriormente con los datos experimentales reales cuando están disponibles. Estamos en deuda con los organizadores de CASP y toda la comunidad, especialmente los experimentadores cuyas estructuras permiten esta evaluación rigurosa.

La métrica principal utilizada por CASP para medir la precisión de las predicciones es la Prueba de Distancia Global (GDT), que varía de 0 a 100. En términos simples, GDT se puede pensar aproximadamente como el porcentaje de residuos de aminoácidos (cuentas en la cadena de proteínas) dentro de una distancia umbral desde la posición correcta. Según el profesor Moult, una puntuación de alrededor de 90 GDT se considera informalmente competitiva en comparación con los resultados obtenidos mediante métodos experimentales.

En los resultados de la evaluación CASP14, lanzados hoy, nuestro último sistema AlphaFold logra una puntuación mediana de 92.4 GDT en general para todos los objetivos. Esto significa que nuestras predicciones tienen un error promedio (RMSD) de aproximadamente 1.6 angstroms, que es comparable al ancho de un átomo (o 0.1 de un nanómetro). Incluso para los objetivos de proteínas más difíciles, aquellos en la categoría de modelado libre más desafiante, AlphaFold logra una puntuación mediana de 87.0 GDT (datos disponibles aquí).

Mejoras en la precisión media de las predicciones en la categoría de modelado libre para el mejor equipo en cada CASP, medido como el mejor de 5 GDT.
Dos ejemplos de objetivos de proteínas en la categoría de modelado libre. AlphaFold predice estructuras altamente precisas en comparación con los resultados experimentales.

Estos emocionantes resultados abren el potencial para que los biólogos utilicen la predicción computacional de estructuras como una herramienta fundamental en la investigación científica. Nuestros métodos pueden resultar especialmente útiles para clases importantes de proteínas, como las proteínas de membrana, que son muy difíciles de cristalizar y, por lo tanto, representan un desafío determinar experimentalmente.

Este trabajo computacional representa un avance impresionante en el problema del plegamiento de proteínas, un desafío importante en biología desde hace 50 años. Ha sucedido décadas antes de lo que muchas personas en el campo habrían predicho. Será emocionante ver las muchas formas en que cambiará fundamentalmente la investigación biológica. – Profesor Venki Ramakrishnan, Premio Nobel y Presidente de la Royal Society

Nuestro enfoque para el problema del plegamiento de proteínas

Entramos por primera vez en CASP13 en 2018 con nuestra versión inicial de AlphaFold, que logró la mayor precisión entre los participantes. Después, publicamos un artículo sobre nuestros métodos CASP13 en la revista Nature con el código asociado, lo cual ha inspirado otros trabajos e implementaciones de código abierto desarrolladas por la comunidad. Ahora, las nuevas arquitecturas de aprendizaje profundo que hemos desarrollado han impulsado cambios en nuestros métodos para CASP14, lo que nos ha permitido alcanzar niveles de precisión sin precedentes. Estos métodos se inspiran en los campos de la biología, la física y el aprendizaje automático, así como en el trabajo de muchos científicos en el campo del plegamiento de proteínas en los últimos cincuenta años.

Una proteína plegada se puede pensar como un “grafo espacial”, donde los residuos son los nodos y las aristas conectan los residuos cercanos. Este grafo es importante para comprender las interacciones físicas dentro de las proteínas, así como su historia evolutiva. Para la última versión de AlphaFold, utilizada en CASP14, creamos un sistema de redes neuronales basado en atención, entrenado de principio a fin, que intenta interpretar la estructura de este grafo mientras razona sobre el grafo implícito que está construyendo. Utiliza secuencias relacionadas evolutivamente, alineación múltiple de secuencias (MSA) y una representación de pares de residuos de aminoácidos para refinar este grafo.

Al iterar este proceso, el sistema desarrolla predicciones sólidas sobre la estructura física subyacente de la proteína y es capaz de determinar estructuras altamente precisas en cuestión de días. Además, AlphaFold puede predecir qué partes de cada estructura de proteína predicha son confiables utilizando una medida de confianza interna.

Entrenamos este sistema con datos disponibles públicamente que consisten en aproximadamente 170,000 estructuras de proteínas del banco de datos de proteínas, junto con grandes bases de datos que contienen secuencias de proteínas de estructura desconocida. Se utilizan aproximadamente 16 TPUv3 (que equivalen a 128 núcleos TPUv3 o aproximadamente ~100-200 GPUs) durante unas pocas semanas, una cantidad de cómputo relativamente modesta en el contexto de la mayoría de los modelos de vanguardia utilizados en el aprendizaje automático hoy en día. Al igual que con nuestro sistema AlphaFold CASP13, estamos preparando un artículo sobre nuestro sistema para enviar a una revista revisada por pares en su debido momento.

Una visión general de la arquitectura principal del modelo de redes neuronales. El modelo opera sobre secuencias de proteínas relacionadas evolutivamente, así como sobre pares de residuos de aminoácidos, pasando iterativamente información entre ambas representaciones para generar una estructura.

El potencial para impacto en el mundo real

Cuando DeepMind comenzó hace una década, esperábamos que algún día los avances de la IA ayudaran a servir como plataforma para avanzar en nuestra comprensión de los problemas científicos fundamentales. Ahora, después de 4 años de esfuerzo construyendo AlphaFold, estamos comenzando a ver que esa visión se está haciendo realidad, con implicaciones en áreas como el diseño de medicamentos y la sostenibilidad ambiental.

El profesor Andrei Lupas, Director del Instituto Max Planck de Biología del Desarrollo y evaluador de CASP, nos informó que “los modelos asombrosamente precisos de AlphaFold nos han permitido resolver una estructura de proteína en la que llevábamos casi una década atascados, relanzando nuestro esfuerzo por comprender cómo se transmiten las señales a través de las membranas celulares”.

Somos optimistas sobre el impacto que AlphaFold puede tener en la investigación biológica y en el mundo en general, y emocionados de colaborar con otros para aprender más sobre su potencial en los próximos años. Además de trabajar en un artículo revisado por expertos, estamos explorando la mejor manera de proporcionar un acceso más amplio al sistema de forma escalable.

Mientras tanto, también estamos investigando cómo las predicciones de estructura de proteínas podrían contribuir a nuestra comprensión de enfermedades específicas con un pequeño número de grupos especializados, por ejemplo, ayudando a identificar proteínas que han funcionado incorrectamente y razonar sobre cómo interactúan. Estos conocimientos podrían permitir un trabajo más preciso en el desarrollo de medicamentos, complementando los métodos experimentales existentes para encontrar tratamientos prometedores más rápidamente.

AlphaFold es un avance único en una generación, prediciendo estructuras de proteínas con una velocidad y precisión increíbles. Este salto demuestra cómo los métodos computacionales están listos para transformar la investigación en biología y tienen un gran potencial para acelerar el proceso de descubrimiento de medicamentos. – Arthur D. Levinson, PhD, Fundador y CEO de Calico, Ex Presidente y CEO de Genentech

También hemos visto indicios de que la predicción de estructuras de proteínas podría ser útil en los esfuerzos futuros de respuesta a pandemias, como una de las muchas herramientas desarrolladas por la comunidad científica. A principios de este año, predijimos varias estructuras de proteínas del virus SARS-CoV-2, incluida ORF3a, cuyas estructuras eran desconocidas anteriormente. En CASP14, predijimos la estructura de otra proteína del coronavirus, ORF8 . El trabajo impresionantemente rápido de los experimentadores ha confirmado ahora las estructuras de ORF3a y ORF8 . A pesar de su naturaleza desafiante y de tener muy pocas secuencias relacionadas, logramos un alto grado de precisión en ambas predicciones en comparación con sus estructuras determinadas experimentalmente.

Además de acelerar la comprensión de enfermedades conocidas, estamos entusiasmados con el potencial de estas técnicas para explorar los cientos de millones de proteínas para las cuales aún no tenemos modelos: un vasto terreno de biología desconocida. Dado que el ADN especifica las secuencias de aminoácidos que componen las estructuras de proteínas, la revolución genómica ha hecho posible leer secuencias de proteínas del mundo natural a gran escala, con 180 millones de secuencias de proteínas y contando en la base de datos de Proteínas Universales (UniProt). En contraste, dada la labor experimental necesaria para pasar de la secuencia a la estructura, solo hay alrededor de 170,000 estructuras de proteínas en el Banco de Datos de Proteínas (PDB). Entre las proteínas no determinadas puede haber algunas con funciones nuevas y emocionantes, y al igual que un telescopio nos ayuda a ver más profundamente en el universo desconocido, técnicas como AlphaFold pueden ayudarnos a encontrarlas.

Desbloqueando nuevas posibilidades

AlphaFold es uno de nuestros avances más significativos hasta la fecha, pero como ocurre con toda la investigación científica, aún hay muchas preguntas por responder. No todas las estructuras que predigamos serán perfectas. Aún hay mucho por aprender, incluyendo cómo se forman complejos múltiples de proteínas, cómo interactúan con el ADN, el ARN o las pequeñas moléculas, y cómo podemos determinar la ubicación precisa de todos los grupos laterales de aminoácidos. En colaboración con otros, también tenemos mucho que aprender sobre cómo utilizar mejor estos descubrimientos científicos en el desarrollo de nuevos medicamentos, formas de manejar el medio ambiente y más.

Para todos nosotros que trabajamos en métodos computacionales y de aprendizaje automático en ciencia, sistemas como AlphaFold demuestran el impresionante potencial de la IA como herramienta para ayudar en el descubrimiento fundamental. Así como Anfinsen planteó un desafío mucho más allá del alcance de la ciencia en ese momento, hace 50 años, todavía hay muchos aspectos de nuestro universo que desconocemos. El progreso anunciado hoy nos da aún más confianza en que la IA se convertirá en una de las herramientas más útiles de la humanidad para expandir las fronteras del conocimiento científico, ¡y esperamos con ansias los muchos años de trabajo duro y descubrimiento que nos esperan!

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce al Omnívoro Diseñador Industrial combina el Arte y el OpenUSD para crear Activos 3D para el Entrenamiento de IA

Nota del editor: esta publicación es parte de nuestra serie Conoce al Omnivore, que presenta a creadores y desarrolla...

Inteligencia Artificial

Integración de datos multimodales Cómo la inteligencia artificial está revolucionando la atención del cáncer

Recientemente leí este artículo (enlace) sobre la integración de datos multimodales para la oncología con inteligenci...

Investigación

Un paso hacia pilotos automáticos seguros y confiables para volar.

Un nuevo enfoque basado en inteligencia artificial para controlar robots autónomos satisface los objetivos a menudo c...

Inteligencia Artificial

Decodificando emociones Revelando sentimientos y estados mentales con EmoTX, un novedoso marco de inteligencia artificial impulsado por Transformer

Las películas son una de las expresiones artísticas más importantes de historias y sentimientos. Por ejemplo, en R...