Un catálogo de mutaciones genéticas para ayudar a identificar la causa de las enfermedades.

Catálogo de mutaciones genéticas para identificar causas de enfermedades.

Nueva herramienta de IA clasifica los efectos de 71 millones de mutaciones “missense”

Descubrir las causas raíz de las enfermedades es uno de los mayores desafíos en la genética humana. Con millones de posibles mutaciones y datos experimentales limitados, aún es en gran medida un misterio cuáles podrían dar origen a enfermedades. Este conocimiento es crucial para un diagnóstico más rápido y el desarrollo de tratamientos que salvan vidas.

Hoy, estamos lanzando un catálogo de mutaciones “missense” donde los investigadores pueden aprender más sobre qué efecto pueden tener. Las variantes missense son mutaciones genéticas que pueden afectar la función de las proteínas humanas. En algunos casos, pueden provocar enfermedades como fibrosis quística, anemia de células falciformes o cáncer.

El catálogo AlphaMissense se desarrolló utilizando AlphaMissense, nuestro nuevo modelo de IA que clasifica las variantes missense. En un artículo publicado en Science, mostramos que clasificó el 89% de todas las 71 millones de posibles variantes missense como probablemente patogénicas o probablemente benignas. En contraste, solo el 0.1% ha sido confirmado por expertos humanos.

Las herramientas de IA que pueden predecir con precisión el efecto de las variantes tienen el poder de acelerar la investigación en campos que van desde la biología molecular hasta la genética clínica y estadística. Los experimentos para descubrir mutaciones que causan enfermedades son costosos y laboriosos: cada proteína es única y cada experimento debe diseñarse por separado, lo que puede llevar meses. Mediante el uso de predicciones de IA, los investigadores pueden obtener una vista previa de los resultados para miles de proteínas al mismo tiempo, lo que puede ayudar a priorizar los recursos y acelerar estudios más complejos.

Hemos puesto todas nuestras predicciones a disposición de forma gratuita para la comunidad de investigación y hemos abierto el código del modelo de AlphaMissense.

AlphaMissense predijo la patogenicidad de todas las posibles 71 millones de variantes missense. Clasificó el 89%: predijo que el 57% eran probablemente benignas y el 32% eran probablemente patogénicas.

¿Qué es una variante missense?

Una variante missense es una sustitución de una sola letra en el ADN que resulta en un aminoácido diferente dentro de una proteína. Si piensas en el ADN como un lenguaje, cambiar una letra puede cambiar una palabra y alterar el significado de una oración por completo. En este caso, una sustitución cambia el aminoácido que se traduce, lo que puede afectar la función de una proteína.

Una persona promedio lleva más de 9,000 variantes missense. La mayoría son benignas y tienen poco o ningún efecto, pero otras son patogénicas y pueden interrumpir gravemente la función de la proteína. Las variantes missense se pueden utilizar en el diagnóstico de enfermedades genéticas raras, donde una o incluso una sola variante missense puede causar directamente la enfermedad. También son importantes para estudiar enfermedades complejas, como la diabetes tipo 2, que pueden ser causadas por una combinación de muchos tipos diferentes de cambios genéticos.

Clasificar las variantes missense es un paso importante para comprender cuáles de estos cambios de proteínas podrían dar origen a enfermedades. De más de 4 millones de variantes missense que ya se han observado en humanos, solo el 2% ha sido anotado como patogénico o benigno por expertos, aproximadamente el 0.1% de todas las 71 millones de posibles variantes missense. El resto se considera “variantes de significado desconocido” debido a la falta de datos experimentales o clínicos sobre su impacto. Con AlphaMissense, ahora tenemos la imagen más clara hasta la fecha al clasificar el 89% de las variantes utilizando un umbral que produjo un 90% de precisión en una base de datos de variantes de enfermedades conocidas.

¿Patogénico o benigno? Cómo AlphaMissense clasifica las variantes

AlphaMissense se basa en nuestro modelo revolucionario AlphaFold, que predijo las estructuras de casi todas las proteínas conocidas por la ciencia a partir de sus secuencias de aminoácidos. Nuestro modelo adaptado puede predecir la patogenicidad de las variantes de cambio de sentido que alteran los aminoácidos individuales de las proteínas.

Para entrenar a AlphaMissense, ajustamos finamente AlphaFold en etiquetas que distinguen las variantes observadas en poblaciones humanas y primates estrechamente relacionados. Las variantes comúnmente observadas se consideran benignas, y las variantes nunca observadas se consideran patogénicas. AlphaMissense no predice el cambio en la estructura de la proteína después de la mutación ni otros efectos sobre la estabilidad de la proteína. En cambio, aprovecha las bases de datos de secuencias de proteínas relacionadas y el contexto estructural de las variantes para producir una puntuación entre 0 y 1 que aproxima la probabilidad de que una variante sea patogénica. La puntuación continua permite a los usuarios elegir un umbral para clasificar las variantes como patogénicas o benignas que se ajuste a sus requisitos de precisión.

Una ilustración de cómo AlphaMissense clasifica las variantes de cambio de sentido humanas. Se introduce una variante de cambio de sentido, y el sistema de inteligencia artificial la califica como patogénica o probablemente benigna. AlphaMissense combina el contexto estructural y la modelización del lenguaje proteico, y se ajusta finamente a las bases de datos de frecuencia de las poblaciones de variantes humanas y primates.

AlphaMissense logra predicciones de última generación en una amplia gama de puntos de referencia genéticos y experimentales, todo sin entrenamiento explícito en tales datos. Nuestra herramienta superó a otros métodos computacionales al clasificar variantes de ClinVar, un archivo público de datos sobre la relación entre las variantes humanas y las enfermedades. Nuestro modelo también fue el método más preciso para predecir los resultados de los laboratorios, lo que demuestra que es consistente con diferentes formas de medir la patogenicidad.

AlphaMissense supera a otros métodos computacionales en la predicción de los efectos de las variantes de cambio de sentido. Izquierda: Comparación del rendimiento de AlphaMissense y otros métodos en la clasificación de variantes del archivo público de ClinVar. Los métodos mostrados en gris fueron entrenados directamente en ClinVar y su rendimiento en esta prueba es probablemente sobreestimado ya que algunas de sus variantes de entrenamiento están contenidas en este conjunto de pruebas. Derecha: Gráfico que compara el rendimiento de AlphaMissense y otros métodos en la predicción de medidas de experimentos biológicos.

Construyendo un recurso comunitario

AlphaMissense se basa en AlphaFold para ampliar la comprensión mundial de las proteínas. Hace un año, lanzamos 200 millones de estructuras de proteínas predichas utilizando AlphaFold, lo cual está ayudando a millones de científicos de todo el mundo a acelerar la investigación y abrir el camino hacia nuevos descubrimientos. Esperamos ver cómo AlphaMissense puede ayudar a resolver preguntas abiertas en el corazón de la genómica y en toda la ciencia biológica.

Hemos puesto las predicciones de AlphaMissense de forma gratuita a disposición de la comunidad científica. Junto con EMBL-EBI, también las estamos haciendo más utilizables para los investigadores a través del Ensembl Variant Effect Predictor.

Además de nuestra tabla de búsqueda de mutaciones de cambio de sentido, hemos compartido las predicciones ampliadas de todas las posibles 216 millones de sustituciones de secuencia de aminoácidos individuales en más de 19,000 proteínas humanas. También hemos incluido la predicción promedio para cada gen, que es similar a medir la restricción evolutiva de un gen, lo cual indica qué tan esencial es el gen para la supervivencia del organismo.

Ejemplos de predicciones de AlphaMissense superpuestas en estructuras predichas por AlphaFold (rojo=predicho como patogénico, azul=predicho como benigno, gris=incertidumbre). Los puntos rojos representan variantes patogénicas de cambio de sentido conocidas, los puntos azules representan variantes benignas conocidas de la base de datos ClinVar. Izquierda: Proteína HBB. Las variantes en esta proteína pueden causar anemia de células falciformes. Derecha: Proteína CFTR. Las variantes en esta proteína pueden causar fibrosis quística.

Acelerando la investigación en enfermedades genéticas

Un paso clave para traducir esta investigación es colaborar con la comunidad científica. Hemos estado trabajando en colaboración con Genomics England para explorar cómo estas predicciones podrían ayudar a estudiar la genética de las enfermedades raras. Genomics England cruzó las conclusiones de AlphaMissense con datos de patogenicidad de variantes previamente agregados con participantes humanos. Su evaluación confirmó que nuestras predicciones son precisas y consistentes, proporcionando otro punto de referencia del mundo real para AlphaMissense.

Aunque nuestras predicciones no están diseñadas para ser utilizadas directamente en la clínica, y deben ser interpretadas junto con otras fuentes de evidencia, este trabajo tiene el potencial de mejorar el diagnóstico de trastornos genéticos raros y ayudar a descubrir nuevos genes causantes de enfermedades.

En última instancia, esperamos que AlphaMissense, junto con otras herramientas, permita a los investigadores comprender mejor las enfermedades y desarrollar nuevos tratamientos que salven vidas.

Obtenga más información sobre AlphaMissense:

Lea nuestro artículo en Science: https://www.science.org/doi/10.1126/science.adg7492

Descargue el complemento Ensembl Variant Effect Predictor: https://www.ensembl.org/info/docs/tools/vep/script/vep_plugins.html

Descargue el código de AlphaMissense: https://github.com/deepmind/alphamissense

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Un caso que rima con Microsoft

La lección predominante del caso de Microsoft, según los abogados antimonopolio, es que el escrutinio de Washington p...

Inteligencia Artificial

Conoce a Baichuan 2 Una serie de modelos de lenguaje multilingües a gran escala que contienen 7B y 13B de parámetros, entrenados desde cero, con 2.6T tokens.

Los modelos de lenguaje grandes han experimentado avances significativos y alentadores en los últimos años. Los model...

Inteligencia Artificial

La Casa Blanca propone un programa de ciberseguridad para hogares inteligentes

El objetivo de la nueva certificación es ayudar a los consumidores a tomar decisiones.

Inteligencia Artificial

Mejora Amazon Lex con características de preguntas frecuentes conversacionales utilizando LLMs

Amazon Lex es un servicio que te permite construir de manera rápida y sencilla bots conversacionales (chatbots), agen...

Inteligencia Artificial

Detecta cualquier cosa que desees con UniDetector

El aprendizaje profundo y la IA han avanzado notablemente en los últimos años, especialmente en los modelos de detecc...

Inteligencia Artificial

Automatiza la preetiquetado de PDFs para Amazon Comprehend

Amazon Comprehend es un servicio de procesamiento del lenguaje natural (NLP, por sus siglas en inglés) que proporcion...