Prediciendo la expresión génica con IA
'Predicción de expresión génica con IA'
Basado en Transformers, nuestra nueva arquitectura Enformer avanza la investigación genética al mejorar la capacidad de predecir cómo la secuencia de ADN influye en la expresión génica.
Cuando el Proyecto del Genoma Humano logró mapear la secuencia de ADN del genoma humano, la comunidad internacional de investigación se emocionó por la oportunidad de comprender mejor las instrucciones genéticas que influyen en la salud y el desarrollo humano. El ADN lleva la información genética que determina desde el color de los ojos hasta la susceptibilidad a ciertas enfermedades y trastornos. Las aproximadamente 20,000 secciones de ADN en el cuerpo humano conocidas como genes contienen instrucciones sobre la secuencia de aminoácidos de las proteínas, que realizan numerosas funciones esenciales en nuestras células. Sin embargo, estos genes representan menos del 2% del genoma. Las parejas de bases restantes, que representan el 98% de las 3 mil millones de “letras” del genoma, se llaman “no codificantes” y contienen instrucciones menos comprendidas sobre cuándo y dónde se deben producir o expresar los genes en el cuerpo humano. En DeepMind, creemos que la IA puede desbloquear una comprensión más profunda de dominios tan complejos, acelerar el progreso científico y ofrecer beneficios potenciales para la salud humana.
Hoy Nature Methods publicó “Predicción efectiva de la expresión génica a partir de la secuencia mediante la integración de interacciones a larga distancia” (compartido por primera vez como un preprint en bioRxiv), en el cual nosotros, en colaboración con nuestros colegas de Alphabet en Calico, presentamos una arquitectura de red neuronal llamada Enformer que condujo a una gran precisión en la predicción de la expresión génica a partir de la secuencia de ADN. Para avanzar en el estudio de la regulación génica y los factores causales en las enfermedades, también pusimos nuestro modelo y sus predicciones iniciales de variantes genéticas comunes a disposición de manera abierta aquí.
Trabajos anteriores sobre la expresión génica han utilizado típicamente redes neuronales convolucionales como bloques fundamentales, pero sus limitaciones para modelar la influencia de los potenciadores distales en la expresión génica han obstaculizado su precisión y aplicación. Nuestras exploraciones iniciales se basaron en Basenji2, que podía predecir la actividad regulatoria a partir de secuencias de ADN relativamente largas de 40,000 pares de bases. Motivados por este trabajo y el conocimiento de que los elementos reguladores del ADN pueden influir en la expresión a distancias mayores, vimos la necesidad de un cambio arquitectónico fundamental para capturar secuencias largas.
- Apilando nuestro camino hacia robots más generales
- Desafíos del mundo real para la IA Generalizada (AGI)
- Sobre la Expresividad de las Recompensas de Markov
Desarrollamos un nuevo modelo basado en Transformers, comunes en el procesamiento de lenguaje natural, para aprovechar mecanismos de autoatención que podrían integrar un contexto de ADN mucho mayor. Debido a que los Transformers son ideales para examinar largos pasajes de texto, los adaptamos para “leer” secuencias de ADN enormemente extendidas. Al procesar eficazmente secuencias para considerar interacciones a distancias que son más de 5 veces (es decir, 200,000 pares de bases) la longitud de los métodos anteriores, nuestra arquitectura puede modelar la influencia de importantes elementos reguladores llamados potenciadores en la expresión génica desde lugares más alejados dentro de la secuencia de ADN.
Para comprender mejor cómo interpreta Enformer la secuencia de ADN para llegar a predicciones más precisas, utilizamos puntajes de contribución para resaltar qué partes de la secuencia de entrada fueron más influyentes para la predicción. Coincidiendo con la intuición biológica, observamos que el modelo prestaba atención a los potenciadores incluso si estaban ubicados a más de 50,000 pares de bases del gen. Predecir qué potenciadores regulan qué genes sigue siendo un problema sin resolver importante en la genómica, por lo que nos alegró ver que los puntajes de contribución de Enformer se desempeñaron de manera comparable con los métodos existentes desarrollados específicamente para esta tarea (utilizando datos experimentales como entrada). Enformer también aprendió sobre elementos aislantes, que separan dos regiones de ADN reguladas de manera independiente.
Aunque ahora es posible estudiar el ADN de un organismo en su totalidad, se requieren experimentos complejos para comprender el genoma. A pesar de un enorme esfuerzo experimental, la gran mayoría del control del ADN sobre la expresión génica sigue siendo un misterio. Con IA, podemos explorar nuevas posibilidades para encontrar patrones en el genoma y proporcionar hipótesis mecanísticas sobre los cambios en la secuencia. Similar a un corrector ortográfico, Enformer comprende parcialmente el vocabulario de la secuencia de ADN y puede resaltar las ediciones que podrían conducir a una expresión génica alterada.
La principal aplicación de este nuevo modelo es predecir qué cambios en las letras del ADN, también llamados variantes genéticas, alterarán la expresión del gen. En comparación con modelos anteriores, Enformer es significativamente más preciso para predecir los efectos de las variantes en la expresión génica, tanto en el caso de variantes genéticas naturales como en variantes sintéticas que alteran secuencias regulatorias importantes. Esta propiedad es útil para interpretar el creciente número de variantes asociadas a enfermedades obtenidas mediante estudios de asociación a nivel genómico. Las variantes asociadas con enfermedades genéticas complejas se encuentran predominantemente en la región no codificante del genoma, probablemente causando enfermedades mediante la alteración de la expresión génica. Pero debido a las correlaciones inherentes entre las variantes, muchas de estas variantes asociadas a enfermedades solo están correlacionadas de manera espuria en lugar de ser causales. Las herramientas computacionales pueden ayudar ahora a distinguir las asociaciones verdaderas de los falsos positivos.
Estamos lejos de resolver los enigmas que quedan en el genoma humano, pero Enformer es un paso adelante en la comprensión de la complejidad de las secuencias genómicas. Si estás interesado en utilizar IA para explorar cómo funcionan los procesos celulares fundamentales, cómo se codifican en la secuencia de ADN y cómo construir nuevos sistemas para avanzar en la genómica y nuestra comprensión de las enfermedades, estamos contratando. También esperamos ampliar nuestras colaboraciones con otros investigadores y organizaciones ansiosos por explorar modelos computacionales para ayudar a resolver las preguntas abiertas en el corazón de la genómica.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Mejorando modelos de lenguaje mediante la recuperación de billones de tokens.
- Modelado del lenguaje a gran escala Gopher, consideraciones éticas y recuperación
- La normatividad espuria mejora el aprendizaje del comportamiento de cumplimiento y aplicación en agentes artificiales.
- Modelos de Lenguaje de Red Teaming con Modelos de Lenguaje
- El primer paso de MuZero de la investigación al mundo real.
- Acelerando la ciencia de la fusión a través del control de plasma aprendido
- Prediciendo el pasado con Ithaca