Prediciendo la expresión génica con IA

'Predicción de expresión génica con IA'

Basado en Transformers, nuestra nueva arquitectura Enformer avanza la investigación genética al mejorar la capacidad de predecir cómo la secuencia de ADN influye en la expresión génica.

Cuando el Proyecto del Genoma Humano logró mapear la secuencia de ADN del genoma humano, la comunidad internacional de investigación se emocionó por la oportunidad de comprender mejor las instrucciones genéticas que influyen en la salud y el desarrollo humano. El ADN lleva la información genética que determina desde el color de los ojos hasta la susceptibilidad a ciertas enfermedades y trastornos. Las aproximadamente 20,000 secciones de ADN en el cuerpo humano conocidas como genes contienen instrucciones sobre la secuencia de aminoácidos de las proteínas, que realizan numerosas funciones esenciales en nuestras células. Sin embargo, estos genes representan menos del 2% del genoma. Las parejas de bases restantes, que representan el 98% de las 3 mil millones de “letras” del genoma, se llaman “no codificantes” y contienen instrucciones menos comprendidas sobre cuándo y dónde se deben producir o expresar los genes en el cuerpo humano. En DeepMind, creemos que la IA puede desbloquear una comprensión más profunda de dominios tan complejos, acelerar el progreso científico y ofrecer beneficios potenciales para la salud humana.

Hoy Nature Methods publicó “Predicción efectiva de la expresión génica a partir de la secuencia mediante la integración de interacciones a larga distancia” (compartido por primera vez como un preprint en bioRxiv), en el cual nosotros, en colaboración con nuestros colegas de Alphabet en Calico, presentamos una arquitectura de red neuronal llamada Enformer que condujo a una gran precisión en la predicción de la expresión génica a partir de la secuencia de ADN. Para avanzar en el estudio de la regulación génica y los factores causales en las enfermedades, también pusimos nuestro modelo y sus predicciones iniciales de variantes genéticas comunes a disposición de manera abierta aquí.

Trabajos anteriores sobre la expresión génica han utilizado típicamente redes neuronales convolucionales como bloques fundamentales, pero sus limitaciones para modelar la influencia de los potenciadores distales en la expresión génica han obstaculizado su precisión y aplicación. Nuestras exploraciones iniciales se basaron en Basenji2, que podía predecir la actividad regulatoria a partir de secuencias de ADN relativamente largas de 40,000 pares de bases. Motivados por este trabajo y el conocimiento de que los elementos reguladores del ADN pueden influir en la expresión a distancias mayores, vimos la necesidad de un cambio arquitectónico fundamental para capturar secuencias largas.

Desarrollamos un nuevo modelo basado en Transformers, comunes en el procesamiento de lenguaje natural, para aprovechar mecanismos de autoatención que podrían integrar un contexto de ADN mucho mayor. Debido a que los Transformers son ideales para examinar largos pasajes de texto, los adaptamos para “leer” secuencias de ADN enormemente extendidas. Al procesar eficazmente secuencias para considerar interacciones a distancias que son más de 5 veces (es decir, 200,000 pares de bases) la longitud de los métodos anteriores, nuestra arquitectura puede modelar la influencia de importantes elementos reguladores llamados potenciadores en la expresión génica desde lugares más alejados dentro de la secuencia de ADN.

Enformer está entrenado para predecir datos genómicos funcionales, incluida la expresión génica, a partir de 200,000 pares de bases de ADN de entrada. El ejemplo anterior muestra tres de más de 5,000 posibles rastros genómicos. Al utilizar módulos de transformador, que recopilan información en toda la secuencia mediante atención, podemos considerar de manera efectiva secuencias de entrada mucho más largas en comparación con modelos anteriores.

Para comprender mejor cómo interpreta Enformer la secuencia de ADN para llegar a predicciones más precisas, utilizamos puntajes de contribución para resaltar qué partes de la secuencia de entrada fueron más influyentes para la predicción. Coincidiendo con la intuición biológica, observamos que el modelo prestaba atención a los potenciadores incluso si estaban ubicados a más de 50,000 pares de bases del gen. Predecir qué potenciadores regulan qué genes sigue siendo un problema sin resolver importante en la genómica, por lo que nos alegró ver que los puntajes de contribución de Enformer se desempeñaron de manera comparable con los métodos existentes desarrollados específicamente para esta tarea (utilizando datos experimentales como entrada). Enformer también aprendió sobre elementos aislantes, que separan dos regiones de ADN reguladas de manera independiente.

Enformer presta atención a regiones relevantes de ADN regulatorio (mostradas en azul) llamadas potenciadores (cajas grises) incluso a distancias de más de 20,000 pares de bases del gen gracias a un campo receptivo más expansivo.

Aunque ahora es posible estudiar el ADN de un organismo en su totalidad, se requieren experimentos complejos para comprender el genoma. A pesar de un enorme esfuerzo experimental, la gran mayoría del control del ADN sobre la expresión génica sigue siendo un misterio. Con IA, podemos explorar nuevas posibilidades para encontrar patrones en el genoma y proporcionar hipótesis mecanísticas sobre los cambios en la secuencia. Similar a un corrector ortográfico, Enformer comprende parcialmente el vocabulario de la secuencia de ADN y puede resaltar las ediciones que podrían conducir a una expresión génica alterada.

La principal aplicación de este nuevo modelo es predecir qué cambios en las letras del ADN, también llamados variantes genéticas, alterarán la expresión del gen. En comparación con modelos anteriores, Enformer es significativamente más preciso para predecir los efectos de las variantes en la expresión génica, tanto en el caso de variantes genéticas naturales como en variantes sintéticas que alteran secuencias regulatorias importantes. Esta propiedad es útil para interpretar el creciente número de variantes asociadas a enfermedades obtenidas mediante estudios de asociación a nivel genómico. Las variantes asociadas con enfermedades genéticas complejas se encuentran predominantemente en la región no codificante del genoma, probablemente causando enfermedades mediante la alteración de la expresión génica. Pero debido a las correlaciones inherentes entre las variantes, muchas de estas variantes asociadas a enfermedades solo están correlacionadas de manera espuria en lugar de ser causales. Las herramientas computacionales pueden ayudar ahora a distinguir las asociaciones verdaderas de los falsos positivos.

<img alt="La variante rs11644125, ubicada en el gen de respuesta inmune NLRC5, se asocia con niveles más bajos de monocitos y linfocitos en los glóbulos blancos. Al mutar sistemáticamente cada posición que rodea la variante y predecir el cambio resultante en la expresión génica de NLRC5 (mostrado como altura de letras), observamos que la variante lleva a una expresión más baja de NLRC5 en general y modula el motivo de unión conocido de un factor de transcripción llamado SP1. Por lo tanto, las predicciones de Enformer sugieren que el mecanismo biológico detrás del efecto de esta variante en el recuento de glóbulos blancos es una expresión más baja del gen NLRC5 debido a una unión perturbada de SP1.

Estamos lejos de resolver los enigmas que quedan en el genoma humano, pero Enformer es un paso adelante en la comprensión de la complejidad de las secuencias genómicas. Si estás interesado en utilizar IA para explorar cómo funcionan los procesos celulares fundamentales, cómo se codifican en la secuencia de ADN y cómo construir nuevos sistemas para avanzar en la genómica y nuestra comprensión de las enfermedades, estamos contratando. También esperamos ampliar nuestras colaboraciones con otros investigadores y organizaciones ansiosos por explorar modelos computacionales para ayudar a resolver las preguntas abiertas en el corazón de la genómica.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

vLLM PagedAttention para una inferencia LLM 24 veces más rápida

En este artículo, explico qué es PagedAttention y por qué acelera significativamente la decodificación.

Inteligencia Artificial

¿Cómo elimina el nuevo paradigma de Google AI el costo de composición en algoritmos de aprendizaje automático de múltiples pasos para una mayor utilidad?

En el panorama actual impulsado por datos, garantizar la privacidad al tiempo que se maximiza la utilidad de los algo...

Inteligencia Artificial

Conoce a Watsonx Code Assistant de IBM Revolucionando la codificación empresarial con asistencia impulsada por IA

En el mundo actual de desarrollo de software, uno de los desafíos clave que enfrentan las empresas es la necesidad de...

Inteligencia Artificial

Investigadores de DeepMind redefinen el Aprendizaje Reforzado Continuo con una precisa definición matemática

Los avances recientes en el aprendizaje profundo por refuerzo (RL) han demostrado un rendimiento sobrehumano por part...

Inteligencia Artificial

Morphobots para Marte Caltech desarrolla un robot todo terreno como candidato para una misión de la NASA

Los académicos Mory Gharib y Alireza Ramezani en 2020 estaban pensando en un robot transformador que ahora está tenie...

Inteligencia Artificial

Este boletín de inteligencia artificial es todo lo que necesitas #62

Esta semana hemos estado observando el desarrollo de modelos de codificación en META, así como las nuevas capacidades...