Nuestro proyecto "Predicción de la diabetes tipo 2 mediante aprendizaje profundo y genómica" reúne herramientas modernas de aprendizaje profundo y avanzados conjuntos de datos genómicos humanos para predecir la diabetes tipo 2 en individuos y comprender la etiología de la enfermedad. Buscamos utilizar redes neuronales de aprendizaje profundo que puedan modelar datos multidimensionales sobre variantes genéticas e individuos para mejorar la predicción de la diabetes tipo 2, como un paso al frente para hacer realidad la medicina preventiva y de precisión, y para comprender el papel que desempeñan las interacciones gen-gen y las interacciones gen-ambiente en la manifestación de la diabetes tipo 2.
Proponemos evaluar el rendimiento de dos arquitecturas de aprendizaje profundo para la predicción de la diabetes tipo 2: el perceptrón multicapa básico y la arquitectura de transformador recientemente desarrollada. Las redes de transformadores altamente sofisticadas tienen "atención suave" que les permite captar un orden complejo en la entrada (como está presente en los datos genómicos) o usar relaciones entre diferentes entradas (tratándolas como un gráfico) cuando intentan clasificar a los individuos por estado de enfermedad /predisposición.
Utilizaremos el gran conjunto de datos genómicos y fenotípicos del Biobanco del Reino Unido (UK Biobank) recientemente disponible para entrenar y probar nuestras redes neuronales de aprendizaje profundo para predecir la diabetes tipo 2, y evaluar la promesa de nuestro modelo para la predicción y detección de riesgos. También evaluaremos el impacto de usar sólo factores genéticos versus usar factores genéticos y ambientales en el desempeño de predicción de nuestro modelo. Esto arrojará luz sobre la importancia de los factores genéticos y ambientales y su interacción en la predisposición a enfermedades.
La diabetes tipo 2 es una epidemia mundial, peligrosa y creciente (Diabetes Fact sheet N°312 2013). A pesar de esto, existe una amplia evidencia que sugiere que la enfermedad es prevenible y reversible a través del estilo de vida, la dieta y las intervenciones médicas si estos cambios se realizan a tiempo (Haw et al. 2017). Nuestro proyecto tiene como objetivo generar modelos altamente predictivos de diabetes tipo 2 utilizando aprendizaje profundo y genómica, lo que permitiría detectar la predisposición a la diabetes incluso antes de que se desarrolle la enfermedad, y aumentaría las probabilidades de prevención exitosa o retraso de la enfermedad mediante intervenciones médicas y de estilo de vida.
El proyecto consta de 3 fases:
- Diseñar, entrenar y probar una red neuronal de tipo perceptrón multicapa para la diabetes tipo 2 (T2D) utilizando el Biobanco del Reino Unido (UK Biobank).
- Investigar el uso de la arquitectura de transformador para mejorar la predicción de la T2D.
- Incorporar otra información sobre las personas dentro del transformador para mejorar la predicción de la diabetes tipo 2 y comprender el papel de las interacciones entre genes y medio ambiente.
Este proyecto estará a cargo de mi estudiante de doctorado María José Palma. Dos estudiantes de licenciatura, que ya forman parte del proyecto, Axel Zagal Norman y Dante Torres Sepúlveda, ayudarán en el entrenamiento de los modelos de redes neuronales profundas. El proyecto será supervisado en colaboración con el Dr. Carlos Francisco Méndez Cruz del Centro de Ciencias Genómicas de la UNAM quien tiene una amplia experiencia en el desarrollo y entrenamiento de modelos de aprendizaje profundo para genómica.
Este proyecto se desarrollará y llevará a cabo en la recién desarrollada Plataforma de Análisis de Investigación de Biobancos del Reino Unido (UK Biobank Research Analysis Platform), donde se aloja el conjunto de datos del Biobanco del Reino Unido, que da acceso a 500,000 individuos genotipados y profundamente fenotipados, y recursos computacionales de alto rendimiento en un solo lugar para estudiantes e investigadores. El conjunto de datos tiene una tarifa de acceso y la ejecución de análisis computacionales en la plataforma tiene tarifas de computación, que constituyen la mayor parte de los fondos solicitados para desarrollar y llevar a cabo el proyecto.
Este proyecto contribuirá con el primer modelo de red neuronal profunda entrenado que incorpora información genética y de historia de vida / ambiental para predecir la manifestación de la diabetes tipo 2. Esto será extremadamente valioso para la medicina predictiva y de precisión, y se lanzará como software de código abierto.
Este proyecto será un avance de investigación hacia el cumplimiento de la promesa de la inteligencia artificial en genómica para la medicina de precisión.
Este proyecto es principalmente el proyecto de investigación de la estudiante de doctorado María José Palma quien actualmente se inscribe para hacer su doctorado en el programa de Ciencias Biomédicas de la UNAM bajo mi supervisión, por lo que dará como resultado la formación de recursos humanos. Dos estudiantes de la Licenciatura en Ciencias Genómicas de la UNAM también ayudarán a implementar los análisis en este proyecto, ayudando a capacitar a estudiantes mexicanos en estas innovadoras técnicas de análisis de datos.