Integrative machine learning for the prediction of high throughput sequencing signals

Vanhaeren, Thomas

Publication:
Integrative machine learning for the prediction of high throughput sequencing signals

dc.contributor.advisor	Divina, Federico
dc.contributor.advisor	Martínez García, Pedro Manuel
dc.contributor.author	Vanhaeren, Thomas
dc.date.accessioned	2026-01-28T12:22:58Z
dc.date.available	2026-01-28T12:22:58Z
dc.date.issued	2025
dc.date.submitted	2025-09-29
dc.description	Programa de Doctorado en Biotecnología, Ingeniería y Tecnología Química Línea de Investigación: Ingeniería, Ciencia de Datos y Bioinformática Clave Programa: DBI Código Línea: 111
dc.description.abstract	Los avances en las tecnologías de secuenciación de alto rendimiento (HTS, por sus siglas en inglés) han permitido la generación de conjuntos de datos a gran escala que capturan diversos aspectos de la regulación del genoma, incluyendo el plegamiento de la cromatina, la unión de factores de transcripción y la formación de híbridos RNA-DNA (bucles R o R-loops). Sin embargo, integrar estos tipos de datos heterogéneos para comprender fenómenos regulatorios complejos sigue siendo un desafío significativo. Esta tesis presenta una serie de enfoques computacionales que emplean aprendizaje automático supervisado para predecir e interpretar eventos regulatorios clave en genomas eucariotas. Se comienza enfocándose en las interacciones de la cromatina, mostrando cómo la combinación de datos de conformación 3D con señales epigenómicas y de unión de factores de transcripción puede revelar características predictivas sólidas. A continuación, se investigan los sitios de unión de CTCF, integrando motivos de secuencia de ADN, descriptores de forma del ADN y múltiples marcas de histonas. En este caso, los métodos de interpretabilidad, incluyendo la importancia de características y enfoques de explicación local, revelan qué señales genómicas impulsan con mayor fuerza las predicciones del modelo. Finalmente, este enfoque integrador se extiende a la formación de bucles R, utilizando predicciones basadas en la secuencia, señales epigenómicas y transcriptómica, que resultan ser las características más predictivas, para clasificar y analizar estructuras híbridas RNA-DNA. De manera crucial, nuestro marco permite la generación de señales genómicas virtuales cuyos patrones reflejan estrechamente los datos experimentales, lo que resalta la robustez y el realismo biológico de los modelos predictivos. Al contrastar el rendimiento entre diferentes tipos celulares y especies, se demuestra que las características genómicas centrales se conservan en gran medida, aunque también persisten factores específicos de cada tipo celular. Esta tesis demuestra que los modelos transparentes basados en datos pueden avanzar en nuestra comprensión de cómo la arquitectura de la cromatina y los estados epigenómicos se intersectan para regular la expresión génica. El trabajo futuro debería abordar las limitaciones identificadas a lo largo de estos estudios. Por ejemplo, ampliar los conjuntos de datos de entrenamiento incluyendo tipos celulares adicionales, tejidos diversos y diferentes especies, aumentaría significativamente la robustez y generalización de los modelos predictivos. Las mejoras en los enfoques computacionales, como el desarrollo e implementación de técnicas de adaptación al dominio, podrían ayudar a manejar mejor la variabilidad entre condiciones biológicas, tipos celulares y especies. Además, perfeccionar los marcos de aprendizaje automático, especialmente integrando métodos modernos de inteligencia artificial explicable, podría mejorar la interpretabilidad biológica, permitiendo una comprensión más clara de las señales regulatorias que impulsan las predicciones de los modelos. Estos esfuerzos facilitarán una comprensión más profunda de los contextos biológicos específicos investigados, como el plegamiento de la cromatina, la especificidad de los sitios de unión de CTCF y la dinámica de los bucles R, mejorando aún más nuestra comprensión de la regulación del genoma a una escala más amplia.
dc.description.sponsorship	Universidad Pablo de Olavide. Departamento de Deporte e informática
dc.format.mimetype	application/pdf
dc.identifier.uri	https://hdl.handle.net/10433/25923
dc.language.iso	en
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International
dc.rights.accessRights	open access
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Inteligencia artificial
dc.subject	Análisis de datos
dc.subject	Genética molecular
dc.title	Integrative machine learning for the prediction of high throughput sequencing signals
dc.type	doctoral thesis	es_ES
dc.type.hasVersion	AM
dspace.entity.type	Publication
relation.isAdvisorOfPublication	82e2c456-c4b8-494e-b3d9-f6c84c8cf9a5
relation.isAdvisorOfPublication	066f0a79-1caa-4d35-a44d-87e3d3f6e407
relation.isAdvisorOfPublication.latestForDiscovery	82e2c456-c4b8-494e-b3d9-f6c84c8cf9a5
relation.isAuthorOfPublication	066f0a79-1caa-4d35-a44d-87e3d3f6e407