Publication:
Integrative machine learning for the prediction of high throughput sequencing signals

dc.contributor.advisorDivina, Federico
dc.contributor.advisorMartínez García, Pedro Manuel
dc.contributor.authorVanhaeren, Thomas
dc.date.accessioned2026-01-28T12:22:58Z
dc.date.available2026-01-28T12:22:58Z
dc.date.issued2025
dc.date.submitted2025-09-29
dc.descriptionPrograma de Doctorado en Biotecnología, Ingeniería y Tecnología Química Línea de Investigación: Ingeniería, Ciencia de Datos y Bioinformática Clave Programa: DBI Código Línea: 111
dc.description.abstractLos avances en las tecnologías de secuenciación de alto rendimiento (HTS, por sus siglas en inglés) han permitido la generación de conjuntos de datos a gran escala que capturan diversos aspectos de la regulación del genoma, incluyendo el plegamiento de la cromatina, la unión de factores de transcripción y la formación de híbridos RNA-DNA (bucles R o R-loops). Sin embargo, integrar estos tipos de datos heterogéneos para comprender fenómenos regulatorios complejos sigue siendo un desafío significativo. Esta tesis presenta una serie de enfoques computacionales que emplean aprendizaje automático supervisado para predecir e interpretar eventos regulatorios clave en genomas eucariotas. Se comienza enfocándose en las interacciones de la cromatina, mostrando cómo la combinación de datos de conformación 3D con señales epigenómicas y de unión de factores de transcripción puede revelar características predictivas sólidas. A continuación, se investigan los sitios de unión de CTCF, integrando motivos de secuencia de ADN, descriptores de forma del ADN y múltiples marcas de histonas. En este caso, los métodos de interpretabilidad, incluyendo la importancia de características y enfoques de explicación local, revelan qué señales genómicas impulsan con mayor fuerza las predicciones del modelo. Finalmente, este enfoque integrador se extiende a la formación de bucles R, utilizando predicciones basadas en la secuencia, señales epigenómicas y transcriptómica, que resultan ser las características más predictivas, para clasificar y analizar estructuras híbridas RNA-DNA. De manera crucial, nuestro marco permite la generación de señales genómicas virtuales cuyos patrones reflejan estrechamente los datos experimentales, lo que resalta la robustez y el realismo biológico de los modelos predictivos. Al contrastar el rendimiento entre diferentes tipos celulares y especies, se demuestra que las características genómicas centrales se conservan en gran medida, aunque también persisten factores específicos de cada tipo celular. Esta tesis demuestra que los modelos transparentes basados en datos pueden avanzar en nuestra comprensión de cómo la arquitectura de la cromatina y los estados epigenómicos se intersectan para regular la expresión génica. El trabajo futuro debería abordar las limitaciones identificadas a lo largo de estos estudios. Por ejemplo, ampliar los conjuntos de datos de entrenamiento incluyendo tipos celulares adicionales, tejidos diversos y diferentes especies, aumentaría significativamente la robustez y generalización de los modelos predictivos. Las mejoras en los enfoques computacionales, como el desarrollo e implementación de técnicas de adaptación al dominio, podrían ayudar a manejar mejor la variabilidad entre condiciones biológicas, tipos celulares y especies. Además, perfeccionar los marcos de aprendizaje automático, especialmente integrando métodos modernos de inteligencia artificial explicable, podría mejorar la interpretabilidad biológica, permitiendo una comprensión más clara de las señales regulatorias que impulsan las predicciones de los modelos. Estos esfuerzos facilitarán una comprensión más profunda de los contextos biológicos específicos investigados, como el plegamiento de la cromatina, la especificidad de los sitios de unión de CTCF y la dinámica de los bucles R, mejorando aún más nuestra comprensión de la regulación del genoma a una escala más amplia.
dc.description.sponsorshipUniversidad Pablo de Olavide. Departamento de Deporte e informática
dc.format.mimetypeapplication/pdf
dc.identifier.urihttps://hdl.handle.net/10433/25923
dc.language.isoen
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International
dc.rights.accessRightsopen access
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectInteligencia artificial
dc.subjectAnálisis de datos
dc.subjectGenética molecular
dc.titleIntegrative machine learning for the prediction of high throughput sequencing signals
dc.typedoctoral thesises_ES
dc.type.hasVersionAM
dspace.entity.typePublication
relation.isAdvisorOfPublication82e2c456-c4b8-494e-b3d9-f6c84c8cf9a5
relation.isAdvisorOfPublication066f0a79-1caa-4d35-a44d-87e3d3f6e407
relation.isAdvisorOfPublication.latestForDiscovery82e2c456-c4b8-494e-b3d9-f6c84c8cf9a5
relation.isAuthorOfPublication066f0a79-1caa-4d35-a44d-87e3d3f6e407

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
vanhaeren-thomas-tesis-25-26.pdf
Size:
54.93 MB
Format:
Adobe Portable Document Format

Collections