Publication: Integrative machine learning for the prediction of high throughput sequencing signals
| dc.contributor.advisor | Divina, Federico | |
| dc.contributor.advisor | Martínez García, Pedro Manuel | |
| dc.contributor.author | Vanhaeren, Thomas | |
| dc.date.accessioned | 2026-01-28T12:22:58Z | |
| dc.date.available | 2026-01-28T12:22:58Z | |
| dc.date.issued | 2025 | |
| dc.date.submitted | 2025-09-29 | |
| dc.description | Programa de Doctorado en Biotecnología, Ingeniería y Tecnología Química Línea de Investigación: Ingeniería, Ciencia de Datos y Bioinformática Clave Programa: DBI Código Línea: 111 | |
| dc.description.abstract | Los avances en las tecnologías de secuenciación de alto rendimiento (HTS, por sus siglas en inglés) han permitido la generación de conjuntos de datos a gran escala que capturan diversos aspectos de la regulación del genoma, incluyendo el plegamiento de la cromatina, la unión de factores de transcripción y la formación de híbridos RNA-DNA (bucles R o R-loops). Sin embargo, integrar estos tipos de datos heterogéneos para comprender fenómenos regulatorios complejos sigue siendo un desafío significativo. Esta tesis presenta una serie de enfoques computacionales que emplean aprendizaje automático supervisado para predecir e interpretar eventos regulatorios clave en genomas eucariotas. Se comienza enfocándose en las interacciones de la cromatina, mostrando cómo la combinación de datos de conformación 3D con señales epigenómicas y de unión de factores de transcripción puede revelar características predictivas sólidas. A continuación, se investigan los sitios de unión de CTCF, integrando motivos de secuencia de ADN, descriptores de forma del ADN y múltiples marcas de histonas. En este caso, los métodos de interpretabilidad, incluyendo la importancia de características y enfoques de explicación local, revelan qué señales genómicas impulsan con mayor fuerza las predicciones del modelo. Finalmente, este enfoque integrador se extiende a la formación de bucles R, utilizando predicciones basadas en la secuencia, señales epigenómicas y transcriptómica, que resultan ser las características más predictivas, para clasificar y analizar estructuras híbridas RNA-DNA. De manera crucial, nuestro marco permite la generación de señales genómicas virtuales cuyos patrones reflejan estrechamente los datos experimentales, lo que resalta la robustez y el realismo biológico de los modelos predictivos. Al contrastar el rendimiento entre diferentes tipos celulares y especies, se demuestra que las características genómicas centrales se conservan en gran medida, aunque también persisten factores específicos de cada tipo celular. Esta tesis demuestra que los modelos transparentes basados en datos pueden avanzar en nuestra comprensión de cómo la arquitectura de la cromatina y los estados epigenómicos se intersectan para regular la expresión génica. El trabajo futuro debería abordar las limitaciones identificadas a lo largo de estos estudios. Por ejemplo, ampliar los conjuntos de datos de entrenamiento incluyendo tipos celulares adicionales, tejidos diversos y diferentes especies, aumentaría significativamente la robustez y generalización de los modelos predictivos. Las mejoras en los enfoques computacionales, como el desarrollo e implementación de técnicas de adaptación al dominio, podrían ayudar a manejar mejor la variabilidad entre condiciones biológicas, tipos celulares y especies. Además, perfeccionar los marcos de aprendizaje automático, especialmente integrando métodos modernos de inteligencia artificial explicable, podría mejorar la interpretabilidad biológica, permitiendo una comprensión más clara de las señales regulatorias que impulsan las predicciones de los modelos. Estos esfuerzos facilitarán una comprensión más profunda de los contextos biológicos específicos investigados, como el plegamiento de la cromatina, la especificidad de los sitios de unión de CTCF y la dinámica de los bucles R, mejorando aún más nuestra comprensión de la regulación del genoma a una escala más amplia. | |
| dc.description.sponsorship | Universidad Pablo de Olavide. Departamento de Deporte e informática | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.uri | https://hdl.handle.net/10433/25923 | |
| dc.language.iso | en | |
| dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | |
| dc.rights.accessRights | open access | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject | Inteligencia artificial | |
| dc.subject | Análisis de datos | |
| dc.subject | Genética molecular | |
| dc.title | Integrative machine learning for the prediction of high throughput sequencing signals | |
| dc.type | doctoral thesis | es_ES |
| dc.type.hasVersion | AM | |
| dspace.entity.type | Publication | |
| relation.isAdvisorOfPublication | 82e2c456-c4b8-494e-b3d9-f6c84c8cf9a5 | |
| relation.isAdvisorOfPublication | 066f0a79-1caa-4d35-a44d-87e3d3f6e407 | |
| relation.isAdvisorOfPublication.latestForDiscovery | 82e2c456-c4b8-494e-b3d9-f6c84c8cf9a5 | |
| relation.isAuthorOfPublication | 066f0a79-1caa-4d35-a44d-87e3d3f6e407 |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- vanhaeren-thomas-tesis-25-26.pdf
- Size:
- 54.93 MB
- Format:
- Adobe Portable Document Format

