Dimension longitudinale du suivi omique dans les entrepôts de données cliniques : application aux cancers suivis par biopsie liquide
Managing longitudinal omic data in clinical data warehouses : an application to cancer follow-up using liquid biopsy.
par Maxime WACK sous la direction de Anita BURGUN et de Bastien RANCE
Thèse de doctorat en Informatique médicale
ED 393 École doctorale Pierre Louis de santé publique : épidémiologie et sciences de l'information biomédicale

Soutenue le jeudi 19 décembre 2024 à Université Paris Cité

Sujets
  • Biopsie liquide
  • Cancer
  • Entrepôts de données
  • Métaomique

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-05033541 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Entrepôt de données cliniques, Recherche translationnelle, Papillomavirus, Bioinformatique, Cancer, Représentation de la connaissance, Provenance, Données omiques, Web sémantique
Resumé
Une nouvelle technique en génomique virale permet la capture et le séquençage d'HPV (Human Papilloma Virus) chez les patients porteurs. L'intégration de ces données aux informations médicales des Entrepôts de Données Cliniques (EDCs) ouvre de nouvelles perspectives en recherche translationnelle sur les cancers viro-induits. Cependant, les données génomiques nécessaires ne sont pas disponibles dans les EDCs, mais dans des outils dédiés limitant leur utilisation pour ces études. Nous proposons viroCapt, un pipeline bioinformatique automatisant l'analyse des données de capture HPV, permettant la caractérisation des cancers HPV-induits. L'utilisation de viroCapt a mis en évidence le besoin d'intégrer des données génomiques de manière longitudinale dans les EDCs, notamment dans le suivi des cancers par biopsie liquide. La limitation des EDCs à intégrer ces données et leurs relations longitudinales nous a amené à concevoir gitOmmix, une méthode combinant systèmes de gestion de version de fichiers et représentations des connaissances, pour y répondre. Les travaux issus de l'utilisation de viroCapt ont montré son intérêt dans le suivi des cancers HPV-induits et plus généralement viro-induits. Par ailleurs, nous avons conçu un modèle permettant l'intégration de données omiques longitudinales dans les EDCs. gitOmmix est généralisable à toute donnée massive, agnostique du système d'EDC, et permet une meilleure adhésion aux principes FAIR en ajoutant la provenance et l'accès aux données sources. Notre contribution permet une meilleure caractérisation des cancers viro-induits, et met en exergue de nouveaux défis en recherche translationnelle, motivant la conception d'une méthode de gestion de la provenance et des données massives dans les EDC.