Mots clés |
Entrepôt de données cliniques, Recherche translationnelle, Papillomavirus, Bioinformatique, Cancer, Représentation de la connaissance, Provenance, Données omiques, Web sémantique |
Resumé |
Une nouvelle technique en génomique virale permet la capture et le séquençage d'HPV (Human Papilloma Virus) chez les patients porteurs. L'intégration de ces données aux informations médicales des Entrepôts de Données Cliniques (EDCs) ouvre de nouvelles perspectives en recherche translationnelle sur les cancers viro-induits. Cependant, les données génomiques nécessaires ne sont pas disponibles dans les EDCs, mais dans des outils dédiés limitant leur utilisation pour ces études. Nous proposons viroCapt, un pipeline bioinformatique automatisant l'analyse des données de capture HPV, permettant la caractérisation des cancers HPV-induits. L'utilisation de viroCapt a mis en évidence le besoin d'intégrer des données génomiques de manière longitudinale dans les EDCs, notamment dans le suivi des cancers par biopsie liquide. La limitation des EDCs à intégrer ces données et leurs relations longitudinales nous a amené à concevoir gitOmmix, une méthode combinant systèmes de gestion de version de fichiers et représentations des connaissances, pour y répondre. Les travaux issus de l'utilisation de viroCapt ont montré son intérêt dans le suivi des cancers HPV-induits et plus généralement viro-induits. Par ailleurs, nous avons conçu un modèle permettant l'intégration de données omiques longitudinales dans les EDCs. gitOmmix est généralisable à toute donnée massive, agnostique du système d'EDC, et permet une meilleure adhésion aux principes FAIR en ajoutant la provenance et l'accès aux données sources. Notre contribution permet une meilleure caractérisation des cancers viro-induits, et met en exergue de nouveaux défis en recherche translationnelle, motivant la conception d'une méthode de gestion de la provenance et des données massives dans les EDC. |