A diagnosis support system to identify rare disease cases in large-scale clinical databases : application to ciliopathies
Système d'aide au diagnostic pour l'identification de patients atteints de maladies rares au sein de grandes bases de données cliniques : application aux ciliopathies
par Carole FAVIEZ sous la direction de Anita BURGUN
Thèse de doctorat en Informatique médicale
ED 393 École doctorale Pierre Louis de santé publique : épidémiologie et sciences de l'information biomédicale

Soutenue le lundi 12 décembre 2022 à Université Paris Cité

Sujets
  • Apprentissage automatique
  • Ciliopathies
  • Dématérialisation (informatique)
  • Dossiers médicaux
  • Phénotype

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-04742081 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Maladie rare, Ciliopathie, Dossier médical électronique, Traitement automatique des données textuelles, Système d'aide au diagnostic, Apprentissage automatique, Phénotypage profond, Données déséquilibrées, Similarité sémantique
Resumé
Contexte : Il existe plus de 7000 maladies rares qui touchent environ 400 millions de personnes dans le monde. Les problèmes de sous diagnostic, retard de diagnostic et d'erreur de diagnostic sont fréquents. Dans le contexte du projet C'IL-LICO, coordonné par l'institut Imagine, l'objectif de cette thèse est de développer un système d'aide au diagnostic des ciliopathies, maladies rares monogéniques complexes caractérisées par une forte hétérogénéité phénotypique et génétique, à partir du phénotypage profond des dossiers médicaux électroniques. Méthode : Dr Warehouse, l'entrepôt de données de l'hôpital Necker, permet l'extraction automatique des entités cliniques présentes au sein des dossiers médicaux électroniques à partir de l'UMLS. Notre méthodologie comprend 5 étapes. (i) Dans un premier temps, nous avons réalisé une revue de la littérature des systèmes d'aide au diagnostic pour les maladies rares. (ii) Ensuite, nous avons évalué la capacité de systèmes génériques d'aide au diagnostic des maladies rares à identifier les patients atteints de ciliopathies au sein de Dr Warehouse. (iii) Notre premier pas vers la conception d'un système dédiés aux ciliopathies a consisté à explorer les méthodes de machine learning en considérant différentes hypothèses. (iv) A partir des résultats de cette analyse, afin d'améliorer le phénotypage des patients, nous avons proposé une nouvelle approche combinant une méthode d'extraction basée sur les thésaurus au deep learning que nous avons évaluée sur le syndrome de Jeune, un type de ciliopathie caractérisé par des anomalies squelettiques. (v) En parallèle, nous avons conçu un pipeline d'apprentissage supervisé pour la détection de ciliopathies avec mutation du gène NPHP1 associant un module de similarité sémantique (hiérarchique ou word embeddings), une étape de sélection de variables, une étape de sous échantillonnage, et une étape de classification incluant une répétition de cycles d'apprentissage-test. Résultats : Alors que la plupart des systèmes utilisant des phénotypes jusqu'en 2020 étaient des systèmes de « recommandation de maladies » basés sur les connaissances, des approches « data driven » ont été récemment développées. Nous avons proposé quatre recommandations pour le développement d'un système d'aide au diagnostic des maladies rares : utiliser des terminologies standards, combiner les connaissances expertes avec le machine learning, prendre en compte le déséquilibre et la grande dimensionnalité des données, et évaluer les résultats sur des patients réels. Les systèmes génériques testés n'ont pas obtenu de résultats satisfaisants. Trois défis principaux ont été identifiés : prendre en compte la qualité des données et améliorer l'extraction des phénotypes depuis le texte libre, et prendre en compte la complexité des ciliopathies. Notre analyse préliminaire a confirmé que la présence de patients mal phénotypés entravait les performances des systèmes de classification basés sur le machine learning. Concernant le phénotypage des patients, notre méthode hybride a permis de multiplier par 2,5 la détection d'anomalies squelettiques par rapport au module initial de Dr Warehouse. Enfin, le pipeline d'apprentissage automatique que nous avons conçu a été appliqué à 30 patients avec mutation du gène NPHP1 et 7231 contrôles. De très bons résultats ont été obtenus, en particulier avec une version limitée aux relations ascendant-descendant de la similarité de Lin avec des forêts aléatoires (sensibilité de 85% pour une spécificité de 90%). Notre approche pourrait être utilisée pour le pré-diagnostic avant confirmation génétique dans un contexte clinique. Conclusion : Cette thèse apporte de nombreuses perspectives quant à l'enrichissement du phénotypage des patients et des approches qui pourraient être implémentées dans le cadre de systèmes d'information clinique pour accélérer le diagnostic de patients. Les méthodes conçues peuvent être généralisées pour d'autres maladies rares complexes.