Méthodes de clustering fondées sur les réseaux pour stratifier des patients à partir de données longitudinales et hiérarchiques
Network-based clustering methods for patient stratification from longitudinal and hierarchical data
par Judith LAMBERT sous la direction de Anne-Sophie JANNOT et de Anaïs BAUDOT
Thèse de doctorat en Biostatistique et biomathématiques
ED 393 École doctorale Pierre Louis de santé publique : épidémiologie et sciences de l'information biomédicale

Soutenue le jeudi 21 décembre 2023 à Université Paris Cité

Sujets
  • Bases de données médico-administratives
  • Clustering
  • Sélection de patients

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-04764942 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Clustering longitudinal de patients, Cluster tracking, Bases de données médico-Administratives, Réseaux de patients, Connaissance préalable d'experts, Labels de variables hiérarchiques, Stratification de patients, Mesures de similarité
Resumé
La stratification des patients est importante pour mieux comprendre l'hétérogénéité des maladies, évaluer l'efficacité d'un traitement et faciliter l'appariement des patients. Cette stratification repose sur des méthodes de clustering utilisant des données de santé provenant, par exemple, de bases médico-administratives. Ces données sont nombreuses et variées, qualitatives ou quantitatives, avec ou sans labels organisés en nomenclatures. De plus, ce sont des données longitudinales complexes et parfois tronquées. Ces spécificités limitent les approches de clustering. L'objectif de ma thèse a été de développer de nouvelles approches de clustering pour identifier des sous-groupes homogènes (clusters) de patients en tenant compte de la complexité des données médico-administratives. Nous avons développé deux approches. La première, nommée 'cluster-tracking', identifie des clusters dans des réseaux de patients construits à chaque période de temps. Nous avons identifié des trajectoires de clusters cliniquement significatives. De manière importante, notre approche ne nécessite pas l'imputation de données tronquées ni l'exclusion de patients. La seconde approche intègre les relations entre labels au sein des nomenclatures dans les mesures de similarités. En comparaisons avec des mesures qui ne tiennent pas compte de ces relations, nos mesures pondérées permettent d'identifier des clusters plus pertinents cliniquement. En considérant les spécificités des données médico-administratives, nos deux nouvelles approches ont permis d'améliorer la stratification des patients en fonction de leur état de santé.