Learning from incomplete biomedical data : guiding the partition toward prognostic information
Apprentissage sur des données biomédicales incomplètes : guider la partition vers de l'information pronostique
par Lilith FAUCHEUX sous la direction de Sylvie CHEVRET et de Vassili SOUMELIS
Thèse de doctorat en Biostatistiques
ED 393 École doctorale Pierre Louis de santé publique : épidémiologie et sciences de l'information biomédicale

Soutenue le jeudi 09 septembre 2021 à Université Paris Cité

Sujets
  • Algorithmes
  • Analyse de regroupements
  • Apprentissage non supervisé (intelligence artificielle)
  • Pronostic (médecine)
  • Simulation numérique
  • Tumeurs du sein

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-04579329 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Apprentissage non supervisé, Apprentissage semi-supervisé, Données manquantes, Données censurées, Imputation multiple, Regroupement par consensus, Cancer du sein, Micro-environnement tumoral
Resumé
Cette thèse porte sur l'apprentissage de partitions dans un contexte de données incomplètes. Deux développements méthodologiques sont présentés, ainsi que des applications dans le domaine biomédical. La première méthode développée permet, en présence de données incomplètes, un apprentissage de partitions non supervisé. Deux types de données incomplètes ont été considérés : des données manquantes et des données censurées à gauche (dont la valeur est « inférieure à un seuil de détection »). La problématique des données incomplètes a été prise en compte par imputation multiple (MI). Pour permettre une imputation adaptée au type de données incomplètes de chaque variable la méthode par équations chainées (MICE) a été utilisée. L'apprentissage de partitions non supervisé a ensuite été effectuée sur chaque jeu de données imputé. Pour finir, les partitions obtenues ont été combinées à l'aide d'un clustering par consensus. La deuxième méthode, semi-supervisée, a été développée pour permettre de surcroît l'utilisation d'une composante supervisée, à savoir le délai de survie, tout en permettant l'application à des données incomplètes. Cette méthode a ainsi permis d'identifier des profils de patients qui se distinguent d'une part selon la structure de groupes qui se dégage des données et d'autre part, selon le pronostic des patients. Cette méthode utilise l'optimisation multi-objectifs de Pareto. L'adaptation aux données incomplètes a été traitée de manière similaire au développement précédent, par imputation multiple et clustering par consensus. Enfin, deux propositions d'applications sont incluses. Elles concernent d'une part la composante immunologique du microenvironnement tumoral dans le cancer du sein, et d'autre part l'infection COVID-19 dans le contexte d'une maladie hématologique.