These Descartes

Deep generative models for the detection of subtle phenotypes in microscopy images

Modèles génératifs profonds pour la détection de phénotypes subtils dans des images de microscopie

par Anis BOUROU sous la direction de Valérie MEZGER-LALLEMAND et de Auguste GENOVESIO
Thèse de doctorat en Génétique
ED 562 Bio Sorbonne Paris Cité

Soutenue le jeudi 22 mai 2025 à Université Paris Cité

Sujets

Modèles génératifs
Photomicrographie
Variation intra-population

Texte integral en version complète PDF

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-05184426 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais

Description en français

Mots clés	Images microscopiques, Modèles génératifs, Phénotypes subtils, Découverte de médicaments
Resumé	La détection des variations phénotypiques cellulaires dans les images de microscopie biologique est essentielle pour l'avancement de la recherche fondamentale et la découverte de médicaments. Toutefois, cette tâche demeure complexe dans des scénarios pratiques en raison de la variabilité biologique intrinsèque, du manque de données et de la nécessité d'interprétabilité. Dans ce travail, nous développons des stratégies basées sur l'apprentissage profond afin de détecter et d'interpréter efficacement ces variations phénotypiques. Tout d'abord, nous montrons que les modèles discriminatifs profonds, combinés à des méthodes classiques d'interprétabilité, permettent d'identifier avec succès les régions discriminantes dans les images de microscopie. Cependant, ces modèles discriminatifs seuls s'avèrent souvent insuffisants pour gérer la variabilité biologique. Pour pallier cette limitation, nous explorons les réseaux antagonistes génératifs (GANs) et illustrons comment ils peuvent efficacement réduire la variabilité biologique tout en conservant les différences phénotypiques significatives. De plus, nous montrons que les techniques d'apprentissage auto-supervisé permettent de contourner le besoin de grands ensembles de données annotées, améliorant ainsi les performances des modèles dans des environnements contraints par les données. Par ailleurs, nous étudions des mécanismes efficaces de conditionnement pour les GANs, permettant une génération contrôlée de phénotypes biologiquement pertinents. Nous exploitons notamment des GANs conditionnels afin de révéler des phénotypes distincts dans les images de microscopie. En s'appuyant sur ces bases, nous proposons un cadre novateur fondé sur les modèles de diffusion afin de détecter des variations phénotypiques subtiles. Nos expériences démontrent que les modèles de diffusion présentent une robustesse notable pour identifier à la fois des changements phénotypiques évidents et imperceptibles. Nous montrons notamment comment des modèles de diffusion préentraînés sur de larges ensembles d'images naturelles peuvent être adaptés efficacement au domaine biologique. Cette stratégie de transfert d'apprentissage s'avère particulièrement précieuse dans les contextes où les données biologiques sont rares et difficiles à obtenir. Enfin, nous introduisons Diffex, un cadre unifié qui relie les modèles génératifs et discriminatifs. Diffex permet d'expliquer les décisions des classificateurs sur les images de microscopie en identifiant des directions désenchevêtrées dans les espaces latents des modèles de diffusion, fournissant ainsi des informations interprétables sur les prédictions des modèles. Globalement, notre travail apporte des avancées significatives en matière d'interprétabilité biologique, ouvrant de nouvelles perspectives et accélérant une découverte plus efficace de médicaments.

Mots clés

Images microscopiques, Modèles génératifs, Phénotypes subtils, Découverte de médicaments

Resumé

La détection des variations phénotypiques cellulaires dans les images de microscopie biologique est essentielle pour l'avancement de la recherche fondamentale et la découverte de médicaments. Toutefois, cette tâche demeure complexe dans des scénarios pratiques en raison de la variabilité biologique intrinsèque, du manque de données et de la nécessité d'interprétabilité. Dans ce travail, nous développons des stratégies basées sur l'apprentissage profond afin de détecter et d'interpréter efficacement ces variations phénotypiques. Tout d'abord, nous montrons que les modèles discriminatifs profonds, combinés à des méthodes classiques d'interprétabilité, permettent d'identifier avec succès les régions discriminantes dans les images de microscopie. Cependant, ces modèles discriminatifs seuls s'avèrent souvent insuffisants pour gérer la variabilité biologique. Pour pallier cette limitation, nous explorons les réseaux antagonistes génératifs (GANs) et illustrons comment ils peuvent efficacement réduire la variabilité biologique tout en conservant les différences phénotypiques significatives. De plus, nous montrons que les techniques d'apprentissage auto-supervisé permettent de contourner le besoin de grands ensembles de données annotées, améliorant ainsi les performances des modèles dans des environnements contraints par les données. Par ailleurs, nous étudions des mécanismes efficaces de conditionnement pour les GANs, permettant une génération contrôlée de phénotypes biologiquement pertinents. Nous exploitons notamment des GANs conditionnels afin de révéler des phénotypes distincts dans les images de microscopie. En s'appuyant sur ces bases, nous proposons un cadre novateur fondé sur les modèles de diffusion afin de détecter des variations phénotypiques subtiles. Nos expériences démontrent que les modèles de diffusion présentent une robustesse notable pour identifier à la fois des changements phénotypiques évidents et imperceptibles. Nous montrons notamment comment des modèles de diffusion préentraînés sur de larges ensembles d'images naturelles peuvent être adaptés efficacement au domaine biologique. Cette stratégie de transfert d'apprentissage s'avère particulièrement précieuse dans les contextes où les données biologiques sont rares et difficiles à obtenir. Enfin, nous introduisons Diffex, un cadre unifié qui relie les modèles génératifs et discriminatifs. Diffex permet d'expliquer les décisions des classificateurs sur les images de microscopie en identifiant des directions désenchevêtrées dans les espaces latents des modèles de diffusion, fournissant ainsi des informations interprétables sur les prédictions des modèles. Globalement, notre travail apporte des avancées significatives en matière d'interprétabilité biologique, ouvrant de nouvelles perspectives et accélérant une découverte plus efficace de médicaments.