Interpretable biological network reconstruction from observational data
Reconstruction de réseaux biologiques interprétables à partir de données d'observation
par Honghao LI sous la direction de Hervé ISAMBERT
Thèse de doctorat en Science des données
ED 130 Informatique, Télécommunications et Electronique

Soutenue le mercredi 15 décembre 2021 à Université Paris Cité

Sujets
  • Algorithmes
  • Bioinformatique
  • génétique
  • Réseaux de régulation génique
  • Tumeurs du sein

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-04057020 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Apprentissage de structures causales, Méthode basée sur des contraintes, Cohérence d'ensemble de séparation, Algorithme MIIC, Interprétabilité, Explicabilité, Extensibilité, Base de données SEER
Resumé
Cette thèse porte sur les méthodes basées sur des contraintes. Nous présentons comme exemple l'algorithme PC, pour lequel nous proposons une modification qui garantit la cohérence des ensembles de séparation, utilisés pendant l'étape de reconstruction du squelette pour supprimer les arêtes entre les variables conditionnellement indépendantes, par rapport au graphe final. Elle consiste à itérer l'algorithme d'apprentissage de structure tout en limitant la recherche des ensembles de séparation à ceux qui sont cohérents par rapport au graphe obtenu à la fin de l'itération précédente. La contrainte peut être posée avec une complexité de calcul limitée à l'aide de la décomposition en block-cut tree du squelette du graphe. La modification permet d'augmenter le rappel au prix de la précision des méthodes basées sur des contraintes, tout en conservant une performance globale similaire ou supérieure. Elle améliore également l'interprétabilité et l'explicabilité du modèle graphique obtenu. Nous présentons ensuite la méthode basée sur des contraintes MIIC, récemment développée, qui adopte les idées du cadre du maximum de vraisemblance pour améliorer la robustesse et la performance du graphe obtenu. Nous discutons les caractéristiques et les limites de MIIC, et proposons plusieurs modifications qui mettent l'accent sur l'interprétabilité du graphe obtenu et l'extensibilité de l'algorithme. En particulier, nous mettons en œuvre l'approche itérative pour renforcer la cohérence de l'ensemble de séparation, nous optons pour une règle d'orientation conservatrice et nous utilisons la probabilité d'orientation de MIIC pour étendre la notation des arêtes dans le graphe final afin d'illustrer différentes relations causales. L'algorithme MIIC est appliqué à un ensemble de données d'environ 400 000 dossiers de cancer du sein provenant de la base de données SEER, comme benchmark à grande échelle dans la vie réelle.