A novel statistical approach to evaluate effects on covariance/correlation and its application in human gut microbiome and metabolomics
Une nouvelle approche statistique pour évaluer des effets sur la covariance/corrélation et son application au microbiome intestinal humain et à la métabolomique
par Christophe BOETTO sous la direction de Hugues ASCHARD
Thèse de doctorat en Biostatistique et biomathématiques
ED 393 École doctorale Pierre Louis de santé publique : épidémiologie et sciences de l'information biomédicale

Soutenue le vendredi 20 décembre 2024 à Université Paris Cité

Sujets
  • Métabolomique
  • Microbiome gastro-intestinal
  • Statistique

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-05036173 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Statistiques, Épidémiologie, Génétique, Covariance, Corrélation, Analyse multivariée, Microbiologie, Métabolomique
Resumé
La présente thèse s'inscrit dans le domaine de la biostatistique et de l'épidémiologie, avec une forte composante méthodologique. L'objectif principal a été de développer et d'évaluer la pertinence et la validité d'une nouvelle approche pour l'analyse des données OMICs multivariées, typiquement, un ensemble de variables corrélées mesurées chez les mêmes individus. Le travail est divisé en trois axes principaux : le développement de la méthode, une application microbiologique et une application métabolomique. Les deux applications de données réelles dans des contextes épidémiologiques différents avaient pour objectifs multiples de montrer l'évolutivité et la validité des méthodes, d'évaluer les besoins de développement ultérieur et de produire de nouvelles connaissances en rapport avec les questions biologiques abordées. Le premier axe concerne le développement formel du cadre statistique pour tester l'association entre un prédicteur et la covariance d'un résultat multivarié. Dans le cas simple d'un prédicteur binaire, cela revient à tester si deux matrices de covariance dérivées pour le même résultat dans deux échantillons distincts (par exemple, homme et femme) sont statistiquement différentes. Cependant, la méthode proposée, appelée MANOCCA, couvre un éventail plus large de scénarios, permettant de tester l'association avec des prédicteurs binaires, catégoriels ou continus, tout en ajustant l'effet de confusion des covariables. Outre le développement de la méthode elle-même, le travail de thèse comprend une évaluation de la calibration et de la robustesse de l'approche, réalisée à la fois théoriquement et par simulation. Le deuxième axe de ce travail est une application à grande échelle de l'approche dans le contexte de la microbiologie de l'intestin humain en utilisant les données de la cohorte Milieu Intérieur. Nous avons appliqué MANOCCA pour rechercher une association entre une série de facteurs liés à l'hôte et la covariance de la quantification des taxons. Cette analyse a permis d'identifier de multiples signaux, suggérant un rôle de certains de ces facteurs dans la formation des communautés microbiennes intestinales. Pour étudier plus avant ces associations, des outils de modélisation supplémentaires ont été développés à partir du test original. Il s'agit notamment d'extraire des paires de taxons impactés afin de déduire directement des interprétations sur les voies biologiques. Ces travaux abordent également la possibilité d'utiliser les co-abondances de taxons microbiens à des fins de prédiction, plutôt que de détection comme c'est le cas dans la présente étude. Le troisième et dernier axe est une autre analyse épidémiologique de données réelles, cette fois dans le contexte de la génétique des métabolites en utilisant les données de la cohorte UK Biobank. Ce travail a pour objectif d'évaluer l'extensibilité de la méthode et de fournir des informations biologiques différentes dans un domaine d'application différent. La grande largeur des données de la UK Biobank permet une analyse directe des corrélations par paire sans impliquer de techniques de réduction dimensionnelle. Ce travail nous a également permis d'approfondir les différences entre un effet sur la moyenne d'un résultat et un effet sur la covariance d'un résultat.