Modèles graphiques profonds et stratégies d'inférence pour l'analyse de réseaux comprenant du texte
Deep graphical models and inference strategies for the analysis of networks comprising textual edges
par Rémi BOUTIN sous la direction de Pierre LATOUCHE et de Charles BOUVEYRON
Thèse de doctorat en Mathématiques appliquées
ED 386 Sciences Mathematiques de Paris Centre

Soutenue le jeudi 14 décembre 2023 à Université Paris Cité

Sujets
  • Problèmes inverses
  • Statistique bayésienne
  • Théorie des graphes

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-04541415 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Analyse statistique des réseaux, Modélisation de thèmes, Classification de nœuds basée sur des modèles, Méthodes variationelle pour l'inférence, Méthodes variationelle pour l'inférence bayésienne, Autoencodeur de graphe variationnel
Resumé
Dans ce manuscrit, nous développerons de nouvelles méthodologies pour regrouper les noeuds de réseaux comportant, éventuellement, des arêtes textuelles. Notre objectif est de fournir une modélisation de bout-en-bout, capable d'utiliser les textes échangés entre les noeuds ainsi que la topologie du réseau pour extraire les motifs à l'origine de ce jeu de données. Ce travail est motivé par des questions qui se posent dans différents domaines comme en sciences sociales par exemple. La collecte et la compréhension de gros volumes de données provenant des réseaux sociaux peuvent, par exemple, aider les chercheurs à répondre à des questions concernant la manière dont une politique est perçue. Nous adoptons un cadre de modélisation probabiliste pour classifier les noeuds et analyser les textes. Entre autres, ces modèles renseignent sur l'incertitude de nos estimations et fournissent un cadre qui s'est avéré robuste historiquement. De plus, afin de bénéficier de l'efficacité des réseaux de neurones profonds pour encoder des types de données complexes, nos méthodologies combinent les modèles probabilistes avec les derniers avancement dans ce domaine. Plusieurs analyses de données réelles sont fournies. En particulier, durant plusieurs mois précédant l'élection présidentielle française de 2017, chaque publication d'un média social, ainsi que leurs rediffusions, impliquant l'un des candidats ont été rassemblées dans une base de données. Notre méthodologie permet de comprendre les groupes présents sur les réseaux sociaux ainsi que la manière dont les interactions se sont établies au cours de cette période particulière. Les implémentations Python associées aux méthodologies développées dans ce manuscrit ont été rendues publiques.