Modeling the latent space of variational autoencoders
Modélisation et structuration de l'espace latent des auto-encodeurs variationnels
par Clément CHADEBEC sous la direction de Stéphanie ALLASSONNIÈRE
Thèse de doctorat en Mathématiques appliquées
ED 386 Sciences Mathematiques de Paris Centre

Soutenue le jeudi 29 juin 2023 à Université Paris Cité

Sujets
  • Géométrie de Riemann
  • Modèles mathématiques
  • Probabilités
  • Statistique mathématique
  • Variables aléatoires

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-04686781 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Inférence variationnelle, Modèles génératifs, Géométrie riemannienne, Auto-encodeurs variationnels
Resumé
Cette thèse de doctorat s'intéresse à la modélisation et à la structuration de l'espace latent des modèles de type auto-encodeur variationnel. Ces derniers sont des modèles probabilistes dits génératifs car ils ont pour objectif d'être capables de générer de nouvelles données synthétiques à partir d'un ensemble d'entraînement. Une des particularités de ces modèles est l'existence d'un espace de plus faible dimension que celui dans lequel les données d'entrée sont considérées et que l'on appelle espace latent. La compréhension et l'étude de cet espace restent lacunaires et cette thèse a pour objective d'essayer d'apporter une meilleur compréhension de sa structure et de la façon de l'exploiter pour des tâches annexes. À travers l'utilisation d'outils de géométrie Riemannienne, nous proposerons différentes modélisations de l'espace latent des auto-encodeurs variationnels qui nous conduirons premièrement à construire un nouvel estimateur de la log-vraisemblance du modèle. L'étude de cette géométrie nous mènera également à considérer et à proposer de nouvelles méthodes d'échantillonnage de nouvelles données qui s'avéreront très adaptées à des contextes à faible nombre de données, connus pour être très limitant pour ces types de modèles. Une tâche connue sous le nom d'augmentation de données et consistant en la création de données synthétiques pour enrichir les bases de données existantes nous occupera tout particulièrement et sera l'une des applications majeures des modèles que nous développerons. Par exemple, nous appliquerons notre méthode pour améliorer la performance de modèles de classification sur des données réelles et complexes telles que des IRMs tri-dimensionnelles de cerveaux. Au cours de cette thèse, nous développerons également plusieurs outils informatiques permettant un usage facilité et ouvert au plus grand nombre de tels modèles. Enfin, nous nous intéresserons également aux données dites longitudinales, c'est à dire des données qui partagent une dépendance temporelle forte tel que le suivi de patients, mais dont le nombre d'observations par entité reste faible (typiquement moins de 10 observations par entité). En particulier, nous introduirons des modèles capables de générer des trajectoires synthétiques complètes.