Contributions à une efficiente classification non-supervisée de réseaux et de graphes
Contributions to scalable clustering of networks and graphs
par Chakib FETTAL sous la direction de Mohamed NADIF
Thèse de doctorat en Science des données
ED 130 Informatique, Télécommunications et Electronique

Soutenue le vendredi 02 février 2024 à Université Paris Cité

Sujets
  • Clustering (intelligence artificielle)
  • Partitionnement de graphes
  • Scalabilité (informatique)

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-04918839 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Graphes, Classification non-supervisée, Apprentissage de représentations
Resumé
Les graphes sont des structures de données relationnelles très utiles dans de nombreux domaines car ils constituent un outil puissant pour la modélisation et l'analyse de systèmes complexes. Ils sont utilisés pour représenter les relations entre les entités, comme les individus dans un réseau social ou les nœuds dans un réseau informatique. Les graphes ont été utilisés dans diverses applications et dans différents domaines, tels que l'analyse des réseaux sociaux, la bioinformatique, l'épidémiologie et bien d'autres encore. Dans l'analyse des réseaux sociaux, par exemple, les graphes peuvent être utilisés pour étudier les modèles d'interactions entre les individus dans un réseau social et également pour identifier les groupes d'individus ayant des intérêts ou des comportements similaires. Cela peut particulièrement être utile pour le marketing ou les recommandations ciblées. Le partitionnement (classification non supervisée ou clustering) de graphes, également connu sous le nom de détection de communautés, est une technique importante dans l'analyse des données de graphes. Il permet d'identifier des groupes de nœuds similaires dans le graphe. Cela peut révéler des motifs et des structures sous-jacents dans le graphe qui ne sont pas immédiatement apparents. Par exemple, dans un réseau social, le clustering peut révéler des groupes d'individus ayant des intérêts ou des comportements similaires, et en bioinformatique, il peut révéler des modules fonctionnels dans les réseaux d'interaction protéine-protéine. Cette thèse vise à résoudre les problèmes de scalabilité des modèles de clustering de graphes de l'état de l'art et présente des approches nouvelles pour le clustering et l'apprentissage de représentations de différents types de graphes, y compris les graphes classiques, les graphes bipartis, les graphes attribués, les graphes attribués bipartis et les graphes attribués multi-vues. À cette fin, nous exploitons des approches classiques telles que les projections linéaires, le lissage laplacien et le transport optimal. Les approches proposées partagent toutes trois caractéristiques clés: simplicité, efficacité et parcimonie. Grâce à leur nature simple mais efficace, les méthodes proposées sont compétitives par rapport à l'état de l'art tout en étant généralement plus efficaces en termes de calcul. Nous démontrons l'efficacité et l'efficience de nos modèles par rapport à l'état de l'art par le biais d'une expérimentation approfondie et de tests de significativité statistique.