Mots clés |
Apprentissage non-supervisé, Fouille de données, Classification croisée, Tenseurs, Graphes, Catégorisation de documents, Systèmes de recommandation |
Resumé |
La classification non supervisée ou clustering suscite un grand intérêt dans la communauté d'apprentissage machine. Etant donné un ensemble d'objets décrits par un ensemble d'attributs, le clustering vise à partitionner l'ensemble des objets en classes homogènes. Le regroupement ou catégorisation de cet ensemble, est souvent nécessaire pour le traitement de données massives, devenu actuellement un axe de recherche prioritaire. A noter que lorsqu'on s'intéresse au clustering, nous faisons généralement référence au clustering de l'ensemble des objets. Depuis deux décennies, un intérêt est porté à la classification croisée (ou co-clustering) qui permet de regrouper simultanément les lignes et les colonnes d'une matrice de données. Le co-clustering conduit de ce fait à une réorganisation des données en blocs homogènes (après permutations appropriées). Cette approche joue un rôle important dans une grande variété d'applications où les données sont généralement organisées dans des tableaux à double entrées. Cependant si on considère l'exemple du clustering d'articles, nous pouvons collecter plusieurs informations telles que les termes en commun, les co-auteurs et les citations, qui conduisent naturellement à une représentation tensorielle. L'exploitation d'un tel tenseur d'ordre 3 permettrait d'améliorer les résultats de clustering d'un des ensembles. Ainsi, deux articles qui partagent un ensemble important de mots en commun, qui ont des auteurs en commun et qui partagent une bibliographie commune, sont très susceptibles de traiter d'une même thématique. Dans cette thèse nous nous intéressons à de telles structures de données. Malgré le grand intérêt pour le co-clustering et la représentation tensorielle, peu de travaux portent sur le co-clustering de tenseurs. Nous pouvons néanmoins citer le travail basé sur l'information Minimum Bregman (MBI), ou encore la méthode de co-clustering de tenseurs non négatifs GTSC (General Tensor Spectral Co-Clustering). Mais la majorité des travaux considèrent le co-clustering à partir de méthodes de factorisation tensorielles. Dans cette thèse nous proposons de nouvelles approches probabilistes pour le co-clustering de tenseur d'ordre 3. Dès lors plusieurs défis sont à relever dont les suivants. Comment gérer efficacement les données de grande dimension ? Comment gérer la sparsité des données et exploiter les dépendances inter-tranches des données tensorielles ? S'inspirant de la célèbre citation de Jean Paul Benzcri "Le modèle doit suivre les données et non l'inverse", nous avons choisi dans cette thèse de nous appuyer sur des modèles de mélange appropriés. Ainsi, nos contributions sont basées sur le modèle des blocs latents ou (LBM, Latent Block Model) pour le co-clustering, proposé pour la première fois par Govaert et al. Voici une brève description des différentes contributions : a) Extension du formalisme des LBM au co-clustering des données tensorielles et présentation d'un nouveau modèle Tensor LBM (TLBM) comme solution, b) Proposition d'un Sparse TLBM prenant en compte la sparsité et son extension pour la gestion des graphes multiples ou graphes multi-vues, et c) Développement d'une méthode de co-clusterwise qui intègre le co-clustering dans un cadre d'apprentissage supervisé. Ces contributions ont été évaluées avec succès sur des données tensorielles issues de divers domaines allant des systèmes de recommandation, le clustering d'images hyperspectrales, la catégorisation de documents, à l'optimisation de la gestion des déchets. Elles permettent également d'envisager des pistes de recherches futures intéressantes et immédiates. Par exemple, l'extension du modèle proposé au tri-clustering et aux séries temporelles multivariées. |