These Descartes

Algorithmes robustes et autres contributions à l'apprentissage statistique

Robust algorithms and other contributions to machine learning

par Ibrahim MERAD sous la direction de Stéphane GAÏFFAS et de Emmanuel BACRY
Thèse de doctorat en Mathématiques appliquées
ED 386 Sciences Mathematiques de Paris Centre

Soutenue le mardi 12 décembre 2023 à Université Paris Cité

Sujets

Apprentissage automatique
Forêts d'arbres de décision
Processus stochastiques
Statistiques robustes

Texte integral en version complète PDF

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais

Description en français

Mots clés	Apprentissage automatique, Méthodes robustes, Queues lourdes, Erreur de généralisation, Estimation éparse, Optimisation stochastique, Forêts aléatoires, Régression logistique en ligne
Resumé	Cette thèse traite d'aspects théoriques et méthodologiques de l'apprentissage automatique. Cette discipline a trouvé de nombreuses applications grâce aux grandes quantités de données disponibles. Cependant, des constats empiriques suggèrent souvent des distributions à queue lourde et de la corruption dans les jeux de données ce qui pourrait compromettre les performances des modèles. Ceci a motivé le développement de la statistique robuste qui cherche des méthodes plus fiables sous des hypothèses affaiblies sur les données. Nous présentons des algorithmes d'apprentissage efficaces et robustes avec une analyse théorique établissant la convergence de leur optimisation et les propriétés statistiques de leurs estimateurs. La première contribution propose d'utiliser la descente de gradient par coordonnées (CGD) avec estimation robuste des dérivées partielles pour effectuer de l'apprentissage robuste. Cela permet d'éviter les calculs coûteux liés à l'estimation de moyenne vectorielle robuste grâce à des estimateurs scalaires. Le procédé obtenu est robuste aux queues lourdes et à la corruption comme attesté par les bornes d'erreur de généralisation établies pour des fonctions convexes et gradient-Lipschitz. De plus, le surplus de calcul est minime vu que la complexité est la même que les méthodes non robustes. Nous proposons une implémentation efficace dans la librairie Python linlearn et confirmons les avantages de CGD robuste à travers des expériences numériques. La seconde contribution traite le cas en haute dimension où l'optimisation se fait par méthode non-Euclidienne. Nous développons un cadre d'apprentissage en haute dimension adapté à plusieurs fonctions objectif qui utilise des méthodes d'estimation de gradient robustes adaptées aux métriques non-Euclidiennes spécifiques à chaque problème. Dans le cas de l'estimation éparse standard, on obtient un algorithme efficace et fortement robuste. En plus de l'analyse théorique établissant ces propriétés, nous implémentons cet algorithme dans la librairie linlearn et confirmons ses performances à travers des expériences sur données réelles. La contribution suivante apporte une solution pour les flux de données où les échantillons ne sont accessibles qu'individuellement et séquentiellement. Nous proposons un algorithme SGD tronqué pour l'optimisation stochastique utilisant comme seuils des quantiles de norme de gradient. Grâce à des outils de chaînes de Markov, nous prouvons que l'itération est robuste aux queues lourdes et aux données corrompues et qu'elle converge vers une distribution limite concentrée autour d'un optimum. Dans un autre chapitre, nous utilisons des outils similaires pour étudier les propriétés de convergence et concentration de l'itération SGD classique. En particulier, nous obtenons une borne de concentration non asymptotique pour les moyennes de Polyak-Ruppert. Nos contributions comprennent également un nouvel algorithme de forêt aléatoire appelé WildWood. Ce dernier ajoute un mécanisme d'agrégation par arbre utilisant les échantillons bootstrap pour calculer une prédiction moyenne sur les sous-arbres. Ce calcul est précis et efficace grâce à l'algorithme de "context tree weighting". Un résultat théorique montre que cette agrégation permet d'approcher la performance du meilleur sous-arbre. Nous proposons une implémentation efficace dans la librairie Python wildwood et montrons expérimentalement sa compétitivité avec des méthodes d'ensemble connues comme les forêts aléatoires standards et les algorithmes de boosting. Enfin, nous présentons un algorithme non Bayésien efficace pour la régression logistique en ligne qui peut atteindre le regret optimal et fournissons une analyse préliminaire pour ce dernier.

Mots clés

Apprentissage automatique, Méthodes robustes, Queues lourdes, Erreur de généralisation, Estimation éparse, Optimisation stochastique, Forêts aléatoires, Régression logistique en ligne

Resumé

Cette thèse traite d'aspects théoriques et méthodologiques de l'apprentissage automatique. Cette discipline a trouvé de nombreuses applications grâce aux grandes quantités de données disponibles. Cependant, des constats empiriques suggèrent souvent des distributions à queue lourde et de la corruption dans les jeux de données ce qui pourrait compromettre les performances des modèles. Ceci a motivé le développement de la statistique robuste qui cherche des méthodes plus fiables sous des hypothèses affaiblies sur les données. Nous présentons des algorithmes d'apprentissage efficaces et robustes avec une analyse théorique établissant la convergence de leur optimisation et les propriétés statistiques de leurs estimateurs. La première contribution propose d'utiliser la descente de gradient par coordonnées (CGD) avec estimation robuste des dérivées partielles pour effectuer de l'apprentissage robuste. Cela permet d'éviter les calculs coûteux liés à l'estimation de moyenne vectorielle robuste grâce à des estimateurs scalaires. Le procédé obtenu est robuste aux queues lourdes et à la corruption comme attesté par les bornes d'erreur de généralisation établies pour des fonctions convexes et gradient-Lipschitz. De plus, le surplus de calcul est minime vu que la complexité est la même que les méthodes non robustes. Nous proposons une implémentation efficace dans la librairie Python linlearn et confirmons les avantages de CGD robuste à travers des expériences numériques. La seconde contribution traite le cas en haute dimension où l'optimisation se fait par méthode non-Euclidienne. Nous développons un cadre d'apprentissage en haute dimension adapté à plusieurs fonctions objectif qui utilise des méthodes d'estimation de gradient robustes adaptées aux métriques non-Euclidiennes spécifiques à chaque problème. Dans le cas de l'estimation éparse standard, on obtient un algorithme efficace et fortement robuste. En plus de l'analyse théorique établissant ces propriétés, nous implémentons cet algorithme dans la librairie linlearn et confirmons ses performances à travers des expériences sur données réelles. La contribution suivante apporte une solution pour les flux de données où les échantillons ne sont accessibles qu'individuellement et séquentiellement. Nous proposons un algorithme SGD tronqué pour l'optimisation stochastique utilisant comme seuils des quantiles de norme de gradient. Grâce à des outils de chaînes de Markov, nous prouvons que l'itération est robuste aux queues lourdes et aux données corrompues et qu'elle converge vers une distribution limite concentrée autour d'un optimum. Dans un autre chapitre, nous utilisons des outils similaires pour étudier les propriétés de convergence et concentration de l'itération SGD classique. En particulier, nous obtenons une borne de concentration non asymptotique pour les moyennes de Polyak-Ruppert. Nos contributions comprennent également un nouvel algorithme de forêt aléatoire appelé WildWood. Ce dernier ajoute un mécanisme d'agrégation par arbre utilisant les échantillons bootstrap pour calculer une prédiction moyenne sur les sous-arbres. Ce calcul est précis et efficace grâce à l'algorithme de "context tree weighting". Un résultat théorique montre que cette agrégation permet d'approcher la performance du meilleur sous-arbre. Nous proposons une implémentation efficace dans la librairie Python wildwood et montrons expérimentalement sa compétitivité avec des méthodes d'ensemble connues comme les forêts aléatoires standards et les algorithmes de boosting. Enfin, nous présentons un algorithme non Bayésien efficace pour la régression logistique en ligne qui peut atteindre le regret optimal et fournissons une analyse préliminaire pour ce dernier.