Mots clés |
Apprentissage automatique, Méthodes robustes, Queues lourdes, Erreur de généralisation, Estimation éparse, Optimisation stochastique, Forêts aléatoires, Régression logistique en ligne |
Resumé |
Cette thèse traite d'aspects théoriques et méthodologiques de l'apprentissage automatique. Cette discipline a trouvé de nombreuses applications grâce aux grandes quantités de données disponibles. Cependant, des constats empiriques suggèrent souvent des distributions à queue lourde et de la corruption dans les jeux de données ce qui pourrait compromettre les performances des modèles. Ceci a motivé le développement de la statistique robuste qui cherche des méthodes plus fiables sous des hypothèses affaiblies sur les données. Nous présentons des algorithmes d'apprentissage efficaces et robustes avec une analyse théorique établissant la convergence de leur optimisation et les propriétés statistiques de leurs estimateurs. La première contribution propose d'utiliser la descente de gradient par coordonnées (CGD) avec estimation robuste des dérivées partielles pour effectuer de l'apprentissage robuste. Cela permet d'éviter les calculs coûteux liés à l'estimation de moyenne vectorielle robuste grâce à des estimateurs scalaires. Le procédé obtenu est robuste aux queues lourdes et à la corruption comme attesté par les bornes d'erreur de généralisation établies pour des fonctions convexes et gradient-Lipschitz. De plus, le surplus de calcul est minime vu que la complexité est la même que les méthodes non robustes. Nous proposons une implémentation efficace dans la librairie Python linlearn et confirmons les avantages de CGD robuste à travers des expériences numériques. La seconde contribution traite le cas en haute dimension où l'optimisation se fait par méthode non-Euclidienne. Nous développons un cadre d'apprentissage en haute dimension adapté à plusieurs fonctions objectif qui utilise des méthodes d'estimation de gradient robustes adaptées aux métriques non-Euclidiennes spécifiques à chaque problème. Dans le cas de l'estimation éparse standard, on obtient un algorithme efficace et fortement robuste. En plus de l'analyse théorique établissant ces propriétés, nous implémentons cet algorithme dans la librairie linlearn et confirmons ses performances à travers des expériences sur données réelles. La contribution suivante apporte une solution pour les flux de données où les échantillons ne sont accessibles qu'individuellement et séquentiellement. Nous proposons un algorithme SGD tronqué pour l'optimisation stochastique utilisant comme seuils des quantiles de norme de gradient. Grâce à des outils de chaînes de Markov, nous prouvons que l'itération est robuste aux queues lourdes et aux données corrompues et qu'elle converge vers une distribution limite concentrée autour d'un optimum. Dans un autre chapitre, nous utilisons des outils similaires pour étudier les propriétés de convergence et concentration de l'itération SGD classique. En particulier, nous obtenons une borne de concentration non asymptotique pour les moyennes de Polyak-Ruppert. Nos contributions comprennent également un nouvel algorithme de forêt aléatoire appelé WildWood. Ce dernier ajoute un mécanisme d'agrégation par arbre utilisant les échantillons bootstrap pour calculer une prédiction moyenne sur les sous-arbres. Ce calcul est précis et efficace grâce à l'algorithme de "context tree weighting". Un résultat théorique montre que cette agrégation permet d'approcher la performance du meilleur sous-arbre. Nous proposons une implémentation efficace dans la librairie Python wildwood et montrons expérimentalement sa compétitivité avec des méthodes d'ensemble connues comme les forêts aléatoires standards et les algorithmes de boosting. Enfin, nous présentons un algorithme non Bayésien efficace pour la régression logistique en ligne qui peut atteindre le regret optimal et fournissons une analyse préliminaire pour ce dernier. |