These Descartes

Vers un apprentissage efficace en ressources pour l'analyse linguistique automatique

Toward resource-efficient learning in automatic linguistic analysis

par Fang ZHAO sous la direction de Benoît CRABBÉ
Thèse de doctorat en Linguistique
ED 622 Sciences du langage

Soutenue le jeudi 03 avril 2025 à Université Paris Cité

Sujets

Analyse automatique (linguistique)
Apprentissage par renforcement (intelligence artificielle)
Parties du discours (linguistique)
Sémantique
Syntaxe

Le texte intégral n’est pas librement disponible sur le web

Vous pouvez accéder au texte intégral de la thèse en vous authentifiant à l’aide des identifiants ENT d’Université Paris Cité, si vous en êtes membre, ou en demandant un accès extérieur, si vous pouvez justifier de de votre appartenance à un établissement français chargé d’une mission d’enseignement supérieur ou de recherche

Se connecter ou demander un accès au texte intégral

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

Theses.fr

Description en anglais

Description en français

Mots clés	Apprentissage efficace en données, Interprétabilité, Analyse linguistique automatique, Parties du discours, Syntaxe, Sémantique, Apprentissage semi-supervisé, Apprentissage par renforcement, Auto-correction
Resumé	Traitement Automatique des Langues (TAL) a évolué d'approches basées sur des règles à des méthodes pilotées par les données, grâce à l'apprentissage profond. Cependant, bien que les systèmes modernes de bout en bout aient obtenu des performances élevées dans diverses tâches, ils nécessitent d'importantes ressources computationnelles, manquent d'interprétabilité et présentent des capacités de généralisation limitées. Contrairement à la tendance qui s'éloigne de l'expertise linguistique, la modélisation linguistique explicite offre une solution prometteuse à ces problèmes. En particulier, la modélisation jointe de plusieurs niveaux d'analyse linguistique permet de tirer parti des interactions linguistiques sans courir le risque de propagation d'erreurs, comme dans les chaînes de traitement classiques. Cependant, l'entraînement de modèles joints nécessite des données annotées pour toutes les tâches, et la rareté de ces données limite considérablement leur application. De plus, la création de jeux de données annotés à plusieurs niveaux est une tâche exigente en ressources, posant un défi particulièrement prononcé pour les langues à ressources limitées. Dans ce contexte, cette thèse cherche à atténuer le problème de la rareté des données dans l'analyse linguistique jointe. Nous commençons par élargir la portée des données disponibles en entraînant des analyseurs joints avec des données disjointes --- des jeux de données annotés uniquement pour un sous-ensemble des tâches modélisées. Ce s'est avérée une méthode efficace pour des modèles à base de graphes. Dans cette thèse, nous démontrons qu'un analyseur à base de transitions, qui prédit de manière jointe les étiquettes morphosyntaxiques et les dépendances syntaxiques, peut également apprendre efficacement à partir de données disjointes grâce à des techniques d'apprentissage semi-supervisé. En outre, étant donné les origines diverses des jeux de données qui composent les données disjointes, notre méthode avec apprentissage semi-supervisé aborde également le problème du décalage de domaine, permettant au modèle de se généraliser sur des distributions de données variées. Notre deuxième axe pour atténuer le problème de rareté des données porte sur l'amélioration des performances des modèles grâce à l'auto-correction. Cela consiste à doter les modèles de la capacité de modifier leurs prédictions précédentes. À ce jour, l'auto-correction dans le domaine de l'analyse linguistique automatique a été peu explorée. Dans cette thèse, nous explorons l'auto-correction dans un analyseur à base de transitions, qui effectue de manière jointe des analyses (morpho)syntaxiques et sémantiques. Pendant l'analyse, une action est choisie pour chaque token de la phrase d'entrée à chaque étape, et cela se répète jusqu'à ce que l'analyse soit terminée pour toutes les tâches. En particulier, son système de transitions permet à une action de remplacer les annotations précédemment prédites, d'où vient la capacité d'auto-correction. Cependant, cette étude révèle des résultats mitigés : bien que la performance syntaxique bénéficie de l'auto-correction, celle-ci nuit la performance sémantique. Des expériences supplémentaires montrent que les effets de l'auto-correction sont plus marqués lorsque le modèle est relativement petit. Dans l'ensemble, nous constatons que l'utilité de l'auto-correction pour améliorer les performances globales du modèle est limitée. Les implications de ce travail s'inscrivent dans des objectifs plus larges du TAL. En réduisant la dépendance aux données annotées à plusieurs niveaux et en mettant l'accent sur des modèles efficaces en ressources, les méthodes explorées dans cette thèse contrastent avec la tendance des approches de bout en bout exigentes en ressources et favorisent un accès équitable aux outils de TAL, en particulier pour les langues et les domaines à ressources limitées.

Mots clés

Apprentissage efficace en données, Interprétabilité, Analyse linguistique automatique, Parties du discours, Syntaxe, Sémantique, Apprentissage semi-supervisé, Apprentissage par renforcement, Auto-correction

Resumé

Traitement Automatique des Langues (TAL) a évolué d'approches basées sur des règles à des méthodes pilotées par les données, grâce à l'apprentissage profond. Cependant, bien que les systèmes modernes de bout en bout aient obtenu des performances élevées dans diverses tâches, ils nécessitent d'importantes ressources computationnelles, manquent d'interprétabilité et présentent des capacités de généralisation limitées. Contrairement à la tendance qui s'éloigne de l'expertise linguistique, la modélisation linguistique explicite offre une solution prometteuse à ces problèmes. En particulier, la modélisation jointe de plusieurs niveaux d'analyse linguistique permet de tirer parti des interactions linguistiques sans courir le risque de propagation d'erreurs, comme dans les chaînes de traitement classiques. Cependant, l'entraînement de modèles joints nécessite des données annotées pour toutes les tâches, et la rareté de ces données limite considérablement leur application. De plus, la création de jeux de données annotés à plusieurs niveaux est une tâche exigente en ressources, posant un défi particulièrement prononcé pour les langues à ressources limitées. Dans ce contexte, cette thèse cherche à atténuer le problème de la rareté des données dans l'analyse linguistique jointe. Nous commençons par élargir la portée des données disponibles en entraînant des analyseurs joints avec des données disjointes --- des jeux de données annotés uniquement pour un sous-ensemble des tâches modélisées. Ce s'est avérée une méthode efficace pour des modèles à base de graphes. Dans cette thèse, nous démontrons qu'un analyseur à base de transitions, qui prédit de manière jointe les étiquettes morphosyntaxiques et les dépendances syntaxiques, peut également apprendre efficacement à partir de données disjointes grâce à des techniques d'apprentissage semi-supervisé. En outre, étant donné les origines diverses des jeux de données qui composent les données disjointes, notre méthode avec apprentissage semi-supervisé aborde également le problème du décalage de domaine, permettant au modèle de se généraliser sur des distributions de données variées. Notre deuxième axe pour atténuer le problème de rareté des données porte sur l'amélioration des performances des modèles grâce à l'auto-correction. Cela consiste à doter les modèles de la capacité de modifier leurs prédictions précédentes. À ce jour, l'auto-correction dans le domaine de l'analyse linguistique automatique a été peu explorée. Dans cette thèse, nous explorons l'auto-correction dans un analyseur à base de transitions, qui effectue de manière jointe des analyses (morpho)syntaxiques et sémantiques. Pendant l'analyse, une action est choisie pour chaque token de la phrase d'entrée à chaque étape, et cela se répète jusqu'à ce que l'analyse soit terminée pour toutes les tâches. En particulier, son système de transitions permet à une action de remplacer les annotations précédemment prédites, d'où vient la capacité d'auto-correction. Cependant, cette étude révèle des résultats mitigés : bien que la performance syntaxique bénéficie de l'auto-correction, celle-ci nuit la performance sémantique. Des expériences supplémentaires montrent que les effets de l'auto-correction sont plus marqués lorsque le modèle est relativement petit. Dans l'ensemble, nous constatons que l'utilité de l'auto-correction pour améliorer les performances globales du modèle est limitée. Les implications de ce travail s'inscrivent dans des objectifs plus larges du TAL. En réduisant la dépendance aux données annotées à plusieurs niveaux et en mettant l'accent sur des modèles efficaces en ressources, les méthodes explorées dans cette thèse contrastent avec la tendance des approches de bout en bout exigentes en ressources et favorisent un accès équitable aux outils de TAL, en particulier pour les langues et les domaines à ressources limitées.