Semantic-based approaches to enhance sentiment analysis quality
La qualité de données dans l'analyse de sentiments : défis et solutions
par Wissam MAMMAR KOUADRI sous la direction de Salima BENBERNOU
Thèse de doctorat en Intelligence artificielle et décision
ED 130 Informatique, Télécommunications et Electronique

Soutenue le mercredi 24 novembre 2021 à Université Paris Cité

Sujets
  • Analyse de sentiments
  • Apprentissage automatique
  • Cohérence (linguistique)
  • Données massives
  • Markov, Processus de

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-04527111 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Analyse des sentiments, Qualité des données, Résolution des incohérences, Supervision faible, Intégration des données
Resumé
L'analyse de sentiments est le processus d'extraction de la polarité d'un texte. Malgré les avancées de la recherche réalisées dans ce domaine, cette tâche reste difficile à cause de la richesse du langage naturel et la dépendance de la polarité au contexte. En effet, nos expérimentations ont montré que les outils d'analyse de sentiment présentent des incohérences et manquent de qualité de prédiction. Nous avons observé sur des données réelles, que les différents algorithmes d'analyse de sentiment attribuent des différentes polarités au même texte (ex : tweet). Ainsi, deux tweets sémantiquement équivalents sont classifiés différemment par le même algorithme. Ceci est traduit par (1) des incohérences entre algorithmes : deux algorithmes donnent des sorties différentes pour la même entrée, (2) des incohérences intra algorithme : l'algorithme donne des résultats différents pour des entrées sémantiquement équivalentes. Motivé par ces observations, les travaux de recherche dans le domaine de l'apprentissage automatique contradictoire (adversarial machine learning) et l'analyse de sentiment, le travail de thèse consiste à quantifier le phénomène des incohérences dans les outils d'analyse du sentiment, déterminer les causes et les facteurs responsables de ses incohérences, puis proposer une méthode qui résout ses incohérences et enfin étudier l'effet de résoudre les incohérences sur la précision. En se basant sur les résultats des études effectuées, nous proposons une méthode d'analyse de sentiment par supervision faible. La première partie de la thèse est consacrée à étudier le phénomène d'incohérence intra et inter-algorithmes dans les outils d'analyses de sentiment via une étude empirique extensive sur plusieurs axes (statistique, structurel et sémantique), pour déterminer les causes et les facteurs qui vont influencer sur les incohérences, ainsi que la création d'un benchmark de test et la proposition d'une heuristique pour affiner sa qualité. Nos résultats ont montré que les incohérences sont fréquentes dans toutes les catégories d'algorithmes d'analyse de sentiment. La deuxième partie est dédiée à la proposition d'une méthode pour résoudre les deux types d'incohérences intra et inter- algorithmes et d'étudier l'effet de la résolution de ces incohérences sur la précision. Pour cela, nous avons développé SAQ, une méthode basée sur la logique probabiliste de Markov (MLN) qui fusionne les étiquettes prévenant de différents algorithmes en résolvant les deux types d'incohérences et améliore la précision. Nous avons étudié l'efficacité de SAQ et nous l'avons comparé à des méthodes de résolution d'incohérence dans le crowdsourcing sur plusieurs corpus de données. Nos résultats montrent que résoudre les deux types d'incohérence améliore la précision. Motivés par nos résultats et l'amélioration de la précision obtenue par la résolution des incohérences, dans la troisième partie de thèse, nous avons proposé WSSA, une méthode d'analyse de sentiment basée sur le paradigme de la classification faible (weak supervision), qui consiste à considérer plusieurs outils d'analyse de sentiment comme source d'étiquettes faibles, puis réduit les incohérences entre ces algorithmes en proposant un algorithme itératif qui permet de classer les algorithmes selon leurs pondérations et inférer la polarité optimale du système en utilisant des mécanismes d'inférence logique probabiliste sur la base du modèle Probabilistic Soft Logic.