Mots clés |
Dialogue, Espace de réponse, Développement de taxonomie, Dialogue en Ouïghour, Construction de corpus de dialogues, Réponses indirectes, Questions en Wh, Linguistique computationnelle, Machine learning, Deep learning |
Resumé |
Le dialogue est le principal moyen de communication humaine. Dans nos interactions sociales quotidiennes, nous nous engageons dans des conversations pour partager des connaissances et échanger des informations, des idées et des expériences. De plus, les dialogues jouent un rôle fondamental dans la construction et le renforcement des relations, l'établissement de la confiance, le partage des émotions, l'adressage des problèmes et la médiation des conflits. Diverses théories et recherches ont exploré le dialogue sous différents angles. Les avancées dans l'apprentissage automatique et l'apprentissage profond ont réalisé des résultats révolutionnaires dans la modélisation des dialogues humains complexes au sein des machines. De nombreuses études examinent également diverses questions sous différents points de vue, en utilisant différentes méthodologies linguistiques et logiques. Malgré ces efforts, il reste un vide dans la caractérisation complète et systématique de l'éventail des réponses aux questions dans les dialogues. Par conséquent, cette thèse vise à développer une classification complète et systématique des réponses aux questions dans les dialogues. Nous introduisons une taxonomie de l'espace de réponse théoriquement fondée et empiriquement testée avec neuf classes de réponses uniques, fournissant une représentation formelle pour chacune dans un cadre de sémantique formelle dialogique. Pour évaluer notre taxonomie à travers les langues, nous avons mené une étude comparative avec l'ouïghour, une langue turcique à faibles ressources avec des caractéristiques uniques par rapport à l'anglais. Étant donné l'absence de corpus de dialogues en ouïghour, nous avons conçu deux approches pour recueillir des dialogues en ouïghour : la méthode Game with a Purpose (GWAP) et l'utilisation d'une plateforme de communication personnalisable en accès ouvert. Cela a abouti à la création du premier corpus de dialogues en ouïghour basé sur le chat librement disponible (UgChDial), annoté avec notre taxonomie de l'espace de réponse. Notre étude comparative des réponses en anglais et en ouïghour aux questions révèle une distribution généralement similaire des classes de réponses dans ces deux langues, avec quelques exceptions. La taxonomie a couvert plus de 99,0% des paires de questions-réponses dans les deux langues. De plus, nous avons mené des investigations préliminaires pour automatiser la classification de l'espace de réponse des questions dans les dialogues. Nous avons conçu 26 paramètres pour capturer les caractéristiques syntaxiques, sémantiques et lexicales des questions et des réponses. Ces paramètres ont ensuite été utilisées pour contraster les résultats de classifications automatiques dérivées d'algorithmes de Machine Learning traditionnels avec les résultats obtenus à partir d'un modèle de langue BERT pré-entraîné à grande échelle. Cette thèse aborde également le défi d'interpréter les réponses indirectes pour diverses questions en wh. Nous avons construit un corpus unique de telles réponses en anglais, considéré comme le premier en son genre, et mené une étude préliminaire sur la génération de ces réponses en utilisant le modèle de langage génératif pré-entraîné, DialoGPT. Nos résultats suggèrent que cette tâche pose des défis importants pour des modèles comme GPT, en raison de la nature complexe et lourde en inférence des réponses indirectes. |