Mots clés |
Linguistique de corpus, Syntaxe générative, Théorie de l'information, Variation morpho-Syntaxique, Variation du futur, Redoublement du sujet, Redoublement de l'objet, Français parlé, Surprise, Gpt |
Resumé |
Cette thèse de doctorat se concentre sur la variation morpho-syntaxique en français parlé, en adoptant une approche syntaxique formelle et une approche en lien avec la théorique de l'information. Au moyen des méthodes quantitatives, elle cherche à répondre à deux questions : 1) Dans quelle mesure les études variationnistes contribuent-t-elles à la syntaxe formelle ? 2) La théorie de l'information peut-elle expliquer les préférences des locuteurs face à des choix morpho-syntaxiques ? La première partie de la thèse réunit la variation linguistique et la syntaxe formelle en examinant trois phénomènes de variation : la variation du futur, le redoublement du sujet et le redoublement de l'objet. Nos études de corpus révèlent qu'ils sont tous fortement conditionnés par des effets grammaticaux. La première étude montre que, conformément aux résultats précédents en français laurentien, la polarité a un effet prédominant sur la variation du futur en français parisien multiculturel, le futur synthétique étant préféré dans les négations. Cependant, cet effet est limité aux mots négatifs autres que "pas", qui ne diffère pas des contextes affirmatifs. Je propose que l'effet de polarité résulte d'une contrainte de localité "souple" (probabiliste) sur la concordance négative et attribue la différence dialectale de l'effet de polarité au statut syntaxique différent de "pas" dans différentes variétés de français. Cette analyse permet aussi d'expliquer l'effet de proximité sur la concordance négative entre "pas" et d'autres mots négatifs en français montréalais. La deuxième étude sur le redoublement du sujet apporte un soutien empirique aux analyses de la dislocation et de la morphologie, qui ont fait l'objet d'un débat dans la littérature. En s'appuyant sur les effets de la clause, de la fréquence du verbe et du taux de redoublement, une troisième analyse est proposée qui réconcilie les deux approches précédentes en posant le DP doublé en position topique et le clitique sujet comme marqueur d'accord en T, suggérant le français familier comme une langue pro-drop. En outre, une intervention souple est proposée pour expliquer pourquoi les propositions relatives défavorisent le redoublement du sujet par rapport à d'autres subordonnées. La troisième étude porte sur le redoublement d'objet, montrant que les objets DP doublés se comportent comme des topiques dans la périphérie gauche, mais les clitiques d'objet direct présentent une nature syntaxique distincte : ils sont des clitiques résomptifs, alors que les clitiques sujet sont des affixes sur le verbe, laissant ainsi un paradoxe à l'hypothèse de l'intégrité lexicale. La deuxième partie de la thèse tente d'intégrer la théorie de l'information dans l'étude de la variation linguistique. La variation du futur et le redoublement du sujet sont vues comme des cas de redondance syntaxique, où on s'attend à ce que la surprise joue un rôle, conformément à l'hypothèse de l'Uniformité de densité informationnelle. Un modèle GPT-2 est utilisé pour fournir des estimations de surprise pour les deux phénomènes. Nos expériences n'ont pas permis de mettre en évidence un effet de la surprise sur la variation du futur au-delà des facteurs grammaticaux, peut-être en raison de la complexité du phénomène qui implique d'autres explications cognitives. En revanche, le redoublement du sujet montre un effet robuste de la surprise du sujet nominal en plus des facteurs grammaticaux et cognitifs. L'étude est suivie d'une discussion de l'impact de différentes estimations de la surprise par le modèle GPT dans l'étude du redoublement du sujet et des métriques potentielles pour évaluer la capacité du modèle de langue à simuler la surprise humaine dans le traitement du langage. En conclusion, ce travail démontre que les études variationnistes aident à raffiner la théorie syntaxique et souligne l'importance de la syntaxe formelle et de la théorie de l'information pour comprendre les complexités de la variation en français parlé. |