Modélisation et apprentissage machine learning appliqués à l'estimation des dommages consécutifs à la survenance d'un événement de sécheresse par retrait-gonflement des argiles dans le cadre du régime d'indemnisation des catastrophes naturelles français
Modeling and machine learning applied to the assessment of the cost of a drought event within the French natural disaster compensation scheme
par Geoffrey ECOTO DICKA sous la direction de Antoine CHAMBAZ
Thèse de doctorat en Mathématiques appliquées
ED 386 Sciences Mathematiques de Paris Centre

Soutenue le mardi 19 décembre 2023 à Université Paris Cité

Sujets
  • Apprentissage automatique
  • Catastrophes naturelles
  • Effets de la sécheresse
  • Prévision
  • Statistique
  • Transport optimal de mesure

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-04637025 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Catastrophes naturelles, Machine learning, Événements sécheresse, Statistique, Super learning, Transport optimal
Resumé
Cette thèse est consacrée à l'anticipation de l'impact financier sur les biens assurés de la survenance d'un événement de sécheresse grâce au recours à des méthodes au croisement de la statistique et du machine learning. Le terme sécheresse désigne ici le phénomène de retrait-gonflement des argiles provoquant des dommages aux bâtiments. L'exercice peut être décomposé en deux sous-problèmes que nous abordons tour à tour. Le premier sous-problème considère plus spécifiquement la tâche consistant à prédire quelles communes formuleront une demande de reconnaissance de l'état de catastrophe naturelle au titre de l'événement sécheresse. Le second est consacré à la prédiction de l'impact financier de l'événement sécheresse sur les biens assurés situés dans les communes reconnues en état de catastrophe naturelle. Dans le cadre du premier sous-problème, nous développons, étudions et appliquons un algorithme original pour la prédiction des demandes de reconnaissance de l'état de catastrophe naturelle. L'algorithme bénéficie de deux formalisations complémentaires de la tâche d'intérêt, abordé sous l'angle de la classification supervisée et comme un problème de transport optimal. Les prédictions finales sont obtenues comme moyenne géométrique des deux types de prédictions. Théoriquement, le plan de transport optimal peut être obtenu en appliquant l'algorithme iPiano [Ochs et al., 2015], dont nous prouvons que les hypothèses qui sous-tendent son analyse sont bien vérifiées. L'analyse des prédictions obtenues démontre la pertinence de l'algorithme. Dans le cadre du second sous-problème, nous développons, étudions et appliquons un algorithme original d'agrégation d'algorithmes inspiré du Super Learner [van der Laan, 2007]. Deux écueils doivent être pris en compte. D'une part, parce que le péril sécheresse n'est couvert par le régime d'indemnisation des catastrophes naturelles français que depuis 1989, le nombre d'événements sécheresse sur lesquels nous pouvons entraîner notre algorithme est réduit, chaque événement sécheresse se voyant associer un jeu de données de grande taille. D'autre part, à la dépendance temporelle s'ajoute une dépendance spatiale due notamment aux proximités géographique et administrative entre communes françaises. Fondée sur une modélisation de la dépendance à l'aide d'un graphe de dépendance, l'étude théorique révèle que la brièveté de la série temporelle peut être compensée si la dépendance spatiale est faible. De nouveau, l'analyse des prédictions obtenues démontre la pertinence de notre algorithme.