These Descartes

Data series indexes that learn

Index de séries de données qui apprennent

par Qitong WANG sous la direction de Themis PALPANAS
Thèse de doctorat en Science des données
ED 130 Informatique, Télécommunications et Electronique

Soutenue le vendredi 29 septembre 2023 à Université Paris Cité

Sujets

Analyse des données
Apprentissage profond
Détection des anomalies (informatique)
Séries chronologiques

Le texte intégral n’est pas librement disponible sur le web

Vous pouvez accéder au texte intégral de la thèse en vous authentifiant à l’aide des identifiants ENT d’Université Paris Cité, si vous en êtes membre, ou en demandant un accès extérieur, si vous pouvez justifier de de votre appartenance à un établissement français chargé d’une mission d’enseignement supérieur ou de recherche

Se connecter ou demander un accès au texte intégral

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

Theses.fr

Description en anglais

Description en français

Mots clés	Séries de données, Recherche de similarité, Index, Apprentissage profond
Resumé	Les capteurs modernes ont révolutionné la collecte de données dans divers domaines scientifiques, générant d'immenses collections de séries de données. La recherche de similarités entre séries de données, qui consiste à trouver la série la plus proche d'une série de requête en utilisant des métriques telles que la distance euclidienne, est courante. Les index améliorent la vitesse de recherche, souvent basée sur des représentations synthétisées de plus basse dimension, comme l'approximation symbolique d'agrégats (SAX) et l'approximation constante par morceaux adaptative étendue (EAPCA). Cette thèse identifie des limitations dans la synthétisation et l'indexation pour certaines séries de données. Par exemple, les méthodes basées sur SAX, à la pointe de la technologie, peinent avec des caractéristiques spécifiques des ensembles de données, telles que les hautes fréquences. De même, les méthodes d'élagage iSAX et DSTree ne parviennent souvent pas à atteindre des performances optimales, où seul un nœud feuille est visité. Pour remédier à ces problèmes, la thèse propose un index de séries de données basé sur les approximations d'intégration profonde (DEA), remplaçant les synthétisations traditionnelles comme l'approximation par morceaux agrégés (PAA). DEA vise à préserver les distances par paires dans un espace de dimension inférieure, permettant une symbolisation facile en SAX. Le nouvel autoencodeur SEAnet et la méthode de régularisation SoS preservation sont proposés, avec un entraînement efficace via SEA-Sampling. Pour résoudre les problèmes d'élagage, la thèse suggère d'améliorer les index de séries de données avec des filtres appris, suivant le cadre LeaFi. Cela complète les techniques d'élagage basées sur la synthétisation traditionnelle, offrant un filtrage efficace tout en préservant la qualité. Dans le contexte de la qualité des réponses aux requêtes, la thèse étend les techniques d'estimation statistique postérieure issues de régressions conformes inductives. L'application de SEAnet en neurosciences pour la détection des décharges épileptiformes interictales (IED) est discutée, en particulier l'approche d'apprentissage profond iEDeaL, qui gère le déséquilibre des classes. Des expériences approfondies confirment l'efficacité de ces approches, mettant en évidence la supériorité de DEA dans la préservation des distances par paires, des gains d'efficacité de 10 fois avec les index LeaFi améliorés et des améliorations significatives du score F1 dans iEDeaL. En conclusion, cette thèse explore l'utilisation de l'apprentissage profond pour améliorer la recherche de similarités entre séries de données, la rendant plus adaptable aux ensembles de données et aux charges de travail. Elle couvre l'apprentissage de la synthétisation et des index, et applique avec succès ces techniques à des problèmes concrets en neurosciences. Les recherches futures visent à établir des bases théoriques, notamment des garanties de qualité probabilistes sur les synthétisations apprises et l'apprentissage conjoint de la synthétisation et des structures d'index. De plus, l'accent est mis sur l'expansion des applications à d'autres types de motifs dans la détection par EEG.

Mots clés

Séries de données, Recherche de similarité, Index, Apprentissage profond

Resumé

Les capteurs modernes ont révolutionné la collecte de données dans divers domaines scientifiques, générant d'immenses collections de séries de données. La recherche de similarités entre séries de données, qui consiste à trouver la série la plus proche d'une série de requête en utilisant des métriques telles que la distance euclidienne, est courante. Les index améliorent la vitesse de recherche, souvent basée sur des représentations synthétisées de plus basse dimension, comme l'approximation symbolique d'agrégats (SAX) et l'approximation constante par morceaux adaptative étendue (EAPCA). Cette thèse identifie des limitations dans la synthétisation et l'indexation pour certaines séries de données. Par exemple, les méthodes basées sur SAX, à la pointe de la technologie, peinent avec des caractéristiques spécifiques des ensembles de données, telles que les hautes fréquences. De même, les méthodes d'élagage iSAX et DSTree ne parviennent souvent pas à atteindre des performances optimales, où seul un nœud feuille est visité. Pour remédier à ces problèmes, la thèse propose un index de séries de données basé sur les approximations d'intégration profonde (DEA), remplaçant les synthétisations traditionnelles comme l'approximation par morceaux agrégés (PAA). DEA vise à préserver les distances par paires dans un espace de dimension inférieure, permettant une symbolisation facile en SAX. Le nouvel autoencodeur SEAnet et la méthode de régularisation SoS preservation sont proposés, avec un entraînement efficace via SEA-Sampling. Pour résoudre les problèmes d'élagage, la thèse suggère d'améliorer les index de séries de données avec des filtres appris, suivant le cadre LeaFi. Cela complète les techniques d'élagage basées sur la synthétisation traditionnelle, offrant un filtrage efficace tout en préservant la qualité. Dans le contexte de la qualité des réponses aux requêtes, la thèse étend les techniques d'estimation statistique postérieure issues de régressions conformes inductives. L'application de SEAnet en neurosciences pour la détection des décharges épileptiformes interictales (IED) est discutée, en particulier l'approche d'apprentissage profond iEDeaL, qui gère le déséquilibre des classes. Des expériences approfondies confirment l'efficacité de ces approches, mettant en évidence la supériorité de DEA dans la préservation des distances par paires, des gains d'efficacité de 10 fois avec les index LeaFi améliorés et des améliorations significatives du score F1 dans iEDeaL. En conclusion, cette thèse explore l'utilisation de l'apprentissage profond pour améliorer la recherche de similarités entre séries de données, la rendant plus adaptable aux ensembles de données et aux charges de travail. Elle couvre l'apprentissage de la synthétisation et des index, et applique avec succès ces techniques à des problèmes concrets en neurosciences. Les recherches futures visent à établir des bases théoriques, notamment des garanties de qualité probabilistes sur les synthétisations apprises et l'apprentissage conjoint de la synthétisation et des structures d'index. De plus, l'accent est mis sur l'expansion des applications à d'autres types de motifs dans la détection par EEG.