Resumé |
Les capteurs modernes ont révolutionné la collecte de données dans divers domaines scientifiques, générant d'immenses collections de séries de données. La recherche de similarités entre séries de données, qui consiste à trouver la série la plus proche d'une série de requête en utilisant des métriques telles que la distance euclidienne, est courante. Les index améliorent la vitesse de recherche, souvent basée sur des représentations synthétisées de plus basse dimension, comme l'approximation symbolique d'agrégats (SAX) et l'approximation constante par morceaux adaptative étendue (EAPCA). Cette thèse identifie des limitations dans la synthétisation et l'indexation pour certaines séries de données. Par exemple, les méthodes basées sur SAX, à la pointe de la technologie, peinent avec des caractéristiques spécifiques des ensembles de données, telles que les hautes fréquences. De même, les méthodes d'élagage iSAX et DSTree ne parviennent souvent pas à atteindre des performances optimales, où seul un nœud feuille est visité. Pour remédier à ces problèmes, la thèse propose un index de séries de données basé sur les approximations d'intégration profonde (DEA), remplaçant les synthétisations traditionnelles comme l'approximation par morceaux agrégés (PAA). DEA vise à préserver les distances par paires dans un espace de dimension inférieure, permettant une symbolisation facile en SAX. Le nouvel autoencodeur SEAnet et la méthode de régularisation SoS preservation sont proposés, avec un entraînement efficace via SEA-Sampling. Pour résoudre les problèmes d'élagage, la thèse suggère d'améliorer les index de séries de données avec des filtres appris, suivant le cadre LeaFi. Cela complète les techniques d'élagage basées sur la synthétisation traditionnelle, offrant un filtrage efficace tout en préservant la qualité. Dans le contexte de la qualité des réponses aux requêtes, la thèse étend les techniques d'estimation statistique postérieure issues de régressions conformes inductives. L'application de SEAnet en neurosciences pour la détection des décharges épileptiformes interictales (IED) est discutée, en particulier l'approche d'apprentissage profond iEDeaL, qui gère le déséquilibre des classes. Des expériences approfondies confirment l'efficacité de ces approches, mettant en évidence la supériorité de DEA dans la préservation des distances par paires, des gains d'efficacité de 10 fois avec les index LeaFi améliorés et des améliorations significatives du score F1 dans iEDeaL. En conclusion, cette thèse explore l'utilisation de l'apprentissage profond pour améliorer la recherche de similarités entre séries de données, la rendant plus adaptable aux ensembles de données et aux charges de travail. Elle couvre l'apprentissage de la synthétisation et des index, et applique avec succès ces techniques à des problèmes concrets en neurosciences. Les recherches futures visent à établir des bases théoriques, notamment des garanties de qualité probabilistes sur les synthétisations apprises et l'apprentissage conjoint de la synthétisation et des structures d'index. De plus, l'accent est mis sur l'expansion des applications à d'autres types de motifs dans la détection par EEG. |