Extraction automatisée des données du texte médical du dossier patient informatisé pour le phénotypage profond et la prédiction des risques en cardiologie pédiatrique
Automated extraction of medical text data from electronic patient records for deep phenotyping and risk prediction in pediatric cardiology
par Sophie QUENNELLE sous la direction de Anita BURGUN
Thèse de doctorat en Informatique médicale
ED 393 École doctorale Pierre Louis de santé publique : épidémiologie et sciences de l'information biomédicale

Soutenue le vendredi 15 décembre 2023 à Université Paris Cité

Sujets
  • Cardiologie pédiatrique
  • Médecine prédictive
  • Systèmes informatisés de dossiers médicaux
  • Traitement automatique du langage naturel

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Dossier patient informatisé, Réutilisation des données de soins, Traitement automatique du langage, Apprentissage actif, Apprentissage machine, Cardiologie pédiatrique, Insuffisance cardiaque à fraction d'éjection préservée, Cathétérisme cardiaque, Score de risque
Resumé
Le dossier patient informatisé est une mine d'information mais une grande partie des données sont sous la forme de texte narratif et donc non structurées, leur extraction automatisée est un défis majeur pour la recherche clinique. Nous présentons trois approches de traitement du langage, appliquées à l'entrepôt de données de santé de Necker-Enfants Malades, pour la recherche clinique et la prévention des risques en cardiologie pédiatrique. La première partie de la thèse introduit et évalue le Smart Data Extractor (SDE), un outil semi-automatisé développé pour faciliter la collecte de données de recherche clinique à partir des dossiers médicaux. Au travers d'une étude comparative, nous avons démontré que l'emploi du SDE permet de diminuer le temps requis pour compléter un formulaire de recherche clinique et de réduire les erreurs par rapport à la saisie manuelle des données. Dans la deuxième partie, le SDE a été utilisé pour identifier, au sein de l'entrepôt, 137 patients pédiatriques atteints d'insuffisance cardiaque à fraction d'éjection préservée (IC-FEP), un phénotype rare chez les enfants. Les résultats ont révélé les principales cardiopathies associées à l'IC-FEP chez les enfants ainsi que certains facteurs pronostic. Enfin, nous présentons un modèle d'automatisation du calcul d'un score de risque d'événements indésirables graves liés au cathétérisme cardiaque chez les enfants. Afin de détecter les rares événements indésirables dans le texte clinique nous avons fait appel à des méthodes d'active learning pour l'annotation du texte et de machine learning pour la classification des événements.