Extraction de la mise en page de documents : application à la sécurisation des documents hybrides
Document layout extraction : application to hybrid document security
par Héloïse ALHÉRITIÈRE sous la direction de Nicole VINCENT et de Jean-Marc OGIER
Thèse de doctorat en Traitement du signal et des images
ED 130 Informatique, Télécommunications et Electronique

Soutenue le jeudi 12 septembre 2019 à Université Paris Cité

Sujets
  • Numérisation
  • Publications électroniques
  • Traitement d'images

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-04395919 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Informatique
Resumé
Les documents numériques sont de plus en plus présents dans notre société. Ce format a de nombreux avantages, que ce soit pour la diffusion ou la sauvegarde de documents. La diffusion permet de transmettre facilement des documents, mais ne permet pas de garantir l'intégrité de ceux-ci, ni pour ceux qui le reçoivent, ni pour ceux qui le diffusent. Durant leur cycle de vie, les documents passent généralement d'un état dématérialisé à un état matérialisé et inversement. Les deux formats possèdent leurs avantages et leurs inconvénients, ce qui justifie qu'un même document puisse se retrouver dans les deux états. Lorsque l'on passe d'un format matérialisé à celui dématérialisé, nous obtenons une image, un ensemble de pixels qu'il faut interpréter. Les différentes instances d'un même document que nous pouvons obtenir en scannant ou en imprimant plusieurs fois celui-ci définissent le « document hybride ». Un premier niveau de comparaison peut être réalisé en analysant la mise en page du document. Les méthodes d'extraction de la mise en page sont nombreuses et nous les analysons pour mettre en évidence leurs défauts et leur adéquation à des catégories bien particulières de document. Aussi nous avons développé une méthodologie qui s'appuie sur de nouvelles transformées permettant d'innover dans le mode de représentation d'une image de document. Les segments de droites sont au centre de notre travail. Nous pouvons traiter des documents divers sans avoir recours à un apprentissage supervisé. Nous innovons aussi au niveau de l'évaluation de notre proposition. En effet, dans la perspective de la sécurisation d'un document hybride, à la précision d'une décomposition de la page, nous adjoignons la nécessité de résultats stables pour toutes les instances d'un document.