Dématérialisation

Cette tâche concerne la poursuite des travaux de recherche de l’équipe Document et Apprentissage du LITIS dans le domaine de la reconnaissance de formes et des techniques d’apprentissages statistiques pour le développement de systèmes de vision et de lecture automatique d’images de documents. Il s’agit de proposer des techniques de traitement pour développer des systèmes de traitement automatique des masses de documents numérisés. Les recherches concernent la reconnaissance d’écritures imprimées et manuscrites, la recherche de similarité dans les images, la détection de zones informatives dans les images, l’indexation par le contenu.

Les travaux se décomposent en quatre contributions ou quatre sous-taches que nous décrivons brièvement ci-dessous.

Module 1 : Localisation de zones d’intérêt dans les images de documents Cette sous-tâche est consacrée aux techniques d’analyse des images de documents permettant de localiser et qualifier les différentes zones informatives. Ce module est à vocation très générique car il ne fait aucune restriction sur le type des documents analysés (fax, courrier imprimé, facture, courrier manuscrit, formulaire, documents techniques comportant des schémas et/ou des tableaux etc…). Les zones se déclinent selon les catégories suivantes :

1- zones de textes (imprimées ou manuscrites)

2- tableaux ou structures tabulaires

3- Logos

4- Graphiques

5- Illustrations au trait (schémas)

6- Images

7- Traits

Module 2 : Identification des langues et des scripts Cette sous-tâche concerne l’identification de la langue et de la nature des scripts des zones de texte détectées par le module 1. On distinguera les zones imprimées et les zones manuscrites pour trois langues (Français, Anglais, Arabe)

Module 3 : Reconnaissance d’écritures

Cette sous-tâche concerne le développement des modules de reconnaissance des zones textuelles pour les trois langues envisagées et dans le cas manuscrits et imprimé. L’approche développée s’appuie sur les modèles de Markov cachés et les techniques d’apprentissage et de modélisation statistiques dont l’équipe a acquis une expertise importante à l’occasion des travaux qu’elle a menés au cours de la dernière période. Du point de vue méthodologique il ‘s’agit de développer une même approche générique fondée sur cette modélisation, et qui sera déclinée sur les différents scripts en tenant compte des lexiques et connaissances linguistiques. Les développements logiciels s’interfaceront avec la plateforme libre Julius.

Module 4 : Analyse sémantique des documents numérisés

Cette sous-tâche concerne l’exploitation des textes reconnus par le Module 3, ainsi que des propriétés de mise en page des documents identifiée par le Module 1, pour fournir une interprétation sémantique de certaines zones des documents. On s’intéresse également à proposer un ordre de lecture du document. Les catégories sémantiques considérées sont les suivantes :

1- Association légendes - figures

2- Champs dates

3- Champ Adresses

4- Association Question- Réponse dans des formulaires

5- Ordre de lecture