Ceci est une ancienne révision du document !
Cette tâche concerne la poursuite des travaux de recherche de l’équipe Document et Apprentissage du LITIS dans le domaine de la reconnaissance de formes et des techniques d’apprentissages statistiques pour le développement de systèmes de vision et de lecture automatique d’images de documents. Il s’agit de proposer des techniques de traitement pour développer des systèmes de traitement automatique des masses de documents numérisés. Les recherches concernent la reconnaissance d’écritures imprimées et manuscrites, la recherche de similarité dans les images, la détection de zones informatives dans les images, l’indexation par le contenu.
Les travaux se décomposent en quatre contributions ou quatre sous-taches que nous décrivons
brièvement ci-dessous.
Module 1 : Localisation de zones d’intérêt dans les images de documents
Cette sous-tâche est consacrée aux techniques d’analyse des images de documents permettant
de localiser et qualifier les différentes zones informatives. Ce module est à vocation très générique
car il ne fait aucune restriction sur le type des documents analysés (fax, courrier imprimé, facture,
courrier manuscrit, formulaire, documents techniques comportant des schémas et/ou des tableaux
etc…). Les zones se déclinent selon les catégories suivantes :
1- zones de textes (imprimées ou manuscrites)
2- tableaux ou structures tabulaires
3- Logos
4- Graphiques
5- Illustrations au trait (schémas)
6- Images
7- Traits
Module 2 : Identification des langues et des scripts
Cette sous-tâche concerne l’identification de la langue et de la nature des scripts des zones de
texte détectées par le module 1. On distinguera les zones imprimées et les zones manuscrites pour
trois langues (Français, Anglais, Arabe)
Module 3 : Reconnaissance d’écritures
Cette sous-tâche concerne le développement des modules de reconnaissance des zones
textuelles pour les trois langues envisagées et dans le cas manuscrits et imprimé. L’approche
développée s’appuie sur les modèles de Markov cachés et les techniques d’apprentissage et de
modélisation statistiques dont l’équipe a acquis une expertise importante à l’occasion des travaux
qu’elle a menés au cours de la dernière période. Du point de vue méthodologique il ‘s’agit de
développer une même approche générique fondée sur cette modélisation, et qui sera déclinée sur
les différents scripts en tenant compte des lexiques et connaissances linguistiques. Les
développements logiciels s’interfaceront avec la plateforme libre Julius.
Module 4 : Analyse sémantique des documents numérisés
Cette sous-tâche concerne l’exploitation des textes reconnus par le Module 3, ainsi que des
propriétés de mise en page des documents identifiée par le Module 1, pour fournir une
interprétation sémantique de certaines zones des documents. On s’intéresse également à proposer
un ordre de lecture du document. Les catégories sémantiques considérées sont les suivantes :
1- Association légendes - figures
2- Champs dates
3- Champ Adresses
4- Association Question- Réponse dans des formulaires
5- Ordre de lecture