Ceci est une ancienne révision du document !

Dématérialisation

Cette tâche concerne la poursuite des travaux de recherche de l’équipe Document et Apprentissage du LITIS dans le domaine de la reconnaissance de formes et des techniques d’apprentissages statistiques pour le développement de systèmes de vision et de lecture automatique d’images de documents. Il s’agit de proposer des techniques de traitement pour développer des systèmes de traitement automatique des masses de documents numérisés. Les recherches concernent la reconnaissance d’écritures imprimées et manuscrites, la recherche de similarité dans les images, la détection de zones informatives dans les images, l’indexation par le contenu.

Les travaux se décomposent en quatre contributions ou quatre sous-taches que nous décrivons

brièvement ci-dessous.

Module 1 : Localisation de zones d’intérêt dans les images de documents

Cette sous-tâche est consacrée aux techniques d’analyse des images de documents permettant

de localiser et qualifier les différentes zones informatives. Ce module est à vocation très générique

car il ne fait aucune restriction sur le type des documents analysés (fax, courrier imprimé, facture,

courrier manuscrit, formulaire, documents techniques comportant des schémas et/ou des tableaux

etc…). Les zones se déclinent selon les catégories suivantes :

1- zones de textes (imprimées ou manuscrites)

2- tableaux ou structures tabulaires

3- Logos

4- Graphiques

5- Illustrations au trait (schémas)

6- Images

7- Traits

Module 2 : Identification des langues et des scripts

Cette sous-tâche concerne l’identification de la langue et de la nature des scripts des zones de

texte détectées par le module 1. On distinguera les zones imprimées et les zones manuscrites pour

trois langues (Français, Anglais, Arabe)

Module 3 : Reconnaissance d’écritures

Cette sous-tâche concerne le développement des modules de reconnaissance des zones

textuelles pour les trois langues envisagées et dans le cas manuscrits et imprimé. L’approche

développée s’appuie sur les modèles de Markov cachés et les techniques d’apprentissage et de

modélisation statistiques dont l’équipe a acquis une expertise importante à l’occasion des travaux

qu’elle a menés au cours de la dernière période. Du point de vue méthodologique il ‘s’agit de

développer une même approche générique fondée sur cette modélisation, et qui sera déclinée sur

les différents scripts en tenant compte des lexiques et connaissances linguistiques. Les

développements logiciels s’interfaceront avec la plateforme libre Julius.

Module 4 : Analyse sémantique des documents numérisés

Cette sous-tâche concerne l’exploitation des textes reconnus par le Module 3, ainsi que des

propriétés de mise en page des documents identifiée par le Module 1, pour fournir une

interprétation sémantique de certaines zones des documents. On s’intéresse également à proposer

un ordre de lecture du document. Les catégories sémantiques considérées sont les suivantes :

1- Association légendes - figures

2- Champs dates

3- Champ Adresses

4- Association Question- Réponse dans des formulaires

5- Ordre de lecture

Projet PlaIR

Panneau latéral

Dématérialisation

Projet PlaIR

Outils pour utilisateurs

Outils du site

Panneau latéral

Dématérialisation

Outils de la page