Outils pour utilisateurs

Outils du site


dematerialisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Both sides previous revision Révision précédente
dematerialisation [2013/11/29 16:07]
jonathan
dematerialisation [2013/11/29 16:09] (Version actuelle)
jonathan
Ligne 4: Ligne 4:
 Cette tâche concerne la poursuite des travaux de recherche de l’équipe Document et Apprentissage du LITIS dans le domaine de la reconnaissance de formes et des techniques d’apprentissages statistiques pour le développement de systèmes de vision et de lecture automatique d’images de documents. Il s’agit de proposer des techniques de traitement pour développer des systèmes de traitement automatique des masses de documents numérisés. Les recherches concernent la reconnaissance d’écritures imprimées et manuscrites,​ la recherche de similarité dans les images, la détection de zones informatives dans les images, l’indexation par le contenu. Cette tâche concerne la poursuite des travaux de recherche de l’équipe Document et Apprentissage du LITIS dans le domaine de la reconnaissance de formes et des techniques d’apprentissages statistiques pour le développement de systèmes de vision et de lecture automatique d’images de documents. Il s’agit de proposer des techniques de traitement pour développer des systèmes de traitement automatique des masses de documents numérisés. Les recherches concernent la reconnaissance d’écritures imprimées et manuscrites,​ la recherche de similarité dans les images, la détection de zones informatives dans les images, l’indexation par le contenu.
  
-Les travaux se décomposent en quatre contributions ou quatre sous-taches que nous décrivons+Les travaux se décomposent en quatre contributions ou quatre sous-taches que nous décrivons ​brièvement ci-dessous.
  
-brièvement ci-dessous. + Module 1 : Localisation de zones d’intérêt dans les images de documents Cette sous-tâche est consacrée aux techniques d’analyse des images de documents permettant de localiser et qualifier les différentes zones informatives. Ce module est à vocation très générique car il ne fait aucune restriction sur le type des documents analysés (fax, courrier imprimé, facture, courrier manuscrit, formulaire, documents techniques comportant des schémas et/ou des tableaux etc…). Les zones se déclinent selon les catégories suivantes : 
- +
-  +
- +
-Module 1 : Localisation de zones d’intérêt dans les images de documents ​ +
- +
-Cette sous-tâche est consacrée aux techniques d’analyse des images de documents permettant ​ +
- +
-de localiser et qualifier les différentes zones informatives. Ce module est à vocation très générique ​ +
- +
-car il ne fait aucune restriction sur le type des documents analysés (fax, courrier imprimé, facture, ​ +
- +
-courrier manuscrit, formulaire, documents techniques comportant des schémas et/ou des tableaux ​ +
- +
-etc…). Les zones se déclinent selon les catégories suivantes : +
  
 1- zones de textes (imprimées ou manuscrites) 1- zones de textes (imprimées ou manuscrites)
Ligne 38: Ligne 24:
    
  
-Module 2 : Identification des langues et des scripts ​ +Module 2 : Identification des langues et des scripts Cette sous-tâche concerne l’identification de la langue et de la nature des scripts des zones de texte détectées par le module 1. On distinguera les zones imprimées et les zones manuscrites pour trois langues (Français, Anglais, Arabe) ​
- +
-Cette sous-tâche concerne l’identification de la langue et de la nature des scripts des zones de  +
- +
-texte détectées par le module 1. On distinguera les zones imprimées et les zones manuscrites pour  +
- +
-trois langues (Français, Anglais, Arabe) ​+
  
    
Ligne 50: Ligne 30:
 Module 3 : Reconnaissance d’écritures Module 3 : Reconnaissance d’écritures
  
-Cette sous-tâche concerne le développement des modules de reconnaissance des zones  +Cette sous-tâche concerne le développement des modules de reconnaissance des zones textuelles pour les trois langues envisagées et dans le cas manuscrits et imprimé. L’approche développée s’appuie sur les modèles de Markov cachés et les techniques d’apprentissage et de modélisation statistiques dont l’équipe a acquis une expertise importante à l’occasion des travaux qu’elle a menés au cours de la dernière période. Du point de vue méthodologique il ‘s’agit de développer une même approche générique fondée sur cette modélisation,​ et qui sera déclinée sur les différents scripts en tenant compte des lexiques et connaissances linguistiques. Les développements logiciels s’interfaceront avec la plateforme libre Julius. ​
- +
-textuelles pour les trois langues envisagées et dans le cas manuscrits et imprimé. L’approche ​ +
- +
-développée s’appuie sur les modèles de Markov cachés et les techniques d’apprentissage et de  +
- +
-modélisation statistiques dont l’équipe a acquis une expertise importante à l’occasion des travaux ​ +
- +
-qu’elle a menés au cours de la dernière période. Du point de vue méthodologique il ‘s’agit de  +
- +
-développer une même approche générique fondée sur cette modélisation,​ et qui sera déclinée sur  +
- +
-les différents scripts en tenant compte des lexiques et connaissances linguistiques. Les  +
- +
-développements logiciels s’interfaceront avec la plateforme libre Julius. ​+
  
    
Ligne 70: Ligne 36:
 Module 4 : Analyse sémantique des documents numérisés ​ Module 4 : Analyse sémantique des documents numérisés ​
  
-Cette sous-tâche concerne l’exploitation des textes reconnus par le Module 3, ainsi que des  +Cette sous-tâche concerne l’exploitation des textes reconnus par le Module 3, ainsi que des propriétés de mise en page des documents identifiée par le Module 1, pour fournir une interprétation sémantique de certaines zones des documents. On s’intéresse également à proposer un ordre de lecture du document. Les catégories sémantiques considérées sont les suivantes : 
- +
-propriétés de mise en page des documents identifiée par le Module 1, pour fournir une  +
- +
-interprétation sémantique de certaines zones des documents. On s’intéresse également à proposer ​ +
- +
-un ordre de lecture du document. Les catégories sémantiques considérées sont les suivantes : +
  
 1- Association légendes - figures ​ 1- Association légendes - figures ​
dematerialisation.1385737631.txt.gz · Dernière modification: 2013/11/29 16:07 par jonathan