Outils pour utilisateurs

Outils du site


programme_detaille

Programme détaillé

Description et calendrier prévisionnel des 4 tâches principalees de l’ensemble des partenaires au projet.

WP 1 - Les aspects scientifiques de PlaIR - indexation texte – image – ICR et ontologies

WP1.1 Ontologies & terminologies : traduction semi automatique d’ontologies – amélioration de l’ontologie dans un contexte multi-terminologique et multi-discipline (santé, sciences de l’ingénieur, droit).

Dans ce work package, seront choisies les ontologies et terminologies métiers qui seront choisis dans chaque discipline (santé, sciences de l’ingénieur, droit). Nous savons déjà que concernant la santé de nombreuses terminologies existent (plus d’une centaine au niveau international) et plus d’une dizaine disponible en français. Dans le droit, nous nous restreindrons volontairement au droit du transport. Dans les sciences de l’ingénieur, la classification Dewey sera intégrée.

WP1.2 Catégorisation des textes (documents électronique) ; problématique duale de recherche d’information et de fusion d’outils d’indexation

  • sac de mots/patterns/graphs & différents outils de traitement automatique du langage naturel (TALN)
  • Structures d’index – fast exact matching
  • Cartographie documentaire

Dans ce workpackage, nous élaborerons les principales méthodes et outils dans une double finalité : recherche d’information et indexation. Concernant l’indexation, ces méthodes et outils devront pouvoir mixer une indexation à plusieurs niveaux : manuelle, automatique et supervisée (c’est-à-dire tout d’abord automatique puis révision manuelle). Un programme d’évaluation formelle sera mise en place aboutissant à un benchmark de ces différentes méthodes dans chaque contexte de chaque discipline.

WP1.3 Analyse de corpus et du statut sémiotique des données et de la place de l’interprétant - Définition de protocoles et analyses des pratiques et usages métiers

Dans ce workpackage, les corpus ne seront pas considérés comme de simples recueils indifférenciés de textes car leur constitution implique un certain nombre de critères d’homogénéité mais aussi de contraste. Cela supposera d’appréhender un ensemble représentatif de productions où chaque sphère d’utilisation de la langue élabore ses types relativement stables d’énoncés que l’on appelle des genres. Nous nous intéresserons au statut sémiotique des données ainsi qu’à la place de l’interprétant Ceci interrogera le rôle des outils en extraction assistée de termes que nous aborderons comme des thématiques. C’est une démarche linguistique qui rejoint celle de la philologie numérique pour déterminer des régularités et l’expansion des thématiques dans le corpus Nous étudierons également les pratiques et usages des personnes qui alimentent le SI en analysant en profondeur leurs méthodes et pratiques de recherche et de sélection des documents, ainsi que leurs méthodes de traitement de ces documents pour les insérer dans le SI. Cette même étude devra aussi s’effectuer auprès de l’ensemble des utilisateurs du SI.

WP1.4 combinaison – fusion d’information – représentation texte / image

  • Grammaires stochastiques bidimensionnelles
  • Modélisation spatiale multi-flux texte / image

Dans ce workpackage nous développerons dans le cadre d’une thèse les aspects fondamentaux liés à l’analyse des données complexes conjuguant des descriptions image (image de documents) dites de bas niveau et des descriptions de plus haut niveau (des fragments textuels, des descriptions de structures…) afin de modéliser les documents numérisés. Nous fonderons notre approche sur les modèles statistiques déjà développés dans l’équipe et plus particulièrement les champs de Markov cachés. Nous nous intéresseront plus particulièrement aux extensions de ces modèles que sont les Champs Aléatoires Conditionnels.

WP 2 - développements des outils et des services

WP2.1 Spécification de la plateforme / chaines de traitement /

Ce workpackage sera le premier qui fera intervenir les deux ingénieurs spécifiquement recrutés par le FEDER. Il sera particulièrement tutoré et encadré à la fois par les enseignements-chercheurs du projet, ainsi que par les ingénieurs de recherche déjà opérationnels dans ce projet, notamment grâce aux 2 ANR L3IM & ALADIN. Seront revus en détail, toutes les méthodes et outils déjà existants avant le démarrage du projet et toutes celles qui seront programmés au cours des 36 mois du projet. Un cahier de spécification sera livré à la fin des trois mois d’étude réalisé par les deux ingénieurs, qui pendant cette période seront regroupés dans un même endroit pour maximiser leur efficacité sur ce WP2.1 qui est la fondation de tout le projet.

WP2.2 modèle générique inter terminologies / parseur OWL - générateur de terminologies au format OWL

Ce work package est également critique du point de vue de la plateforme utilisant des vocabulaires contrôlés. Dans cette tâche, nous devrons créer un modèle pour chaque terminologie, classification, ontologie incluse dans la plateforme (choix effectués dans le WP1.1.). Nous devons également pour chaque terminologie développer un parseur pour aboutir à un fichier OWL pour chacune de ces terminologies. Pour permettre l'interopérabilité sémantique entre chaque terminologie (passer d'un terme MeSH à un terme SNOMED par exemple), il est nécessaire de créer un modèle générique au dessus de toutes les terminologies. L'équipe CISMeF a déjà une expérience de développement d'un prototype de serveur multi-terminologique en santé avec la société Mondeca, le LERTIM de Marseille et l'INSA de Rouen (grâce à huit élèves-ingénieurs de quatrième année qui ont travaillé à ¼ temps pendant un an sur ce projet). Ce type de tâche est très chronophage, et de plus, généralement doit être revue à chaque version de la terminologie ou de l'ontologie : ainsi, à titre d'exemple, le modèle développé en 2007 pour le thésaurus MeSH doit être entièrement revu en 2009. Cette refonte du modèle d'une terminologie peut également avoir des impacts importants sur le modèle générique, au dessus de chaque terminologie. Ce work package devra donc être revu durant chaque année du projet. Cette variabilité sera sans doute moins vraie pour le droit du transport puisque l'IDIT maintient sa propre terminologie avec un modèle volontairement constant. Une analyse devra être effectuée pour la Dewey et les sciences de l'ingénieur. Cette tâche WP2.2. s'appuiera heureusement sur les travaux antérieurs de l'équipe CISMeF, et de la compétence acquise. Cette équipe collabore dans le cadre d'un projet Européen sur les maladies rares (DG Sanco) avec le Pr. Alan Rector de l'Université de Manchester, considérée comme une sommité sur la problématique des ontologies en médecine. Notre étudiant Tayeb Merabti ira en séminaire à Manchester en mai 2009 pour valider nos modèles et parseurs déjà existants en santé.

WP2.3 Apprentissage automatique de modèles éditoriaux – Indexation spatiale d’un corpus en articles

Ce workpackage prolongera les travaux en cours développés dans le cadre du GRR (financement 2008-09). L’approche fondée sur les Champs de Markov Cachés permet d’apprendre les propriétés éditoriales d’un corpus homogène. Il s’agira ici d’appliquer cette approche en adaptant les modèles aux différentes périodes du corpus pour lesquelles le modèle éditorial (la mise en page) est homogène. On observe en effet des mises en page très différentes selon les époques.

WP2.4 OCR robuste – adaptation au corpus du journal de Rouen

Le corpus numérisé par le service des archives de Seine Maritime fait l’objet d’une conversion en texte électronique. Les tests d’échantillonnage réalisés montrent que la qualité des données textuelles est très inégale. Certaines périodes peuvent même être difficilement exploitables du fait de la dégradation du papier. Ce workpackage reprendra les travaux actuellement menés dans le cadre du projet ANR NAVIDOMASS pour utiliser un OCR statistique adaptable au corpus considéré grâce à des fonctionnalités d’apprentissage semi-supervisées (Thèse encours de K. Ait Mohand). Cette technique nouvelle d‘OCRisation présente une forte robustesse aux dégradations des documents car elle est issue des techniques de reconnaissance de l’écriture manuscrite développée au laboratoire.

WP2.5 Indexation / catégorisation / rubricage de corpus sur données textuelles dégradées

Dans ce workpackage on proposera des outils d’indexation des corpus dégradés. L’approche reposera sur une description en sac de mots qui est réputée robuste sur des données dégradées (avec des erreurs d’OCR). Cette description sac de mots des articles segmentés et OCRisés permettra d’une part d’effectuer une indexation et une recherche plein texte sur l’ensemble du corpus en dépassant la recherche par mots clés, et d’autre part cette description permettra d’effectuer une catégorisation automatique des articles afin de proposer des parcours de consultation par rubriques plutôt que chronologiques (la consultation par défaut). Il faut préciser que les journaux anciens ne présentent pas le même niveau de structuration que celui que l’on peut trouver dans la presse contemporaine (en France à partir du début du 20ème siècle). Le classement automatique thématique (rubricage) des articles apportera donc un aspect novateur et enrichira le corpus en proposant des moyens inédits de consultation.

WP2.6 Indexation des illustrations des journaux d’archives

Dans ce workpackage on s’intéressera à l’exploitation des illustrations et des photographies du corpus. L’étape de segmentation (WP2.3) a permis de localiser les différents éléments textuels et graphiques. Il s’agira ici de mette en œuvre des techniques d’indexation d’image. Un première approche proposera un mode d’interrogation par le texte en indexant les illustrations par les légendes et texte afférent. Une seconde approche s’appuiera sur des descripteurs images (de type sac de caractéristiques).

WP 3 - applications - démonstrateurs

WP 3.1 plateforme d’indexation de journaux d’archives (journal de Rouen-Paris-Normandie) : patrimoine & archives – Visualisation haute résolution des résultats

Dans ce workpackage on proposera une première plateforme de consultation aux fonctionnalités de base (consultation chronologique, interrogation par mots clés).Cette plateforme servira de socle pour le développement des premières interfaces de consultation et de visualisation des images numérisées. On s’attachera principalement à mettre en œuvre des outils de visualisation multi-résolution du corpus pour offrir une interface de lectures haute résolution des facsimilés numériques tout en optimisant la bande passante.

WP 3.2 indexation & recherche d’information en santé multi-terminologique, dans un double contexte d’un portail de santé francophone (CISMeF) et d’un dossier électronique du patient

Lien vers la problématique du DMP –Dossier Médical Personnel-, avec déjà un financement d’un ingénieur pour une période de 24 mois pour l’équipe CISMeF

WP 3.3 indexation de documents pédagogique dans un contexte inter UNT (universités numériques thématiques) : sciences de l’ingénieur, droit et santé

Possibilité d’un financement complémentaire auprès de la SDTICE (Ministère de l’Enseignement Supérieur.

Les tâches 3.2, 3.3 doivent aboutir à trois livrables différents et fondamentaux pour la plateforme PlaIR. Ils seront les véritables critères d'évaluation de PlaIR dans sa composante “vocabulaire contrôlé”. Ces trois livrables se positionnent après la tâche WP2.2 sur la création d'un modèle par terminologie, par la création d'un générique inter terminologies / parseur OWL - générateur de terminologies au format OWL.

Dans le cadre de la santé qui est largement la problématique la plus complexe puisque nous aboutirons à la fin du projet à l'intégration de près de dix terminologies, le livrable sera un démonstrateur d’une plateforme multiterminologique en santé, à l'origine issu du backoffice de CISMeF, mais qui en sera séparé dans le cours de ce projet pour aboutir en partie à la plateforme PlaIR. Deux outils feront également partie des livrables : un outil d’indexation automatique et un outil de recherche d’information multi-terminologique. Nous insistons que l'accès à ce démonstrateur et à ces outils sera réservé aux chercheurs et aux enseignants-chercheurs de notre région dans un premier temps. Une structuration d’un plan de développement industriel autour de cette plateforme PlaIR sera entreprise, notamment par l'IDIT. De même, la plateforme PlaIR intègrera un démonstrateur d'une plateforme intégrant la classification Dewey pour les sciences de l'ingénieur permettant l'indexation de ressources pédagogiques très utile pour l'UNIT en particulier mais aussi pour toutes les UNT (intérêt déjà annoncé par la SDTICE du Ministère de l'Enseignement Supérieur, Mme Fabreguette). Un financement complémentaire par le GIP UMVF est très envisageable pour l'année 2010, en collaboration avec le LERTIM de Marseille (G. Soula, MCU-PH). Enfin, pour la terminologie du droit des transports utilisé par l'IDIT, la plateforme PlaIR devrait aboutir à un changement culturel fort pour les indexeurs manuels. De nombreuses phases pourraient alors être partiellement automatisées : la veille, l'indexation qui pourrait devenir supervisée (comme dans CISMeF et ses quatre indexeurs).

WP 3.4 Intégration d’un mode de consultation thématique d’archives

Dans ce workpackage on proposera une seconde version de la plateforme web en intégrant un mode de consultation thématique grâce au rubricage réalisé en WP 2.5. Il s’agira principalement de développer des parcours thématiques cohérents et intuitifs du point de vue des interfaces.

WP 3.5 Intégration d’un outil de navigation textuelle et intertextuelle et de reformulation de requête (+ ergonomie linguistique)

Dans ce workpackage, il s'agit de savoir comment un SI et le couplage personne-système qu’il induit permettent l’émergence d’une perception sémantique du corpus et ainsi un meilleur accès aux documents. Il s'agira de compléter un état de l'art des outils de navigation textuelle et intertextuelle existants et surtout de les implanter, de permettre leur appropriation (ergonomie linguistique) et de faire une analyse précise et détaillée de leurs apports. Nous viserons à combiner, séquencer, relier, rendre plus interactifs les outils de représentation d'information par navigation et du traitement automatique de la langue naturelle. Dans notre stratégie d’amélioration de la navigation intertextuelle, nous proposerons à l’utilisateur plusieurs approches pour naviguer dans l’ensemble des documents, visualiser, manipuler et organiser le résultat de ses recherches. Il pourra notamment s’appuyer sur l’historique de sa navigation, ses propres traces (tâche, mais aussi celles qui sont liées à sa sphère d’activité ou collectif de travail). Les tâches d’interprétation évoluant avec l’avancement du processus de reconnaissance/satisfaction en besoin d’information, l’utilisateur sera ainsi assisté au centre d’une boucle itérative « formulation de requête-analyse-visualisation-reformulation de requête ».

WP 3.6 Intégration d’un mode de consultation en mode image

Dans ce workpackage enrichira la plateforme d’un mode de consultation des illustrations présentent dans le corpus. Dans un premier temps il s’agira de proposer un mode d’interrogation par le texte grâce à l’exploitation des légendes des illustrations. Dans un second tempsun mode de consultation par l’exemple sera proposé grâce aux résultats de WP2.6.

WP4 : Dissémination – Valorisation

WP 4.1 Dissémination

En année 3 de ce projet, nous organiserons un workshop national d’une journée sur « Numérisation, indexation et recherche d’information » avec les principaux acteurs nationaux (et certains internationaux) dans ces domaines largement couverts par ce projet. Les intervenants invités pressentis sont :

  • Luc Vincent & Samy Bengio (Google)
  • Pr. Patrick Galinari (LIP6, Paris)
  • Karl Tombre (LORIA, Nancy)
  • Pr. Boughanem (IRIT, Toulouse)
  • Pr. Christian Lovis (HUGE, Genève)
  • Aurélie Névéol (NCBI, NLM, NIH, Bethesda, USA)
  • Pr. Fiametta Namer (ATILF, Nancy)
  • Pierre Zweigenbaum (LIMSI, Orsay)
  • Danièle Bouriser (CERSA, Paris II)

WP 4.2 Valorisation

  1. En amont de ce projet, un logiciel de connaissance contextuelle a été valorisé au sein de l’équipe TIBS du LITIS en mars 2008 et est commercialisé par la société IS@S. Toujours en amont, le SMTS est également de valorisation en 20091. Néanmoins, la plateforme PlaIR va sans doute améliorer de façon importante le SMTS ; il est donc très largement possible que différentes briques de PlaIR soient vendues au sein du SMTS, voire d’un projet plus générique d’un serveur terminologique multi-terminologique et multi-disciplines (STMTMD). L’accord signé avec la société privée MONDECA pourrait être étendu pour ce STMTMD. Nous espérons également créer dans l’année 2009 une société privée pour valoriser les travaux de CISMeF (qui a déjà conclu trois contrats industriels avec Agfa, le laboratoire Lilly et le Vidal). Le projet PlaIR sera à l’origine de nouveaux logiciels commercialisables, comme un portail d’information sur les médicaments ou sur les dispositifs médicaux, qui nécessitent une approche multi-terminologique (en terme d’indexation et de recherche d’information). Ainsi, le Pr. Stéfan Darmoni, porteur du projet Emoticône de valorisation des travaux de CISMeF a été accueilli dans l’incubateur Haut-Normand en octobre 2008 (ex-Acceval, maintenant Seinari). Il nous semble évident que ce projet sera largement renforcé par le projet PlaIR, notamment par l’approche plus générique, multi-discipline qui permettra l’intérêt de nouveaux clients. Enfin, des financements connexes seront potentiellement atteignables notamment auprès du ministère de l’enseignement supérieur (SDTICE) dans le cadre des projets UNT (Universités Numériques Thématiques) et du projet « portail des portails des UNT ».
  2. Parallèlement, la plateforme PlaIR contribuera aux projets de la société ATHIC avec laquelle l’équipe Document et Apprentissage établit actuellement une collaboration en vue d’accompagner son projet d’investissement en Recherche et Développement (financement OSEO-ANVAR). Cette société régionale, longtemps investie dans la gestion électronique des échanges de compensations bancaires (traitement des chèques), souhaite élargir ses activités. Elle a identifié la gestion patrimoniale comme un domaine porteur pour les prochaines années et sollicite le LITIS pour des transferts de technologie en matière de reconnaissance d’écriture, et d’analyse d’images de documents.
  3. Nous nous engageons dès à présent dans la construction d’un projet Européen FEDER dont la plateforme PlaIR sera le socle avec des échéances de dépôt pour juin 2009. Ce projet regroupera l’ensemble des partenaires académiques, institutionnels et industriels que nous avons évoqués dans ce document. Cette ambition semble tout à fait réaliste lorsqu’on examine les soutient déjà apporté aux différents partenaires du projet PlaIR : ANR, Région Haute-Normandie, Ministère, OSEO-ANVAR. Nous espérons déposer dans le cours du projet PlaIR de nouveaux projets ANR et Européens.

Au total, PlaIR peut se comprendre comme une étagère en accès « réservé», avec mise à disposition de logiciels, de services, de corpus, de données, voire de cours sonorisés pour pouvoir l’utiliser.

programme_detaille.txt · Dernière modification: 2013/11/04 11:20 (modification externe)