Outils pour utilisateurs

Outils du site


objectifs_envisages

Objectifs envisagés

Ce projet a pour objectif de mutualiser l’ensemble des travaux des laboratoires LITIS & LiDiFra portant sur l’indexation et la recherche d’information, que ce soit dans un univers de documents électroniques avec des vocabulaires contrôlés liés à des domaines métiers (comme dans les sciences de la santé, le droit ou les sciences de l’ingénieur) ou dans un univers de documents papier numérisés en texte intégral sans domaine métier ciblé (comme dans le cas des documents d’archives et du patrimoine). La totalité des travaux des deux laboratoires seront disponibles sur un (ou plusieurs) serveurs dédiés à cette plateforme régionale d’indexation, qui sera accessible à tout enseignant-chercheur de notre région : la plateforme sera néanmoins sécurisée (https) avec accès par identifiant / mot de passe.

L’un des objectifs du projet étant la réalisation d’une plateforme technologique d’indexation et de recherche d’information, la proposition est construite sur la base du savoir faire complémentaire des équipes. Afin de structurer la démarche technologique du projet en étapes successives réalistes, nous avons résolument choisi de distinguer dans un premier temps les travaux qui relèvent de l’indexation de documents électroniques avec vocabulaire contrôlé d’une part et ceux qui relèvent de l’indexation de documents papiers numérisés. Au terme du projet nous disposerons d’une plateforme dotée de fonctionnalités complémentaires d’indexation quelles que soient les sources considérées (électronique ou papier) et le type d’indexation envisagée (centrée métier ou ouverte (ad hoc)).

Nous présentons dans les paragraphes suivant les objectifs envisagés pour ces deux approches d’indexation.

1/ Fonctionnalité d’indexation avec vocabulaire contrôlé

Depuis 14 ans maintenant, CISMeF (Catalogue et Index des Sites Médicaux Francophones) décrit et indexe sur l’Internet les principales ressources francophones institutionnelles de santé. Entre 1995 et 2002, un seul thésaurus (le MeSH) a été utilisé et toutes les ressources étaient indexées manuellement. A ce jour, plus de 65.000 ressources ont été recensées, décrites et indexées. CISMeF est aujourd'hui le site de référence dans le monde francophone pour le recensement, la description des ressources institutionnelles de santé. Il était en 2007 le cinquième site de santé en terme d'audience (Source : Le Monde) : chaque jour ouvré, 40.000 personnes s'y connectent. Avec la thèse d’Aurélie Névéol (actuellement chercheuse à la US National Library of Medicine), un premier outil d’indexation automatique a été développé sur le thésaurus MeSH. La thèse de Suzanne Pereira (bourse CIFRE Vidal) nous a permis de basculer d’un monde mono-terminologique à un univers multi-terminologique (en particulier les terminologies suivantes produites ou traduites en français : SNOMED, CIM 10, MeSH Supplementary Concepts, MEDLINEplus, CCAM, DReC, CIF/CIH, ATC). Un outil d’indexation multi-terminologique (F-MTI) a ainsi été développé. Cet outil a été ensuite amélioré par l’ajout de quatre nouvelles terminologies au cours de la thèse de Saoussen Sakji (actuellement en seconde année de thèse). Ces terminologies sont orientées sur le médicament pour répondre au projet européen du 7ème Programme Cadre auquel l’équipe CISMeF participe depuis janvier 2008 : PSIP. Plusieurs optimisations de F-MTI en terme de temps de traitement ont permis en 2009 d’indexer tout le corpus de CISMeF (plus de 19.000 ressources) non seulement sur le titre des ressources mais aussi sur le résumé réalisé manuellement par les documentalistes de l’équipe CISMeF (n=4). De nouvelles optimisations sont attendues dans le cadre du projet ALADIN ANR (TecSan 2008), faisant partie intégrante d ce projet.

La thèse de Laura Sas, soutenue en 2008 dans le cadre du projet ANR-RNTL Vodel, a démontré la faisabilité d’un alignement automatique de dictionnaires. Dans le même temps, avec le laboratoire LERTIM EA 3283 de Marseille et la société MONDECA, nous avons réalisé en 2007 une première version d’un Serveur Multi-Terminologique de Santé (SMTS). Nous bénéficions du projet InterSTIS (ANR TecSan 2007) pour améliorer ce SMTS, en testant notamment l’interopérabilité sémantique intra et inter-terminologiques (thèse de Tayeb Merabti en seconde année). Les terminologies décrites ci-dessous ont été intégrées à la fois dans le SMTS et dans le back-office de CISMeF, permettant la création d’une plateforme d’indexation multi-terminologique en santé. Depuis quatre ans, l’équipe CISMeF collabore avec l’INSA de Rouen dans le cadre de projet PIC (huit étudiants du département Architecture des Systèmes d'Information travaillant sur un projet d’envergure à ¼ temps pendant un an). Dans ce cadre, plusieurs briques de la plateforme multi-terminologique de CISMeF ont été développés, notamment le premier prototype du SMTS, ainsi que le développement de notre moteur de recherche Doc’CISMeF (lui-même historiquement développé en 2000 par deux étudiants du département Génie Mathématique de l'INSA).

Il faut noter que l’équipe TIBS du LITIS a bénéficié en 2007 d’un financement GRR 2007 qui nous a aidés à implanter et tester cette plateforme d’indexation multi-terminologique en santé. Deux autres thèses ont débuté dans l’équipe TIBS :

  • Saoussen Sakji (2A) sur l’indexation et la recherche d’information multi-terminologique dans un contexte de documentation (financé par le projet PSIP 7PCRD). Nous avons ainsi amélioré notre outil de « semantic mining » F-MTI, en ajoutant des terminologies sur le médicament et optimisant les temps de réponse.
  • Ahmed-Diouf Dirie-Dibaba (1A) sur la recherche d’information multi-terminologique dans un contexte de dossier électronique du patient. A ce jour, pour traiter les 4 millions de compte-rendus du CHU de Rouen, l’outil F-MTI sur un serveur biprocesseur 4 cœurs prendrait 100 jours de traitement. Nous souhaitons donc collaborer avec les équipes du Pr. T. Lecroq et du Pr. S. Canu pour tester d’autres algorithmes d’indexation automatiques provenant à la fois de l’algorithmique du texte, de la bioinformatique et de la classification. En 2009, deux autres ANR (TecSan 2008) débuteront dans l’équipe TIBS (projets ALADIN & L3IM). Ces deux ANR nous permettront d’améliorer notre outil F-MTI et l’intégration dans le SMTS d’un langage iconique innovant pour la santé.

A partir de 2009, cette plateforme d’indexation permettra de déborder largement de la santé pour aborder :

  1. les sciences de l’ingénieur, en intégrant la classification Dewey, qui nécessitera certainement une modification du modèle générique de notre SMTS. Nous testerons dans les sciences de l’ingénieur les outils d’indexation automatiques (prenant en compte Dewey) et de recherche d’information (prenant en compte également Dewey (demande de thèse 2009). Ce travail sera mené en partenariat avec la thèse de Carlo Abi Chahine sur l’indexation automatique de documents pédagogiques en sciences de l’ingénieur.
  2. Indexation à vocabulaire contrôlé dans le domaine du droit

Une plateforme d’indexation étant par nature interactive, le but final est de profiter de cette interaction pour constituer des bases de connaissance interactives adaptatives (ressources termino-ontologiques personnalisées et traces) partageables et adaptées à la compétence de l’utilisateur dans le domaine et l’environnement « Transport & Logistique », pouvant enrichir des ontologies existantes, la méthodologie pouvant être adaptée à d’autres domaines. Il permet également d’améliorer l’appropriation de celui-ci par le recueil de traces d’utilisation et du parcours interprétatif de l’utilisateur. Ce sous-projet bénéficiera de la collaboration existant depuis plusieurs années entre l’Institut du Droit International du Transport (IDIT), les laboratoires LITIS et LiDiFra de l’Université de Rouen et le laboratoire Greyc de l’Université de Caen. La base de données documentaire du SI de l’IDIT concernant le droit en transport et logistique sera mise à disposition par l’IDIT, devant le constat que l’utilisateur s’y trouve parfois soit face à une absence d’informations, soit face à une information pléthorique et qui, en outre, n’apparaît pas sous une forme permettant de répondre à ses besoins particuliers.

Ces nouveaux corpus devenus numériques sont ouverts à une lecture discontinue et à une navigation intertextuelle. Ils nous invitent à ne plus relier le sens aux textes, dépôts de connaissances à partir des desquels doivent opérer des outils d’extraction, mais aux situations de production et d’interprétation. L’herméneutique juridique a d’ailleurs ici un statut exemplaire du point de vue de l’interprétation en contexte. Car la tâche d’interpréter est la tâche de concrétiser la loi dans chaque cas particulier. Il en est de même dans d’autres domaines.

2/ Fonctionnalités d’indexation plein texte pour les documents d’archives

L’objectif de ce sous-projet est de mutualiser l’ensemble des outils d’indexation et de reconnaissance de documents numérisés pour proposer une plateforme de numérisation et d’indexation plein texte de documents d’archive numérisée (archives départementales, bibliothèques municipales, grands organismes de préservation). Le projet bénéficiera de l’expérience acquise depuis plus de quinze ans par l’équipe Document et Apprentissage du LITIS et de toutes les briques logicielles constituées au cours de cette période pour concevoir, implémenter et tester une plateforme d’indexation d’archives papier numérisées. Le projet se focalisera sur les archives numérisées du journal de Rouen (Paris Normandie) qui est actuellement en phase finale de numérisation (marché public des archives départementales de Seine Maritime). Ce corpus qui sera mis à la disposition du projet en tant que de besoin comprend l’édition quotidienne du journal Haut-Normand sur une période allant de 1750 à 1950, soit plus de 200 années d’archives quotidiennes.

Depuis plusieurs années, de nombreuses autres institutions en charge de la préservation du patrimoine écrit (bibliothèques, musées,…) ont également initié de grands projets de numérisation de leurs archives. Cette perspective offre deux intérêts majeurs : préserver les documents originaux, offrir de nouveaux moyens de consultation aux utilisateurs. Si le premier objectif peut être considéré comme partiellement atteint grâce aux technologies de numérisation et d’archivage de masse, le second en revanche est encore loin d’avoir reçu des réponses convaincantes.

Plusieurs raisons expliques cet état de fait : - la qualité des supports numérisés est très inégale (dégradation des encres et des papiers) – La variabilité des contenus pose des difficultés aux systèmes d’OCR (Optical Character Recognition) (impression ancienne, écriture manuscrite, mise en page, illustrations, images etc…) – l’information textuelle elle-même est présente dans des niveaux d’expression stylistique très variés qui limitent les possibilités d’indexation de masse (ancien français, littérature, revue, journaux, notes personnelles etc…). Les illustrations qui accompagnent ces sources ne sont quant à elles jamais exploitées. De sorte que les archives numérisés sont finalement encore actuellement très peu utilisées car très peu accessibles autrement que dans un mode de consultation page à page, souvent encore en mode image (dégradé du fait de la compression) parfois dans un mode hybride texte/image mais dans un format fermé tel que pdf (portable document format) limitant l’interrogation à des recherches d’occurrences dans les pages.

Actuellement, cette représentation hybride des contenus dans un format fermé propriétaire est un moyen efficace mais limité qui offre un mode de visualisation des documents en visualisant leurs images (en mode dégradé) tels des fac-similés, tout en rendant l’illusion d’un accès aux textes de chaque page en proposant une interrogation transparente des résultats d’OCR (les résultats de l’OCR ne sont pas visualisés) qui sont eux-mêmes souvent imparfaits voir inutilisables selon la qualité des images d’origine.

C’est sous cette forme que le marché mis en place par les archives 76 avec un contractant privé prévoit la réception des journaux numérisés. Grâce à la collaboration du LITIS lors de la rédaction du cahier des charges de l’appel d’offre, les archives ont également exigé la fourniture des images numérisées originales en haute qualité (format TIF non compressé) à partir desquelles il sera possible de faire progresser la technologie. Cet aspect n’est pas négligeable car il assure au projet PlaIR de disposer d’un corpus conséquent unique par sa qualité, sa taille et sa transcription complète fournie par un OCR imparfait mais sans doute exploitable pour une première approche d’indexation.

En conclusion du bref état des lieux que nous venons de présenter on peut dire que la technologie classique des OCR commerciaux propose des outils qui souffrent de leur trop grande généricité au détriment de leur adaptabilité aux propriétés des corpus qu’ils traitent. L’objectif technologique et scientifique du projet est précisément de dépasser ces limitations en proposant soit de mettre en œuvre dans le cadre da la plateforme, soit de proposer des approches novatrices dans le cadre d’un volet recherche à caractère fondamental, des approches relevant de l’apprentissage statistique visant à adapter, par apprentissage automatique, le système de lecture au corpus à traiter. Schématiquement les travaux aborderont les trois aspects complémentaires suivants

  • Phase 1 : Indexation de la structure des pages en articles par apprentissage automatique des règles éditoriales propres au corpus (adaptation au nombre de colonnes, type de séparateurs graphiques en fonction des époques).
  • Phase 2 : Indexation sac de mots des articles sur les résultats d’OCR brut en utilisant les sorties de la phase 1
  • Phase 3 : Reprise de l’OCRisation des articles par des techniques fondées sur l’apprentissage statistique des propriétés du corpus. Constitution d’une plateforme d’évaluation des systèmes d’OCR sur des données patrimoniales.
objectifs_envisages.txt · Dernière modification: 2013/11/04 11:20 (modification externe)