MDCO - Masse de données Connaissances Ambiantes 2007

Méthodologie et outils pour l'application de la sémantique de corpus au filtrage de masses documentaires – C-MANTC

Résumé de soumission

Du point de vue de l'utilisateur, le reproche principal fait aux moteurs de recherche classiques porte sur
la surabondance d'informations ramenées et leur faible adéquation aux besoins. Ceci tient au fait que
les moteurs actuels restent incapables de discriminer les types de documents et donc d'évaluer leur
pertinence sémantique. Le besoin d'outils plus efficaces a d'ailleurs convaincu Google de produire son
nouveau moteur de recherche « Google Scholar ».
Or, aucun des moteurs existants, y compris Scholar, ne fournit de garantie qualitative sur les documents
proposés: sont-ils bien des textes scientifiques? Si non, quel est leur type, leur genre? Relèvent-ils bien
du domaine ?
Nous proposons d'ajouter aux critères de rappel et de précision la dimension de pertinence, accessible
par une meilleure caractérisation des documents. Cet objectif s'obtient par des méthodes linguistiques,
fournies en particulier par les méthodes de la sémantique textuelle. Le projet CMANTC (désormais CMANTIC)
vise à développer ces méthodes (module LPU) et à les intégrer dans une interface ad hoc
(CORPIST). Elles devraient contribuer à combler l'écart entre les besoins et les possibilités offertes par
les moteurs de recherche actuels.
La sémantique textuelle vise à extraire le sens du texte, sans le formaliser dans des ontologies (dont la
généricité est remise en question par la nature culturelle de l'écrit). Son application a récemment permis,
par exemple, de mettre en place un système informatique capable de repérer les textes racistes sur
Internet (projet européen Princip).
Pour être efficace et fiable, un outil résultant de l'application d'une méthode de sémantique textuelle
requiert pour sa mise au point l'analyse de corpus de grande taille (grands ensembles de documents,
classés et éventuellement annotés). C'est l'analyse, en particulier comparative, qui permet d'identifier
quelles sont les caractéristiques textuelles et linguistiques des documents qui leur donnent un sens
particulier.
Les corpus ont deux fonctions:
- Évaluer et discriminer les documents pertinents: le corpus fonctionne comme un modèle implicite
des différentes sortes de document cherchés et/ou rejetés;
- Permettre les contrastes: la stratégie différentielle adoptée (mises en relief statistique par des
tests d'écart réduit) conduit à contraster un document sur un corpus qui relève uniquement de
son genre (p.ex. thèses vs articles).
Le projet C-Mantic vise à tirer parti de ces méthodes pour ajouter une dimension de pertinence (sens,
type, genre, etc.) aux systèmes de recherche d'information. Outre sa forte présence sur le Web, le
domaine choisi (la tabacologie) présente plusieurs intérêts: diversité de discours (médical, vulgarisé,
publicitaire), enjeux sanitaires et économiques, caractère multilingue et multiculturel., résultats
extensibles à de multiples domaines d'intérêt public.
Le projet se déploie sur deux niveaux :
?? Niveau de l'utilisation d'outils de recherche : quelles techniques peuvent effectivement ajouter de la
pertinence, et, si oui, à quels types de requêtes et pour quels utilisateurs ?
?? Niveau de la conception de ces outils et du traitement des corpus: quelles méthodologie et quels
outils pour extraire des corpus les ressources linguistiques nécessaires aux outils de recherche
spécialisés.
Et trois dimensions, trois sortes de résultats :
?? La dimension méthodologique
?? La dimension technologique: implémentation d'outils linguistiques de traitement de corpus et de
recherche d'information combinables avec les outils existants
?? La dimension applicative: expérimentation sur un corpus réel, avec des utilisateurs réellement
intéressés par l'utilisation du résultat.
... et trois langues: français, anglais et chinois (à titre expérimental).

Coordination du projet

Autre établissement d’enseignement supérieur

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

Aide de l'ANR 440 520 euros
Début et durée du projet scientifique : - 30 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter