Blanc SIMI 2 - Blanc - SIMI 2 - Science informatique et applications

Hybridation de la fouille de données et du traitement automatique des langues – Hybride

Hybridation de la fouille de données et du traitement automatique des langues

Le projet ANR blanc Hybride vise à développer de nouvelles méthodes et outils pour la découverte de connaissances dans des données textuelles en combinant des méthodes de traitement automatique de la langue (TAL) et des méthodes de fouille de données (FDD).

Contexte, et objectifs du projet

Hybride vise à combiner les recherches en TAL et en FDD pour créer des processus interactifs où les méthodes de TAL guident le processus de fouille et les méthodes de fouille alimentent les processus de TAL. La combinaison de ces approches peut se voir comme un cercle vertueux entre TAL et FDD. Le projet sera appliqué au domaine des maladies rares pour aider les experts à rédiger des synthèses sur les maladies.<br />

à venir

à venir

à venir

à venir

Le projet de recherche HYBRIDE a pour ambition de développer de nouvelles méthodes et outils pour guider la découverte de connaissances à partir de textes en combinant des méthodes de traitement du langage naturel (TAL) et des méthodes de découvertes de connaissances dans les données (DCD). Une idée maîtresse est de concevoir un processus convergent qui met en interaction les méthodes de TAL et de DCD, où les méthodes de TAL guident les méthodes de fouille de données et réciproquement, pour l'analyse et la fouille de documents textuels par leur contenu.

Les méthodes de TAL s'appuient sur des méthodes d'analyse linguistique d textes, d'extraction d'information de nature générale et temporelle. Les méthodes de DCD recouvrent l'extraction de motifs, motifs ensemblistes et séquences, l'analyse formelle de concepts et ses variations, et la fouille de graphes. Par exemple, les méthodes de TAL appliqués au texte identifie des ``informations textuelles'' qui sont utilisées comme contraintes pour focaliser les méthodes de DCD sur des motifs intéressants.

En parallèle, les méthodes de DCD permettent d'extraire des motifs et des séquences qui sont utilisés pour guider l'extraction d'information et l'analyse des textes.

Cette combinaison pour atteindre des objectifs commun peut se voir comme un ``cercle vertueux'' où chacune des familles de méthodes est en interaction avec l'autre pour produire le meilleur sur la base des résultats que l'une fournit à l'autre et réciproquement. La partie expérimentale et la validation du projet Hybride ont pour contexte le réseau des ``maladies orphelines'' Orphanet et pour objet l'aide à la documentation des maladies orphelines.

Les aspects fondamentaux du projet Hybride peut être appréhendés par l'intermédiaire des étapes principales d'un processus de découverte de connaissances avec une perspectives mixte TAL/DCD :
(i) préparation des données,
(ii) fouille des données,
(iii) interprétation et validation des résultats,
(iv) conception de connaissances.
A chaque étape, des nouvelles méthodes doivent être construites et testées pour mettre en place cette boucle d'interactions entre TAL et DCD.

Le consortium à l'initiative du projet a maintenant une bonne expérience des méthodes de TAL et de DCD de façon plutôt séparée. Un effort conséquent reste à faire pour adapter la boucle classique de découverte de connaissances pour la faire devenir une véritable boucle d'interactions TAL/DCD.

Ainsi, il y a nécessité de résoudre des problèmes d'interaction à chaque étape de la boucle TAL/DCD où l'interaction consiste pour l'un des processus à préparer l'application du second.

Un système intégrant ces principes et les opérations associées à la boucle TAL/DCD va être mis en place dans la cadre du réseau Orphanet relatif aux maladies orphelines pour l'analyse de textes scientifiques et médicaux et la documentation nouvelle de maladies rares.

La mise en oeuvre d'un tel système combine un certain nombre d'aspects, entre autres traitement du langage naturel, découverte de connaissances, fouille de données et ingénierie des connaissances. Cette combinaison originale reste un véritable challenge en informatique.



Coordination du projet

Yannick Toussaint (INRIA - Centre Nancy Grand-Est) – yannick.toussaint@loria.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

INSERM INSERM - DELEGATION PARIS VI
MoDYCo CNRS - DELEGATION REGIONALE ILE-DE-FRANCE SECTEUR OUEST ET NORD
GREYC UNIVERSITE DE CAEN - BASSE-NORMANDIE
INRIA NGE INRIA - Centre Nancy Grand-Est

Aide de l'ANR 485 505 euros
Début et durée du projet scientifique : - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter