DS07 - Société de l'information et de la communication

Analyse distributionnelle en domaine de spécialité – ADDICTE

Résumé de soumission

L’objectif du projet ADDICTE (Analyse distributionnelle en domaine de spécialité) est de proposer une solution opérationnelle à l’analyse sémantique distributionnelle en domaine de spécialité pour construire des représentations sémantico-conceptuelles du domaine (ontologies de domaine, thésaurus, ressources terminologiques) qui sont utilisables à la fois en ingénierie des connaissances et dans certaines applications documentaires (indexation de documents notamment).

Aujourd’hui les modèles d’analyse distributionnelle performants fournissent des ressources « prêt-à-porter » construites à partir de très gros corpus tout-venant de langue générale. Ces word embeddings génériques ne sont pas suffisants pour représenter la sémantique en domaine de spécialité, et il est donc nécessaire de les construire sur la base de corpus spécialisés. Or, les corpus de textes spécialisés présentent des caractéristiques problématiques pour l’application de ces méthodes distributionnelles, dont l’efficacité est corrélée à la quantité de données disponibles. D’une part, ces corpus sont de taille modeste (généralement en deçà du million de mots) par comparaison aux très grand corpus de langue générale. D’autre part, les unités terminologiques, et en particulier les termes complexes, y prédominent qui, par leur spécificité, réduisent encore le volume des contextes mobilisables pour le calcul sémantique. En revanche, ces données présentent des caractéristiques intéressantes pouvant être exploitées par un système d’analyse distributionnelle : ces textes sont généralement très structurés, le lexique est réduit, des ressources sémantiques sont souvent disponibles et peuvent être injectées dans le processus d’analyse.

Dans ce contexte, l’originalité d’ADDICTE est de venir interroger et croiser les approches fondatrices en analyse distributionnelle et textes de spécialité. Trois aspects seront plus particulièrement étudiés : i) l’amélioration endogène des contextes distributionnels en prenant en compte des unités terminologiques qui véhiculent une part importante des connaissances d’un domaine de spécialité ; ii) l’amélioration exogène des contextes distributionnels en enrichissant les contextes distributionnels par des ressources externes (p. ex. corpus de spécialité proches ou des corpus d’un genre ou d’un type de discours différents) et iii) l'amélioration de la nature des contextes distributionnels en proposant une représentation distributionnelle pouvant tirer parti d’informations endogènes et exogènes.

Le projet ADDICTE entend donc proposer de nouvelles avancées, notamment en termes d’approches fondées sur une meilleure exploitation des caractéristiques linguistiques et terminologiques du matériau textuel, pour que l’analyse distributionnelle en domaine de spécialité puisse atteindre le même niveau de maturité que pour les grands corpus de langue générale. Le transfert des nouvelles méthodes prédictives développées dans le projet sera réalisé à travers à travers une bibliothèque logicielle d’adaptation au domaine (sous licence libre non contaminante).

Emmanuel Morin (Laboratoire des Sciences du Numérique de Nantes)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

CLLE Cognition, Langues, Langages, Ergonomie
CEA LIST Commissariat à l'énergie atomique et aux énergies alternatives
LIMSI Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur
LS2N Laboratoire des Sciences du Numérique de Nantes

Aide de l'ANR 590 885 euros
Début et durée du projet scientifique : mars 2018 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.