DS07 - Société de l'information et de la communication

Dérivation Morphologique en Extension – DEMONEXT

Demonext : Dérivation en Extension

Demonext consiste en la construction d'une base de données morphologiques (BDM) du français qui décrit les propriétés dérivationnelles des mots de manière systématique. La BDM répondra à des besoins multiples, comme la confirmation empirique et l'élaboration d'hypothèses en morphologie, le développement d'outils en traitement automatique des langues (TAL), l'enseignement du vocabulaire et le traitement des troubles du langage développementaux ou acquis.

Enjeux et Objectifs

Le lexique d’une langue comme le français est composé majoritairement de mots morphologiquement complexes : préfixés, suffixés, convertis ou composés. Cette information structurelle est généralement disponible dans les rubriques étymologiques des dictionnaires, mais la variabilité de sa formulation la rend difficile à exploiter. Pour des langues comme l’anglais, l’allemand, le néerlandais ou le tchèque, il existe des bases de données morphologiques (BDM) qui décrivent les propriétés dérivationnelles des mots de manière systématique : CELEX, CatVar, DerivBase, etc. Ces informations sont essentielles car plusieurs autres peuvent en être inférées, la plus importante étant le sens de ces mots. À l’heure actuelle, il existe en français un prototype de BDM, la base Démonette, développée par les deux partenaires principaux du projet et que l’on peut considérer comme une étude exploratoire du présent projet. Disposer en français d’une BDM à large couverture comportant des descriptions riches et fiables permettrait de répondre à des besoins multiples, comme la confirmation empirique et l'élaboration d'hypothèses en morphologie, le développement d'outils de TAL, l'enseignement du vocabulaire, et le diagnostic et le traitement des troubles lexicaux développementaux ou acquis.<br />C'est pour répondre à ces enjeux que nous proposons de construire la BDM Démonext. Cette ressource de grande ampleur disposera de descriptions riches des lexèmes (i.e. unités lexicales) et des relations dérivationnelles et des paradigmes où elles s’insèrent, représentera les informations de façon explicite et uniforme, garantira une traçabilité systématique de toutes les informations qu’elle fournit, et sera compatible avec les principales théories morphologiques actuelles (morphématiques ; lexématiques ; paradigmatiques).

Méthodes et approches

Les principes qui sous-tendent Demonext lui donneront une organisation originale par rapport aux BDM existantes. Une entrée de Demonext correspond à une relation morphologique dérivationnelle entre deux lexèmes. L'ensemble des relations que partage un lexème avec ses « parents » morphologique définira sa famille dérivationnelle. Par exemple, NATION forme une famille avec NATIONAL, INTERNATIONAL, NATIONALISER, NATIONALITÉ, INTERNATIONALISER, etc. Une autre caractéristique de Demonext est qu’elle décrira à grande échelle les paradigmes dérivationnels qui structurent le lexique et qui l'organisent en réseaux interconnectés (par exemple, toute relation obéissant au schéma X ? XAL, où X est un nom, s'inscrit dans un réseau que l’on peut généraliser sous la forme du quadruplet {X, XAL, XALISER, XALISATION}).
Demonext se distingue aussi des BDM existantes par une autre caractéristique remarquable qui est que chaque entrée sera munie d’un ensemble d’informations sémantiques : les relations morphologiques sont annotées sémantiquement et les mots qu’elles relient rattachés à des types sémantiques. L'annotation des relations sera réalisée au moyen de gloses définissant l'un des mots relativement du sens de l'autre. Par exemple, NATIONALISATION peut être défini relativement à nationaliser par une glose comme « action de nationaliser ». Le typage morpho-sémantique des lexèmes connectés par une relation (comme CAUSE_CHANGE pour NATIONALISER ou ACTION pour NATIONALISATION) s'inspirera du contenu du réseau Framenet qui dispose d’un jeu de types étendu.
L’un des principes qui guidera la conception de Demonext est qu’elle puisse être alimentée par une variété de ressources lexicales du français, dès lors que celles-ci peuvent être redistribuées librement. Ces ressources seront intégrées de manière cumulative à Demonext ; le format des connaissances qu'elles contiennent sera unifié ; les informations importantes manquantes seront calculées automatiquement lorsque cela est possible.

Résultats

Demonext sera ainsi une BDM de grande envergure disposant d’une structure originale de réseaux interconnectés, dont les arcs et les sommets seront munis d’informations variées : morphosémantiques, morphophonologiques, dérivationnelles, statistiques, etc. Un deuxième résultat du projet est constitué d’un ensemble d’outils et de matériels pédagogiques, tels que des recueils d’exercices et de tests. Ces produits dérivés exploitant Demonext seront autant d’exemples de ses utilisations possibles et de son impact sociétal escompté à destination des enseignants du primaire et secondaire, des étudiants et enseignants du supérieur, des praticiens orthophonistes, des spécialistes de morphologie constructionnelle et de modélisation statistique du lexique. Demonext sera distribuée sous licence libre Creative Commons et sera rendue accessible aux différentes catégories d’utilisateurs qui disposeront d’interfaces selon l’usage visé : interfaces d’interrogation, d’édition et de visualisation pour les publics spécialisés ; accès simplifié et ergonomique à destination du grand public. Elle sera téléchargeable via l'EQUIPEX Ortolang (www.ortolang.fr/) et la plateforme REDAC (redac.univ-tlse2.fr/).
Nous nous attendons à ce ce que Demonext, base de donnée hébergeant un réseau morphologique annoté de descriptions dérivationnelles, formelles, sémantiques, fréquentielles, aie un impact dans plusieurs domaines scientifiques et sociaux. Demonext offrira en effet aux linguistes (morphologues, psycholinguistes, didacticiens LM ou LS) un terrain expérimental disposant d'une couverture importante, et offrira une palette d'informations variées, allant des mesures statistiques aux propriétés sémantiques, en passant par les décompositions morphologiques, les caractéristiques catégorielles et phonologiques.

Perspectives

En recherche en morphologie, Demonext contribuera à l’émergence d’une morphologie plus quantitative et expérimentale, en permettant de tester des hypothèses à large échelle et d’en élaborer de nouvelles. Elle permettra également une amélioration de la visibilité des résultats des études sur la morphologie dérivationnelle du français et probablement une évolution vers des analyses plus formalisées.
La tâche de modélisation statistique de la concurrence entre procédés apportera non seulement une meilleure compréhension de la structuration et des dynamiques caractérisant le système dérivationnel du français, mais également des outils et des méthodes permettant d’explorer ce système et de le modéliser.
Dans l'enseignement supérieur la production de représentations dans une variété de formalismes permettra le développement d’exercices pour des MOOC.
En TAL, l'étendue de sa couverture et la richesse de son contenu favoriseront son intégration dans des chaînes de traitement en recherche d’information, fouille de données, analyse de sentiments, etc. Les descriptions sémantiques seront utiles pour la création de terminologies et l’exploitation de corpus.
En pédagogie, Demonext participera à la diversification des techniques d'enseignement du vocabulaire au service des professeurs des écoles du premier degré, et en particulier ceux du cycle 2, par la mise en place de techniques spécifiques d’acquisition lexicale issues des données de la recherche
Enfin, en remédiation orthophonique, la ressource permettra la mise au point de matériel d’évaluation et de thérapie ciblé sur le niveau morphologique, que ce soit pour améliorer ce niveau de traitement, quand il est déficitaire ou au contraire pour le mobiliser, quand il est préservé, dans l’élaboration de stratégies compensatoires.

Productions scientifiques et brevets

Articles
Hathout, N. & Namer, F. (2016). Giving Lexical Resources a Second Life: Démonette, a Multi-sourced Morpho-semantic Network for French. LREC 2016, Portorož:ELRA, 1084-1091.
Dal, G. & Namer, F. (2016). Chapter 4: Productivity. The Cambridge Handbook of Morphology. Stump, G. and Hippisley, A. Cambridge, Cambridge University Press: 70-89.
Dal, G. & Namer, F. (2015). La fre´quence en morphologie : pour quels usages ?. Langages 197: 47-68.
Hathout, N. & Namer, F. (2014). De´monette, a French derivational morpho-semantic network. Linguistic Issues in Language Technology 11(5): 125-168.
Namer, F. (2013) A Rule-Based Morphosemantic Analyzer for French for a Fine-Grained Semantic Annotation of Texts, Communications in Computer and Information Science, 380, 93-115.
Hathout, N, & Namer, F. Eds (2012) Vers la Morphologie et au-delà. TAL 52.2.
Namer, F. (2012) Nominalisation et composition en français, Lexique 20 : 169-201.
Namer F. (2009). Morphologie, lexique et TAL – Le système DériF: London: Hermès, 448p.
Namer F. & Baud R., (2007) Defining and relating biomedical terms : towards a cross-language morphosemantics-based system. International Journal of Medical Informatics 76: 226-233.
Dal G., Hathout N. & Namer F. (2002) An Experimental Constructional Database: The MorTAL Project. Many Morphologies, Paul Boucher (éds). Somerville, MA: Cascadilla Press: 178-209.
Ressources :
Flemm : Lemmatisation du Français, version 3.1: www.ortolang.fr/market/tools/flemm
DériF : Dérivation en Français interrogeable en ligne : www.cnrtl.fr/outils/DeriF/
Démonette (avec N Hathout) : Base de Données Morphologique du français, versions 1.1 et 1.2 téléchargeables : www.ortolang.fr

Résumé de soumission

L’objectif du projet est de construire Démonext, une base de données morphologiques (BDM) du français qui décrit les propriétés dérivationnelles des mots de manière systématique. Cette base viendra combler un vide, aucune ressource de ce type n'étant disponible en français.

Cette base sera alimentée par des ressources lexicales issues majoritairement de travaux universitaires de morphologues, de grande ampleur et couvrant l'ensemble des procédés morphologiques du français. La migration de ces ressources s'accompagnera de nouvelles informations, inférées automatiquement à partir des connaissances contenues dans ces ressources.

La BDM sera une combinaison inédite d'informations qui répondra à des besoins multiples, comme la confirmation empirique et l'élaboration d'hypothèses en morphologie, le développement d'outils en traitement automatique des langues, l'enseignement du vocabulaire et le traitement des troubles du langage développementaux ou acquis.

Les principes d'organisation des entrées de Démonext suivront une conception en réseau de la morphologie, dans lequel les lexèmes apparentés morphologiquement seront munis d'annotations morphologiques, phonologiques, fréquentielles, de l'indication de l'âge d'acquisition, etc et entretiendront entre eux des relations morphologiques directes et indirectes ; une originalité de Démonext est l'importance accordée à la sémantique. En effet, les relations seront caractérisées par une représentation du sens construit, et les lexèmes seront typées sémantiquement, d'après les cadres Framenet.
La réalisation de ce projet sera assurée par un consortium de quatre partenaires, réunissant la quasi-totalité des morphologues français, une équipe importante de talistes spécialistes en constitution de ressources et en morphologie computationnelle, des informaticiens, des psycholinguistes de l'acquisition et des orthophonistes, ayant tous l'habitude de travailler ensemble.

Le principal résultat du projet sera donc une base morphologique dérivationnelle de grande envergure qui disposera d’une structure originale de réseaux interconnectés, dont les arcs et les sommets sont munis d’informations nombreuses et variées : morphosémantiques, morphosyntaxiques, morphophonologiques, dérivationnelles, distributionnelles, lexicales (ex. voisinages), statistiques, etc.

Un deuxième résultat du projet sera un ensemble de d’outils et de matériels pédagogiques tels que des recueils d’exercices et de tests qui exploiteront Démonext et seront autant d’exemples de ses utilisations possibles et de son impact sociétal escompté. Les destinataires de ces différentes productions seront : les enseignants du primaire et secondaire, les étudiants, les enseignants, les praticiens orthophonistes, les universitaires spécialistes de morphologie constructionnelle et de modélisation statistique du lexique.

Démonext sera distribuée sous licence libre Creative Commons. Elle sera également accessible aux nombreux publics visés grâce à une plateforme, conçue pour s'adapter aux différentes utilisations de la BDM, et donnant accès à des interfaces d’interrogation, d’édition et de visualisation seront conçues pour les publics spécialisés ; Démonext offrira également un accès simplifié et ergonomique à destination du grand public. Elle sera mise à disposition sur l'EQUIPEX Ortolang et la plateforme REDAC.

Fiammetta NAMER (Analyse et Traitement Informatique de la Langue Française)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

CLLE Cognition, Langues, Langages, Ergonomie
UDL SHS - STL SAVOIRS, TEXTES, LANGAGE
LLF Laboratoire de Linguistique Formelle
ATILF Analyse et Traitement Informatique de la Langue Française

Aide de l'ANR 592 131 euros
Début et durée du projet scientifique : avril 2018 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.