CONTINT - Contenus et Interactions 2012

TERMinologie et Indexation de Textes en sciences Humaines – TermITH

Projet d’indexation automatique par mots-clés de textes scientifiques en sciences humaines (archéologie, linguistique, psychologie et sciences de l’information)

TermITH vise la mise au point d’une méthode automatique d’indexation qui s’appuie sur l’exploitation des termes propres aux sciences humaines étudiées présents dans les textes. Les termes présents sont désambiguïsés entre langue de spécialité et langue générale, et par comparaison avec le lexique et la phraséologie transdisciplinaire des sciences humaines.

Accéder au contenu des textes scientifiques par leur terminologie

La validation de la méthodologie d’indexation de l’utilisateur INIST et la systématisation de celle-ci sont les enjeux majeurs de TermITH qui vise à proposer des mesures et des données librement accessibles pour la communauté scientifique et la société : publication des résultats, mise à disposition de la plateforme d’indexation réalisée et du corpus de référence du projet. Sur le plan théorique, la problématique de l’indexation est renouvelée par les données sur lesquelles elle s’appuie (occurrences de termes désambiguïsées en texte intégral) et par le champ scientifique de travail que sont les SHS. Nous espérons expliciter et systématiser des critères de choix des mots-clés à partir des termes reconnus et des ressources utilisées Référence du formulaire : ANR-FORM-110425-01-01 2/4 (terminologies et lexiques transdisciplinaires). Le questionnement porte aussi sur les variations liées aux unités textuelles qui contiennent les occurrences des candidats descripteurs (titre, mots-clés, auteur, résumé, titres de section, texte intégral). Pour la désambiguïsation, l’innovation consiste à articuler trois méthodes (désambiguïsation contextuelle, utilisation originale de la fouille de données et textométrie) en utilisant les niveaux d’information (lexical, textuel), les méthodes de sélection sémantiques (supervisée, non supervisée) et le type des corpus d’entraînement (bilingues comparables, monolingues - données brutes, enrichies - grande taille ou non). Sur le plan de la transdisciplinarité, la détection et la caractérisation du lexique et de la phraséologie transdisciplinaire développées par le Lidilem constituent un apport qui pourra être affiné au cours du projet. Enfin, le projet conduit à la mise à jour de ressources terminologiques : émergence de nouveaux termes liée à l’évolution des disciplines.

Méthodologie

La mise au point de la méthodologie de TermITH présente deux intérêts principaux : (1) la désambiguïsation et le croisement avec les lexiques transdisciplinaires et les ressources terminologiques à disposition réduisent l'effort humain de vérification des termes (ou
descripteurs) proposés et l'analyse manuelle du contenu des documents, (2) la mise à jour automatisée des ressources terminologiques devient envisageable.
Sur le plan méthodologique, l’indexation non ambiguë, qui sera réalisée, intégrera une désambiguïsation langue de spécialité / langue générale, puis une désambiguïsation entre les
différents sens des termes présents et reconnus pour tels dans les textes. De ce fait, TermITH présente l'originalité d'articuler et de rendre complémentaires des disciplines de recherches actuellement parallèles, dont certaines sont habituelles dans le domaine de l’indexation, tandis que d’autres sont innovantes et exploratoires : désambiguïsation contextuelle, fouille de données et textométrie (désambiguïsation des termes candidats), détection automatique et
projection de ressources et de lexiques transdisciplinaires (détection et désambiguïsation des termes).
Sur le plan expérimental, TermITH s’intéresse à un champ scientifique très ambigu entre langue terminologique de spécialité et langue générale : les sciences humaines et sociales. La méthodologie, mise au point sur une discipline test – les sciences du langage - sera validée sur la psychologie, l’archéologie, les sciences de l’information. Ces premiers résultats seront utilisés pour l'indexation de documents relevant de disciplines moins ambiguës, comme pour
la chimie verte, dont l’indexation sera facilitée par l’application de notre méthodologie.

Résultats

Travailler en SHS, dans la mesure où celles-ci se caractérisent par un degré important de recouvrements et d’ambiguïtés entre langue de spécialité et langue générale, conduit au fait que les avancées de TermITH en termes d’indexation automatique seront très probablement applicable pour les documents scientifiques en général, y compris les sciences dites dures (l’expérience accumulée dans le domaine médical par les partenaires LINA et INRIA NGE nous
permettra d’évaluer ce point, de même qu’une comparaison avec la chimie via le partenaire INIST). Sur le plan socio-économique, le partenaire INIST bénéficiera directement du projet via l’intégration des progrès réalisés en indexation automatique dans sa propre chaîne de production. Par ailleurs, les fournisseurs des articles scientifiques bénéficieront d’une valeur ajoutée de deux formes sur les données partagées : d’abord, celles-ci leur seront retournées normalisées en TEI, enrichies des différents traitements du projet (annotation morphosyntaxique, sémantique, terminologique) et indexées ; ensuite, les fournisseurs seront des interlocuteurs privilégiés pour tester la mise à disposition de la plateforme d’indexation construite. Les réalisations logicielles seront accessibles sous la forme de composants de la même manière que l’actuelle chaîne TTC-TermSuite. Les données produites (corpus de référence –annoté manuellement-, données terminologiques mises à jour et restructurées) seront disponibles sur le site d’ORTOLANG sous licence CC-nC ou CC-BY et une proposition denorme TEI pour les données terminologiques sera proposée au consortium éponyme.

Perspectives

Le projet ouvre des perspectives scientifiques dans plusieurs domaines : extraction Référence du formulaire : ANR-FORM-110425-01-01 3/4
terminologique et évaluation par les experts, désambiguïsation terminologique et sémantique, détection et caractérisation du lexique et de la phraséologie transdisciplinaire, caractérisation en matière d’indexation de la différence entre le résumé et l’article intégral qui sont deux genres discursifs distincts dans les documents scientifiques, indexation automatique adaptée
aux SHS. Sur un plan plus général et sociétal, outre les retombées directes pour le partenaire
utilisateur et les fournisseurs de données, il est envisageable d’utiliser les résultats du projet
sur tout texte technique, c’est-à-dire comportant une terminologie relevant d’un domaine de
spécialité. Enfin, TermITH s’est associé avec l’initiative ISTEX pour planifier l’intégration des
composants réalisés dans sa plateforme d’interrogation.

Productions scientifiques et brevets

E. Jacquey, J-M. Humbert et L. Heckler. Les syntagmes définis dans le TLFi : Normalisation et classification pour le traitement automatique des langues, Colloque de phraséologie de Grenoble 2013
F. BOUDIN et E. MORIN. Keyphrase Extraction for N-best Reranking in Multi-Sentence Compression. In Proccedings of the NAACL HLT 2013 conference, 2013, Atlanta, ´Etats-Unis Actes en ligne : aclweb.org/anthology/N/N13/
BOUGOIN. État de l’art des méthodes d’extraction automatique de
termes-clés. RECITAL 2013. pages 96-109. Actes en ligne : www.taln2013.org/actes/www/volumes/taln recital2013_volume2.pdf
Sylvain Hatier, Extraction des mots simples du lexique scientifique transdisciplinaire dans les écrits de sciences humaines : une première expérimentation. RECITAL'2013. pages 138-149
Laurent Romary. TEI and LMF crosswalks. Stefan Gradmann and Felix Sasaki. DigitalHumanities: Wissenschaft vom Verstehen, Humboldt Universität zu Berlin, 2013 — hal.inria.fr/hal-00762664
Laurent Romary, Werner Wegstein. Consistent modelling of heterogeneous lexical structures.Journal of the Text Encoding Initiative, TEI Consortium, 2012 — hal.inria.fr/hal-00704511
Kais Haddar, Héla Fehri, Laurent Romary. A prototype for projecting HPSG syntactic lexica towards LMF. Journal of Language Technology and Computational Linguistics, Gesellschaft für Sprachtechnologie und Computerlinguistik e.V. (GSCL), 2012, 27 (1), pp. 21-46.<http://www.jlcl.org/> — hal.inria.fr/hal-00704511
Robert Vander Stichele, Marc Jamoulle, Elena Cardillo, Joseph Roumier, Laurent Romary, Erik van Nimwegen, Maxime Warnier. A combined onomasiological and semasiological approach to the development of a comprehensive interface terminology for information storage and retrieval in primary health care. CISP-Club, Oct 2012, Bruxelles, Belgium. — hal.inria.fr/hal-00704511

Résumé de soumission

Le projet de recherche TermITH (Terminologie et Indexation de Textes en sciences Humaines) associe six partenaires : ATILF (Analyse et Traitement Informatisé de la Langue Française), InIST (Institut national de l’Information Scientifique et Technique), LINA (Laboratoire d’Informatique de Nantes Atlantique), LIDILEM (Laboratoire de LInguistique et DIdactique des Langues Etrangères et Maternelles – Université Stendhal, Grenoble) et deux centres INRIA (Institut National de Recherche en Informatique et en Automatique), INRIA Nancy Grand-Est et INRIA Saclay.
TermITH s’intéresse à l'accès à l'information des documents numériques par le biais d’une indexation fondée sur les termes qu’ils contiennent, ce qui suppose reconnaissance, désambiguïsation et analyse des termes.
Cette problématique bien connue est une conséquence de l'avènement du tout numérique : quantité croissante d'information et diversité accrue des domaines et des disciplines entraînant une interdisciplinarité de plus en plus fréquente. L’indexation à partir de termes effectivement présents dans les écrits n’est pas encore une question résolue même si plusieurs expériences ont déjà été réalisées avec de bons résultats. Celles-ci utilisent des termes identifiés à l’aide de leur forme (projection de vocabulaires contrôlés, de terminologies structurées avec pattern matching, variantes flexionnelles, variantes syntagmatiques comme le fait FASTR) ou des candidats termes détectés automatiquement (ACABIT, Termostat). Les choix méthodologiques sous-jacents imposent tous une intervention humaine : (1) pour l’indexation, de la vérification des descripteurs proposés automatiquement jusqu’à une analyse complète du contenu du document pour proposer des descripteurs définis manuellement, (2) pour la détection automatique de termes, évaluation manuelle des quantités conséquentes de termes proposés, (3) pour la projection de vocabulaires contrôlés ou de terminologies structurées, mise à jour régulière des ressources terminologiques.
La démarche de TermITH se différencie de celles évoquées ci-avant car elle suppose de croiser des occurrences désambiguïsées de termes candidats avec des lexiques transdisciplinaires et les ressources terminologiques disponibles pour isoler les termes propres au domaine étudié. La mise au point de la méthodologie envisagée présente deux intérêts principaux : (1) la désambiguïsation et le croisement avec les lexiques transdisciplinaires et les ressources terminologiques à disposition réduit l'effort humain de vérification des termes (ou descripteurs) proposés et l'analyse manuelle du contenu des documents, (2) la mise à jour automatisée des ressources terminologiques devient envisageable.
Sur le plan théorique, TermITH présente l'originalité d'articuler et de rendre complémentaires des disciplines de recherches actuellement parallèles : désambiguïsation contextuelle, fouille de données et textométrie (désambiguïsation des termes candidats), détection automatique et projection de ressources et de lexiques transdisciplinaires (détection de termes et indexation de documents).
Sur le plan expérimental, TermITH s’intéresse en particulier à un champ scientifique très ambigu entre langue terminologique de spécialité et langue générale : les sciences humaines et sociales. La méthodologie, mise au point sur une discipline test - la linguistique - sera validée sur l’histoire des sciences, la sociologie, la psychologie (psychanalyse, psychologie sociale et sciences cognitives) et l’archéologie. Si les premiers résultats sont positifs, l'indexation de documents relevant de disciplines moins ambigües sera facilitée par l’application de notre méthodologie.

Evelyne Jacquey (Analyse et Traitement Informatisé de la Langue Française UMR 7118 CNRS/Nancy-Université)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Atilf Analyse et Traitement Informatisé de la Langue Française UMR 7118 CNRS/Nancy-Université
Inist Institut de l'Information Scientifique et technique
Lidilem Laboratoire de Linguistique et Didactique des Langues étrangères et maternelles EA 609
LINA Laboratoire d'Informatique de Nanctes Atlantique UMR 6241
Inria - Saclay Institut National de recherhe en Informatique et en Automatique - Saclay
INRIA NGE Centre de Recherche INRIA Nancy Grand Est

Aide de l'ANR 710 719 euros
Début et durée du projet scientifique : novembre 2012 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.