CONTINT - Contenus et Interactions 2012

Terminology and texts indexation in Human Sciences – TermITH

Projet d’indexation automatique par mots-clés de textes scientifiques en sciences humaines (archéologie, linguistique, psychologie et sciences de l’information)

TermITH vise la mise au point d’une méthode automatique d’indexation qui s’appuie sur l’exploitation des termes propres aux sciences humaines étudiées présents dans les textes.<br />Les termes présents sont désambiguïsés entre langue de spécialité et langue générale, et par comparaison avec le lexique et la phraséologie transdisciplinaire des sciences humaines.

Accéder au contenu des textes scientifiques par leur terminologie

La validation de la méthodologie d’indexation de l’utilisateur INIST et la systématisation de celle-ci sont les enjeux majeurs de TermITH qui vise à proposer des mesures et des données librement accessibles pour la communauté scientifique et la société : publication des résultats, mise à disposition de la plateforme d’indexation réalisée et du corpus de référence du projet.<br />Sur le plan théorique, la problématique de l’indexation est renouvelée par les données sur lesquelles elle s’appuie (occurrences de termes désambiguïsées en texte intégral) et par le champ

Méthodology

La mise au point de la méthodologie de TermITH présente deux intérêts principaux : (1) la désambiguïsation et le croisement avec les lexiques transdisciplinaires et les ressources terminologiques à disposition réduisent l'effort humain de vérification des termes (ou
descripteurs) proposés et l'analyse manuelle du contenu des documents, (2) la mise à jour automatisée des ressources terminologiques devient envisageable.
Sur le plan méthodologique, l’indexation non ambiguë, qui sera réalisée, intégrera une désambiguïsation langue de spécialité / langue générale, puis une désambiguïsation entre les
différents sens des termes présents et reconnus pour tels dans les textes. De ce fait, TermITH présente l'originalité d'articuler et de rendre complémentaires des disciplines de recherches actuellement parallèles, dont certaines sont habituelles dans le domaine de l’indexation, tandis que d’autres sont innovantes et exploratoires : désambiguïsation contextuelle, fouille de données et textométrie (désambiguïsation des termes candidats), détection automatique et
projection de ressources et de lexiques transdisciplinaires (détection et désambiguïsation des termes).
Sur le plan expérimental, TermITH s’intéresse à un champ scientifique très ambigu entre langue terminologique de spécialité et langue générale : les sciences humaines et sociales. La méthodologie, mise au point sur une discipline test – les sciences du langage - sera validée sur la psychologie, l’archéologie, les sciences de l’information. Ces premiers résultats seront utilisés pour l'indexation de documents relevant de disciplines moins ambiguës, comme pour
la chimie verte, dont l’indexation sera facilitée par l’application de notre méthodologie.

Results

ravailler en SHS, dans la mesure où celles-ci se caractérisent par un degré important de recouvrements et d’ambiguïtés entre langue de spécialité et langue générale, conduit au fait que les avancées de TermITH en termes d’indexation automatique seront très probablement applicable pour les documents scientifiques en général, y compris les sciences dites dures (l’expérience accumulée dans le domaine médical par les partenaires LINA et INRIA NGE nous
permettra d’évaluer ce point, de même qu’une comparaison avec la chimie via le partenaire INIST). Sur le plan socio-économique, le partenaire INIST bénéficiera directement du projet via l’intégration des progrès réalisés en indexation automatique dans sa propre chaîne de production. Par ailleurs, les fournisseurs des articles scientifiques bénéficieront d’une valeur ajoutée de deux formes sur les données partagées : d’abord, celles-ci leur seront retournées normalisées en TEI, enrichies des différents traitements du projet (annotation morphosyntaxique, sémantique, terminologique) et indexées ; ensuite, les fournisseurs seront des interlocuteurs privilégiés pour tester la mise à disposition de la plateforme d’indexation construite. Les réalisations logicielles seront accessibles sous la forme de composants de la même manière que l’actuelle chaîne TTC-TermSuite. Les données produites (corpus de référence –annoté manuellement-, données terminologiques mises à jour et restructurées) seront disponibles sur le site d’ORTOLANG sous licence CC-nC ou CC-BY et une proposition denorme TEI pour les données terminologiques sera proposée au consortium éponyme.

Prospects

Le projet ouvre des perspectives scientifiques dans plusieurs domaines : extraction Référence du formulaire : ANR-FORM-110425-01-01 3/4
terminologique et évaluation par les experts, désambiguïsation terminologique et sémantique, détection et caractérisation du lexique et de la phraséologie transdisciplinaire, caractérisation en matière d’indexation de la différence entre le résumé et l’article intégral qui sont deux genres discursifs distincts dans les documents scientifiques, indexation automatique adaptée

Scientific productions and patents

E. Jacquey, J-M. Humbert et L. Heckler. Les syntagmes définis dans le TLFi : Normalisation et classification pour le traitement automatique des langues, Colloque de phraséologie de Grenoble 2013
F. BOUDIN et E. MORIN. Keyphrase Extraction for N-best Reranking in Multi-Sentence Compression. In Proccedings of the NAACL HLT 2013 conference, 2013, Atlanta, ´Etats-Unis Actes en ligne : aclweb.org/anthology/N/N13/
BOUGOIN. État de l’art des méthodes d’extraction automatique de
termes-clés. RECITAL 2013. pages 96-109. Actes en ligne : www.taln2013.org/actes/www/volumes/taln recital2013_volume2.pdf
Sylvain Hatier, Extraction des mots simples du lexique scientifique transdisciplinaire dans les écrits de sciences humaines : une première expérimentation. RECITAL'2013. pages 138-149
Laurent Romary. TEI and LMF crosswalks. Stefan Gradmann and Felix Sasaki. DigitalHumanities: Wissenschaft vom Verstehen, Humboldt Universität zu Berlin, 2013 — hal.inria.fr/hal-00762664
Laurent Romary, Werner Wegstein. Consistent modelling of heterogeneous lexical structures.Journal of the Text Encoding Initiative, TEI Consortium, 2012 — hal.inria.fr/hal-00704511
Kais Haddar, Héla Fehri, Laurent Romary. A prototype for projecting HPSG syntactic lexica towards LMF. Journal of Language Technology and Computational Linguistics, Gesellschaft für Sprachtechnologie und Computerlinguistik e.V. (GSCL), 2012, 27 (1), pp. 21-46.<http://www.jlcl.org/> — hal.inria.fr/hal-00704511
Robert Vander Stichele, Marc Jamoulle, Elena Cardillo, Joseph Roumier, Laurent Romary, Erik van Nimwegen, Maxime Warnier. A combined onomasiological and semasiological approach to the development of a comprehensive interface terminology for information storage and retrieval in primary health care. CISP-Club, Oct 2012, Bruxelles, Belgium. — hal.inria.fr/hal-00704511

Submission summary

The collaborative research project TermITH (Terminology and Indexation of Texts in the area of Humanities) merges six French partners : ATILF (Analysis and Natural Language Processing of French Language), INIST (National Institute of Scientific and Technical Information), LINA (Laboratory of Computer Science from Nantes), LIDILEM (Laboratory of Linguistics and Applied Linguistics of native and second languages from Grenoble) and two INRIA Centers (National Institute of research in Computer Science and Automatics), INRIA Nancy Grand-Est and INRIA Saclay.
This project deals with information access to textual documents via a full-text indexing which is based on terms which are detected, disambiguated and analyzed.
This issue is well-known: the digital age is characterized by a very large quantity of information that has to be indexed to allow access to it, by the growing diversity of the areas and disciplines which entails a more and more frequent interdisciplinary. Text indexing based on terms occurring still is a hot research topic though different approaches have recently provided some good results. These approaches use either occurrences of terms which are detected on the basis of their textual form (projection of controlled vocabularies or structured terminologies using pattern matching, inflection rules, syntagmatic variations like for instance FASTR), or term candidates which result from some automatic terms detection components. All these methodologies require expensive human verification: (1) for indexing: manual checking of the automatically defined indexes or even, complete analysis of documents in order to define the good indexes of these documents, (2) for the automatic terms detection: classification of the very large amount of terms candidates, (3) for the projection of controlled vocabularies or structured terminology: updating of the terminological resources.
TermITH’s approach is intended to cross the automatically detected and disambiguated occurrences of terms in texts with available interdisciplinary lexicons and terminological resources to isolate the specific terms for each studied area. Such an approach has two main advantages. First, it limits the human cost for the manual evaluation of indexes of documents and the manual analysis of documents if necessary. This results from the disambiguation and the crossing with interdisciplinary lexicons and terminological resources. Second, it will permit an automatic updating of terminological resources.
From the theoretical point of view, TermITH will allow cross-fertilization of disciplines which grow in parallel for the moment: contextual disambiguation, data mining and textual statistics for terms disambiguation; automatic terms detection, terminological resources projection and interdisciplinary lexicons for terms detection and index of them in texts.
In the first experimental phase, TermITH actors have chosen to work within a scientific area in which the ambiguity between terminological and general language usage is very high: the humanities. The projected methodology will be tested for linguistics and then validated with four other disciplines: history, sociology, psychology (analytic and social psychology, and cognitive sciences) and archeology. If the results are good for these five ambiguous disciplines, the indexation of documents which deal with less ambiguous disciplines (like biology, genetics, physics and so on) will be easier with our methodology.

Evelyne Jacquey (Analyse et Traitement Informatisé de la Langue Française UMR 7118 CNRS/Nancy-Université)

The author of this summary is the project coordinator, who is responsible for the content of this summary. The ANR declines any responsibility as for its contents.

Atilf Analyse et Traitement Informatisé de la Langue Française UMR 7118 CNRS/Nancy-Université
Inist Institut de l'Information Scientifique et technique
Lidilem Laboratoire de Linguistique et Didactique des Langues étrangères et maternelles EA 609
LINA Laboratoire d'Informatique de Nanctes Atlantique UMR 6241
Inria - Saclay Institut National de recherhe en Informatique et en Automatique - Saclay
INRIA NGE Centre de Recherche INRIA Nancy Grand Est

Help of the ANR 710,719 euros
Beginning and duration of the scientific project: November 2012 - 36 Months

Explorez notre base de projets financés

ANR makes available its datasets on funded projects, click here to find more.