Aliento est un projet qui participe de deux grands domaines de recherche : la parémiologie et les Humanités numériques. Il a pour point de départ le Moyen Âge ibérique (al-Andalus) où se côtoient et se mélangent plusieurs traditions sapientielles (l’adab (IXe siècle) venu d’Orient, la littérature rabbinique et latine).
Aliento est un projet qui participe de deux grands domaines de recherche : la parémiologie et les Humanités numériques. Il a pour point de départ le Moyen Âge ibérique (al-Andalus) où se côtoient et se mélangent plusieurs traditions sapientielles (l’adab (IXe siècle) venu d’Orient, la littérature rabbinique et latine). Nous les retrouvons dans les textes qui forment le noyau du projet. Celui-ci a pour but de montrer comment les énoncés sapientiels brefs (ESB) de source ancienne se sont échangés entre 3 cultures religieuses et 5 langues dans la péninsule ibérique. Un corpus minimal a été choisi, dont les liens sont bien connus, afin de mettre au point une méthodologie d’annotations et un outil qui permettent de croiser ces textes et d’apparier les ESB, indépendamment de la langue des textes où ils se trouvent. Les textes médiévaux traités sont en latin, arabe, hébreu, castillan et catalan. La base de données a pour objectif d’établir un modèle de description efficace transférable à d’autres corpus similaires, permettant de comparer les ESB de tout texte sapientiel ancien, médiéval, moderne et contemporain, à ceux des autres textes de la base.
Notre objectif premier a été de mettre en place une méthode de travail et d’étude des textes en 5 langues (dont 2 langues sémitiques) permettant de les traiter de façon uniforme. Des guides d’indexation et de mots-clés, résultat d’un travail collectif de mise en commun, orientent les collaborateurs travaillant sur les textes à partir d’une plateforme de travail commune. Ce travail de préparation des textes (tous indexés de la même manière en XML-TEI), réunis dans un espace commun (la plateforme de travail), facilite l’objectif deuxième de notre projet : calculer les similarités entre les énoncés sapientiels en dépassant les frontières linguistiques et proposer au public une base de données depuis laquelle il est possible de visualiser les résultats de tout le travail. Pour dépasser la difficulté linguistique liée à un corpus hétérogène, nous avons choisi 3 langues de travail : l’anglais, l’espagnol et le français. Partant, la base de données est trilingue et toutes les informations sur le sens sont traduites systématiquement, ce qui permet, en outre, de désambiguïser les textes et de faciliter le travail de recherche informatique, les 3 langues étant pourvues d’outils informatiques (lemmatiseurs). L’innovation est la création d’un logiciel de calcul des similarités. L’alignement des textes originaux, de leur lemmatisation, et de leur structure linguistique peut servir à l’élaboration d’outils informatiques dédiés.
Le résultat est une base de données offrant en open access : une somme de textes présentés, annotés et interrogeables ; une méthodologie d’annotation modélisant les ESB de façon comparable ; des annotations précises sur le sens et sur la forme des ESB pouvant servir d’outils de recherche ; des traductions des ESB en anglais, espagnol et français ; un algorithme de recherche permettant de rapprocher les ESB et d’établir les appariements. Le grand public pourra ainsi repérer la source de proverbes en usage, retrouver les chemins qui ont abouti à la formation de notre façon commune de penser.
Le travail réalisé ouvre des perspectives certaines pour les parémiologues, les informaticiens, les spécialistes de littérature médiévale, de TAL, les linguistes, et nous proposons un outil de calcul des similarités entre phrases, utiles aux chercheurs en informatique. La mise en contact de textes sapientiels écrits dans des langues très différentes et notre travail d’annotations textuels vont permettre une recherche sur les cheminements, l’impact et la diffusion des énoncés sapientiels brefs à partir d’une aire géographique et pour une époque donnée, ainsi que sur leurs sources, leurs influences et leurs transformations au cours du temps. La base de données que nous avons élaborée peut servir aussi à une évaluation comparative des vecteurs de diffusion des énoncés sapientiels.
En exploitant l‘alignement des énoncés, de leur lemmatisation et de leur structure linguistique il doit être possible de développer des outils de lemmatisation automatiques. Toutes les possibilités offertes par l’annotation n’ont pas encore été exploitées. Les calculs de similarité sont indépendants d’une langue de traduction à l’autre (anglais, français, espagnol). Il est très certainement possible de les affiner en traitant les trois langues simultanément.
Nous offrons aussi la possibilité de continuer notre travail pour l’amélioration du calcul des similarités, la création ou l’automatisation de certaines fonctions (lemmatisation des langues anciennes et médiévales, dictionnaires croisés) et l’élaboration d’un système automatique de translittération tenant compte des voyelles pour l’arabe et pour l’hébreu.
Concernant le travail textuel, nous offrons la possibilité de mettre en relation l’ancien et le nouveau pour rechercher les racines, les sources, les traces ; les voies directes ou indirectes de la transmission.
Nous nous sommes centrés sur 3 modes de diffusion : les colloques (3), les journées d’étude (3) et les publications scientifiques (5). Les colloques et les journées d’étude sont intrinsèquement liés au travail sur les textes. Ils ont permis de dépasser les frontières disciplinaires et de mettre en commun ce que les textes nous enseignent en terme de continuité mais aussi de rupture depuis les cultures les plus anciennes du bassin méditerranéen (Sumer/Akkad), dont nous sommes tributaires. Nous avons établi une méthodologie d’annotation (guide) et une liste limitée de mots-clés, constituant une ontologie domaniale (liste commentée) accessibles en ligne.
Au IXe siècle, la tradition arabe de l’adab parvient en Espagne en al-Andalus, plaque tournante où s’échangent les savoirs venus d’Orient. Ils passent aux royaumes chrétiens de la Péninsule grâce au rôle de relais pour l’Occident que jouent, dès le XIe siècle, les centres monacaux du nord de l’Espagne. L’adab rencontre en al-Andalus la tradition sapientielle juive de la littérature midrashique. Des recueils sont composés, des œuvres originales produites aux Xe et XIe siècles et, à partir du XIIe siècle, les recueils d’exempla et de dits des philosophes sont traduits en hébreu, en latin, en langues romanes. Cet héritage complexe se retrouve en bonne part dans la littérature espagnole des XVIe et XVIIe siècles et dans les proverbiers espagnols, judéo-espagnols et maghrébins contemporains.
Si les grandes lignes de ces échanges sont connues, on ne sait rien de précis de la circulation effective de ces énoncés sapientiels brefs (notre unité de travail), des choix successifs faits par les traducteurs, des réinterprétations culturelles, ni du poids d’un emprunt par rapport à un autre. Les filiations des textes de sagesse et l’ordre des traductions sont sujets à caution, a fortiori celui des énoncés sapientiels brefs qu’ils contiennent. En raison de la difficulté à les saisir, ces éléments volatiles dont la catégorisation varie selon le temps et les cultures considérées, n’ont jamais fait l’objet d’une étude textuelle d’ensemble retraçant leurs sources, leur cheminement et leur évolution à travers les langues parlées et écrites par les 3 cultures de la Péninsule ibérique au Moyen Âge. Les études de parémiologie ont produit de grandes compilations de proverbes; des éditions critiques; des études savantes consacrées à une seule œuvre, une seule langue ou une seule culture, à l’exception notable du travail pionnier de D. Gutas sur le Philosophical Quartet (1975). Les rares bases de données existantes portent sur des corpus de parémies contemporaines, le plus souvent unilingues ou avec une perspective traductologique.
Le projet ALIENTO vise donc à calculer les concordances partielles ou totales des textes, leurs connections proches et éloignées afin de réévaluer les relations intertextuelles, en confrontant une grande quantité d’unités et en croisant des textes écrits dans des langues différentes.
Pour ce faire, le projet qui nécessite une collaboration interdisciplinaire étroite entre les chercheurs informaticiens (ATILF) et les spécialistes des textes et linguistes (MSH Lorraine + INALCO et leur réseau international de collaborateurs) élaborera un logiciel transférable à d’autres textes semblables à partir d’un corpus de référence constitué de 8 textes apparentés ayant circulé dans la Péninsule ibérique au Moyen Âge (en latin, arabe, hébreu, espagnol et catalan), soit 582 pages de textes pour un nombre d’énoncés sapientiels brefs évalué à 9570 unités. L’outil développé devra extraire et relier les énoncés par des appariements établis à partir d’un balisage précis scientifiquement mis au point et consigné dans un manuel d’encodage XML-TEI.
L’ATILF développera un programme d’interrogation multilingue (français, espagnol, anglais) des données appariées et mettra en ligne les textes annotés du corpus ALIENTO sur le CNRTL assurant l’archivage pérenne des corpus et à terme sur l’Equipex ORTOLANG.
À la fin du projet on disposera :
- d’un ensemble de textes appartenant à un corpus noyau multilingue, numérisés, balisés en XML (TEI) et interrogeables, reliés à un ensemble de données sur le texte et son auteur.
- d’un ensemble formé par les énoncés sapientiels brefs de chaque texte avec leurs annotations XML/TEI, consultable en ligne en accès libre.
- d’une plate-forme d’interrogation, qui affichera les énoncés appariés des ouvrages multilingues traités, avec des informations permettant de les étudier indépendamment de leur langue.
- d’une méthodologie d’annotation et d’un logiciel d’appariement transférables à d’autres corpus similaires.
Marie-Sol ORTOLA (Maison des Sciences de l'Homme Lorraine)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
MSHL Maison des Sciences de l'Homme Lorraine
CERMOM Centre de Recherche Moyen-Orient et Méditerranée
ATILF Analyse (linguistique), Traitement Informatique, Langue Française
Aide de l'ANR 239 948 euros
Début et durée du projet scientifique :
décembre 2013
- 42 Mois