Modélisation des allusions dans Voltaire et le siècle des Lumières avec des réseaux de neurones – MAVEN
Le projet MAVEN (Modeling Allusions in Voltaire and the Enlightenment with Neural networks) vise à combler le fossé existant entre le latin et les langues modernes bien pourvues en ressources, tout en répondant au besoin d'un outil numérique capable de retrouver les idées latines classiques dans les textes français. Mon objectif à long terme est de créer un outil en accès libre capable d'accomplir trois tâches : 1) localiser automatiquement les allusions classiques dans la littérature des Lumières (français vers latin) ; 2) retracer les idées de la période classique jusqu'au siècle des Lumières (latin vers français) ; 3) rechercher les textes latins canoniques par sujet (latin vers latin). Ces tâches seront possibles grâce à un nouveau modèle d'apprentissage profond capable de traiter à la fois le français du XVIIIe siècle et le latin classique. À la fin de ma bourse Access, je fournirai une version de preuve de concept de ce modèle linguistique et une publication fondamentale pour mon projet. Grâce à une bourse de démarrage du ECR, j'étendrai MAVEN d'un modèle de preuve de concept à un outil web en accès libre avec une interface utilisateur, une infrastructure de base de données et un algorithme de recherche amélioré. Pour que cette subvention du ECR soit fructueuse, je dois établir mes références dans le domaine de l'intelligence artificielle, créer un réseau de collaborateurs internationaux expérimentés dans l'application des techniques d'apprentissage profond et atténuer les risques inhérents à mon programme de recherche à long terme en fournissant un validation du concept.
Je commencerai en formant un réseau neuronal multilingue, en trois étapes. Tout d'abord, le modèle de français moderne basé sur un transformateur, appelé CamemBERT, sera affiné sur un corpus corrigé à la main de 65 millions de mots de français du XVIIIe siècle ; si nécessaire, cet ensemble de textes peut être étendu à des milliards de mots en utilisant des scans numériques non corrigés (données OCR). Ces données seront fournies par l'Observatoire des Textes, Idées, et Corpus de l'Université de la Sorbonne. Ensuite, le modèle CamemBERT du XVIIIe siècle ainsi obtenu sera entraîné à la vectorisation de phrases. Ceci nécessite un ensemble de paires de phrases françaises évaluées selon leur degré de similarité sémantique, un jeu de données qui sera créé pour ce projet. Troisièmement, ce modèle du français du XVIIIe siècle sera aligné avec un modèle existant du latin. Cela nécessite environ 1 million de phrases de français traduites en latin, qui seront assemblées pour ce projet.
Le modèle de réseau de neurones qui en résulte sera capable d'aligner les incorporations de phrases françaises et latines. Cependant, les recherches ont montré qu'une combinaison de réseaux de neurones et de modélisation thématique améliore considérablement les résultats. Le modèle contextuel translinguistique qui en résulte sera capable d'aligner des phrases françaises avec des phrases latines, ainsi que des phrases françaises avec des phrases françaises et des phrases latines avec des phrases latines. Ce sera la technologie au cœur de MAVEN. Pour créer ce modèle, je m'appuierai sur l'expertise de Glenn Roe, qui est un chef de file dans le domaine des humanités numériques et du français du XVIIIe siècle, et de Nicholas Benoit du Sorbonne Center for Artificial Intelligence, qui est un expert en modélisation de l'IA et qui m'a offert l'utilisation du supercomputer MeSU.
Je testerai la capacité de MAVEN à retrouver des allusions à l'Énéide de Vergil dans La Henriade de Voltaire. Comme la Henriade fait de nombreuses allusions à l'Énéide, elle constitue un test parfait. Dans un article scientifique, je décrirai 1) le modèle MAVEN entraîné, et 2) son succès dans la recherche d'allusions interlinguistiques qui ne dépendent pas de la traduction directe. Cet article sera soumis à des revues de premier plan afin de renforcer mes références pour une demande de subvention de démarrage ERC.
Coordination du projet
James Gawley (Centre d'étude de la langue et des littératures françaises)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
CELLF Centre d'étude de la langue et des littératures françaises
Aide de l'ANR 169 945 euros
Début et durée du projet scientifique :
- 24 Mois