DS0807 -

Modélisation de l'évolution de la langue à partir de textes d'ancien français instrumentés – PROFITEROLE

Résumé de soumission

Le projet PROFITEROLE a trois objectifs, qui relèvent de la linguistique et du Traitement Automatique des Langues (TAL). Ces trois objectifs sont étroitement corrélés.Tout d’abord, il vise à modeler des aspects morphologiques et syntaxiques de l’évolution diachronique du français. Par ailleurs il développera une méthodologie pour explorer et annoter des données hétérogènes tout en fournissant des analyseurs pour différentes étapes du français. Enfin, il prévoit d’augmenter les ressources linguistiques pour le français en construisant un corpus annoté (1 million de mots) de français médiéval (9e-15e s.) et des lexiques morphologiques couvrant différents étapes du français.
Le français médiéval constitue une période décisive pour l’étude de l’évolution du français: c’est durant cette période que les changements morphologiques et syntaxiques majeurs du français se sont initiés et ont commencé à se propager. S’attacher à cet empan chronologique permet une connaissance accrue de l'évolution du français et une meilleure compréhension de certains mécanismes de changement, propres aussi à d'autres langues. Des contraintes matérielles ont limité jusqu'à présent l'exploration et l’analyse approfondie des ressources textuelles, qui exigent un traitement en partie automatisé des données. L’émergence en 2013 du Syntactic Reference Corpus of Medieval French a ouvert de nouvelles perspectives tant pour la linguistique que pour le TAL. SRCMF est un corpus arboré d’ancien français (9e-13e s.), annoté avec des structures syntaxiques dépendancielles fines, chacun des 251000 mots portant une étiquettes morpho-syntaxique et une fonction syntaxique manuellement vérifiées. L’ancien français se caractérise par une variation bien plus grande qu’en français moderne, au niveau grapho-phonétique et syntaxique. Interne à la langue, cette variation doit aussi être envisagée comme externe, dans la mesure où elle opère entre textes relevant de variables différentes (date, domaine-genre, forme, dialecte ou registre), la date étant le facteur majeur de variation. SRCMF est un terrain propice pour l’étude de la variation dans ses dimensions internes et externes, ainsi que des possibles corrélations entre les deux, un domaine syntaxique fort peu exploré jusqu’ici, en particulier pour la fixation progressive de l’ordre des mots en français, qui sera l’objet d’étude linguistique principal du projet. La complexité de la tâche implique l'utilisation de technologies statistiques et informatiques sophistiquées. La forte variation en français médiéval complique l'identification et l'appréhension de ses étapes successives, tout en étant un facteur décisif pour le passage de l’une à l’autre: une meilleure compréhension du changement linguistique suppose une augmentation significative des données traitées. Mais cette même multi-hétérogénéité des données constitue un défi majeur pour le traitement et l'enrichissement automatiques des textes. Partant de SRCMF et utilisant les lexiques morphologiques conçus tout au long du projet, nous développerons une méthodologie d'annotation capable de traiter cette variabilité, en explorant pour cela deux approches distinctes: la première repose sur les parseurs symboliques, la seconde est basée sur l’apprentissage automatique. Ces ressources et ces outils d’analyse automatique précis, et facilement configurables pour diverses étapes de français médiéval, serviront ensuite pour explorer et annoter automatiquement de nouveaux textes bruts de français médiéval. Données annotées et outils fourniront de nouvelles connaissances linguistiques précieuses pour étudier la variation diachronique. Plus généralement, ils contribueront à la compréhension et au traitement informatique des données hétérogènes aussi bien pour les stades antérieurs du français que pour les états actuels des langues. La collaboration entre spécialistes de linguistique historique, humanités numériques et traitement automatique des langues est un gage de réussite.

Coordinateur du projet

Langues, Textes, Traitements automatiques, Cognition, (Laboratoire public)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Interactions, Corpus, Apprentissages, Représentations
Université Paris Diderot
Langues, Textes, Traitements automatiques, Cognition,

Aide de l'ANR 371 518 euros
Début et durée du projet scientifique : février 2017 - 42 Mois

Liens utiles