CE38 - Révolution numérique : rapports au savoir et à la culture

Accès au contenu informationnel de textes par les enfants – TextoKids

Accès au contenu informationnel de textes en français par les enfants

Le projet TexToKids vise à étudier les caractéristiques linguistiques et psycholinguistiques propices à une compréhension optimale d’un contenu informationnel par des enfants et à proposer des briques logicielles de traitement automatique des langues (TAL) qui intègrent ces caractéristiques.

Mesurer la complexité d'un texte pour enfants : enjeux linguistiques, psycholinguistiques et informatiques

Les résultats de recherche attendus sont :<br />(1) une typologie des caractéristiques linguistiques des textes destinés aux enfants selon leur tranche d’âge (en intégrant pour les développer dans le cadre du projet des caractéristiques émotionnelles jusque là peu prises en compte) ; <br />(2) une méthode de calcul de l’adéquation de textes (ou de portions de textes) pour les enfants ; <br />(3) des stratégies de remédiations (justifications linguistiques, propositions de reformulation) des portions inadéquates ; <br />(4) des outils d’aide à la rédaction d’articles pour le journal Le P'Tit Libé/ le journal Albert (guide de bonnes pratiques et outils informatiques) ; <br />(5) l’intégration de la mesure d’adéquation dans le moteur de recherche Qwant Junior.

Méthodes d'apprentissage automatique profond

- Utilisation d'un modèle d'apprentissage automatique récent (Transformers) : les résultats montrent que la méthode proposée (fondée à l'heure actuelle sur les tranches d'âge données par les éditeurs) obtient de très bons scores, tant sur les phrases que sur les textes, et surpasse même les prédictions des experts psycholinguistes en compréhension de textes pour enfants
- Développement d'un corpus annoté en émotions

Mise en ligne de la chaîne de traitement

Rashedur Rahman, Gwénolé Lecorvé,Aline Etienne, Nicolas Béchet, Jonathan Chevelu, Delphine Battistelli (2020) - «Mama/Papa, Is this Text for Me?«. in Actes COLING'20 (28th International Conference on Computational Linguistics), 8-13 décembre 2020, Barcelone, Espagne
Gwénolé Lecorvé, Alexis Blandin, Delphine Battistelli, Aline Etienne (2020) - «Age Recommendation for Texts«. in Actes LREC'20 (12th International Conference on Language Resources and Evaluation), 13-15 mai 2020, Marseille, France
Alexis Blandin, Gwénolé Lecorvé, Delphine Battistelli, Aline Etienne (2020) - «Recommandation d’âge pour des textes«. In Actes TALN’20 (Traitement automatique du langage naturel 2020).
Aline Etienne, Delphine Battistelli, Gwénolé Lecorvé (2020) - «L’expression des émotions dans les textes pour enfants : constitution d’un corpus annoté«. In Actes TALN’20 (Traitement automatique du langage naturel 2020)
Aline Etienne, Delphine Battistelli, Gwénolé Lecorvé (2020) - «Apports de la linguistique et du TAL à l'analyse des émotions dans les textes pour enfants«. In Actes de la 3ème édition du Colloque «Langage et éMOTions«, poster, 26-27 novembre 2020, Bordeaux

Le projet TextToKids vise à développer des outils pour faciliter l’accès par des enfants à l’information contenue dans des textes. Ceci implique des travaux tant sur la production de ces textes par des adultes que sur l’accès par les enfants à des textes adaptés. La tranche d'âge ciblée est celle des enfants jeunes lecteurs, c'est-à-dire la tranche 7-12 ans. Le consortium, qui rassemble des linguistes, des psycholinguistes, des informaticiens et des journalistes spécialisées, cherchera à caractériser les contraintes psycholinguistiques et linguistiques (en particulier de nature temporelle et émotionnelle) à respecter et à proposer des outils d'aide (analyse automatique de textes, recherche d’information, reformulation, bonnes pratiques). Les cadres d’expérimentation seront la mise en récit d’événements de l'actualité (par exemple, l’accueil des migrants en France ou les Oscars) et la mise en place d’un moteur de recherche sur Internet respectueux des contraintes mises en lumière. En termes de retombées, le projet œuvre dans le sens d'un « Internet des enfants » et ouvre la voie à d'autres modalités (parole, images) pour assister la production de contenus multimédias pour les enfants.

Coordination du projet

Delphine Battistelli (Modèles, Dynamiques, Corpus)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

SYNAPSE DEVELOPPEMENT
QWANT
IRISA Institut de Recherche en Informatique et Systèmes Aléatoires
MoDyCo Modèles, Dynamiques, Corpus

Aide de l'ANR 649 310 euros
Début et durée du projet scientifique : novembre 2019 - 42 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter