Méchanismes d'acquisition lexicale précoce – MechELex
Comment les bébés apprennent-ils les mots? Une approche big data
Si vous lisez ces mots, vous avez appris le langage. Chez les humains, l'apprentissage du langage est trivial. En fait, il est surprenant que quelqu'un ait du mal à apprendre la langue. Mais lorsque vous y pensez, apprendre la langue est tout un exploit. Pensez au développement du vocabulaire des bébés. À l'âge de trois ans, ils auront appris des centaines de mots, souvent à raison de 10 mots par jour ! Alors, comment le font-ils ?
Construire un vocabulaire: une merveille quotidienne
Au cours du siècle dernier, des chercheurs ont mis au point des méthodes astucieuses pour examiner ce processus, en essayant d’être incroyablement précis. Par exemple, ils enseignent aux enfants des mots dans le laboratoire, pour s'assurer qu'ils contrôlent l'expérience spécifique fournie à l’enfant. Ces méthodes nous ont beaucoup appris sur les façons dont les bébés pourraient apprendre les mots - mais nous avons été confrontés à une énigme en même temps. Étant donné que ces expériences se déroulent en laboratoire, dans un environnement isolé et contrôlé, nous ne pouvons pas prétendre que les enfants ont effectivement fait quelque chose de similaire dans le monde extérieur, bien plus sauvage que le laboratoire. C'est là que le projet MechELex est entré en jeu. Notre principal objectif était de trouver des moyens d'étudier l'apprentissage des mots en utilisant des données prises dans ce “monde sauvage”.
Le défi auquel nous étions confrontés était: Comment pouvons-nous relier les expériences de vie avec les connaissances? Quand on sort du labo pour aller dans ce monde sauvage, les mesures sont moins précises. Par exemple, l’enfant sera peut être distrait juste au moment dans lequel on lui pose une question, et ceci arrivera plus souvent dehors du labo que dans le labo. Pour compenser pour la perte de précision, nous avons augmenté la quantité de données que nous avons considérée et utilisé de nouvelles techniques. Par exemple, pour capturer les expériences quotidiennes des enfants, nous avons utilisé des enregistreurs que l’enfant pouvait porter dans une pochette pendant toute la journée. Pour mesurer les mots que les enfants ont appris, nous avons créé un jeu sur n écran tactile. Enfin, pour comprendre comment les enfants passent de l’expérience à la connaissance, nous avons utilisé des modèles informatiques, en écrivant des logiciels qui faisaient les mêmes choses que nous pensons que les bébés font, et en vérifiant que ces logiciels apprenaient la même chose que les bébés.
Nous avons constaté que les expériences des enfants sont en réalité beaucoup plus variables que nous le pensions. Par exemple, on parle aux enfants tsimanes pendant environs 1 minute par heure, alors que les enfants de parents professionnels américains ont 10 fois plus de parole dirigée à eux. Ces énormes différences d’expérience, s’expriment-elles dans des différences de vocabulaire tout aussi importantes? La réponse semble être non: les enfants tsimanes ne connaissent pas 10 fois moins de mots que les enfants américains. Cela signifie que les mécanismes d'apprentissage des mots des enfants doivent être incroyablement robustes!
Le projet MechELex est un projet de recherche fondamentale coordonné par Alejandrina Cristia, qui travaille au Laboratoire de sciences cognitives et psycholinguistiques, Département d'études cognitives, ENS, Université PSL, EHESS, CNRS. Le projet a débuté en octobre 2014 et a duré 4 ans. Il a bénéficié d'un financement de l'ANR s'élevant à 252969.60, avec un coût global de 1034710.36.
Le projet a donné lieu à 13 publications dans des revues internationales à comité de lecture (telles que Child Development), 15 articles dans des conférences d’ingénierie (Interspeech, ACL) et 29 communications dans des conférences internationales. D'autres articles sont en cours et seront publiés dans les mois et années à venir. Les résultats du projet ont également été présentés au grand public (radio, presse en ligne; voir www.lscp.net/babylab).
La plupart des enfants apprennent leur langue maternelle sans effort, en faisant très tôt preuve de connaissances linguistiques surprenantes. Dès l’âge de six mois, les nourrissons comprennent quelques mots clés : quand ils entend le mot “biscuit”, ils regardent plus l'image d'un biscuit que l’image d'une main. Pour pouvoir associer le mot à son sens, le bébé a dû extraire et stocker la composante sonore du mot, sa "forme sonore". En fait, des travaux antérieurs ont estimé que les enfants d’un an peuvent reconnaître 500 “mots potentiels”,c’est à dire des formes sonores n’ayant pas nécessairement un sens. L’apprentissage de ce “vocabulaire caché” n'a pas encore été étudié dans le cadre de l’acquisition naturelle du langage. Nous allons nous concentrer sur l'apprentissage précoce des formes sonores dans le monde réel (et non pas au laboratoire) pour comprendre comment les nourrissons apprennent des formes sonores, et comment les parents aident cet apprentissage.
Nous combinons des idées et des méthodes de la linguistique, la psychologie expérimentale, la reconnaissance automatique de la parole et le traitement du langage naturel, afin de formuler de nouvelles prédictions. Dans un premier temps, des nouveaux dictaphones nous permettront de rassembler un corpus riche et réaliste. Nous utiliserons une selection d’algorithmes d'extraction de formes sonores pour formuler des prédictions sur les formes qui devraient être extraites plus facilement étant donné le contenu enregistré, et des dégrées variés de connaissances linguistiques. Les algorithmes ont été choisis pour répresenter des enfants avec des niveaux de sophistication variés.
Dans une deuxième phase, nous vérifions ces prédictions sur la perception des nourrissons. Des travaux précédents ont montré que les bébés préfèrent les formes sonores fréquentes (et donc familières) à d’autres plus rares. Une préférence pour une forme indique donc que le bébé a extrait la forme (et la reconnaît). Puisque beaucoup de formes doivent être testées, nous développerons une nouvelle méthode : le “jouet de préférence," qui joue un son chaque fois que l'enfant le secoue. Le son change si l’enfant ne secoue pas le jouet assez, et il est repeté si les secouments se succédent rapidement. En utilisant un jouet adapté à son âge, l'enfant peut “exprimer ses préférences” chez lui, pendant des périodes beaucoup plus longues qu’au laboratoire. Cela nous permettra donc de vérifier les prédictions formulés d’après chaque algorithme dans la première phase.
Dans la troisième phase, nous évaluons dans quelle mesure chaque enfant suit un chemin unique lors de l'acquisition lexicale précoce. Comme l'apprentissage de formes sonores dépend nécessairement de la parole entendue par l'enfant, sa perception pourrait être très sensible à des différences dans ce qu'il entend. Pour mesurer directement les contributions idiosyncratiques et générales lors de l'apprentissage, nous nous appuyons sur les techniques innovantes décrites plus tôt : ce que l'enfant entend est capturée par des enregistrements, suivi d’un traitement automatique pour générer des prédictions spécifiques, qui sont par la suite évaluées en utilisant le jouet. Nous acquérons ainsi une meilleure compréhension du processus d'acquisition du langage, tout en ouvrant un vaste champ de recherche appliquée.
Coordinateur du projet
Madame Alejandrina CRISTIA (Laboratoire de Sciences Cognitives et Psycholynguistique)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
ENS, LSCP Laboratoire de Sciences Cognitives et Psycholynguistique
Aide de l'ANR 252 969 euros
Début et durée du projet scientifique :
septembre 2014
- 36 Mois