Analyse multi-modale Vidéo-Texte pour la compréhension des gestes – GestToSay
La majorité des personnes sourdes rencontrent des difficultés en lecture et en écriture, ce qui limite leur accès à de nombreuses technologies numériques, telles que la recherche de contenu, la traduction automatique, les assistants vocaux et les chatbots. Pour remédier à cette problématique, le projet GestToSay développera des méthodes d’analyse multimodale vidéo-texte spécifiquement adaptées aux langues visuo-gestuelles, comme la Langue des Signes Française (LSF).
Plus précisément, le projet se concentrera sur la reconnaissance et la traduction des gestes linguistiques (capturés par des webcams standard ou des appareils mobiles) en texte, en mettant l’accent sur l’apprentissage des représentations et les modèles neuronaux. Les méthodes neuronales employées, généralement basées sur des architectures de type Transformers, nécessitent de grandes quantités de données, qui font actuellement défaut en France. Une partie du projet sera donc consacrée à la collecte de données gestuelles selon deux approches principales : l’annotation automatique de données audiovisuelles traduites et la collecte de gestes via une plateforme interactive. Une plateforme web interactive sera développée dans le cadre du projet pour faciliter cette collecte de données. Elle permettra notamment d’enregistrer des signes isolés (unités lexicales en LSF) et de courtes expressions, mais aussi de les traduire en texte. De plus, elle offrira la possibilité de rechercher des exemples de signes dans différents contextes et de naviguer dans une collection de signes. Enfin, cette plateforme web sera évaluée à travers des expériences utilisateurs utilisant des méthodes quantitatives et qualitatives, fournissant ainsi des retours précieux pour orienter les choix de conception.
Coordination du projet
Michèle GOUIFFES (Laboratoire Interdisciplinaire des Sciences du Numérique)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
LISN Laboratoire Interdisciplinaire des Sciences du Numérique
GIPSA-lab Grenoble Image Parole Signal Automatique
LISN CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE
Aide de l'ANR 834 716 euros
Début et durée du projet scientifique :
décembre 2025
- 48 Mois