Investigation du Bea, du Lisic, de Reseda et de l’Irit sur la transcription de parole aéronautique – BLeRIOT
À la suite d’un accident ou d’un incident aérien, les bureaux d’enquêtes tels que le BEA (Bureau d’Enquêtes et d’Analyses pour la sécurité de l’aviation civile) et le BEA-é (Bureau d’Enquêtes Accident de l’aviation étatique) vont systématiquement exploiter les enregistreurs de vol, appelés communément les boîtes noires.
Les boîtes noires sont conçues pour protéger les paramètres de vols et les enregistrements audio du poste de pilotage en cas d’accident aérien. L’analyse des données audio des enregistreurs de conversation du cockpit (CVR) est une activité absolument essentielle dans la compréhension des causes ayant conduit à un accident. La durée minimum des enregistrements CVR est passée récemment réglementairement de 2 heures à 25 heures d’audio. Le travail de transcription est particulièrement chronophage et affecte considérablement la charge de travail des enquêteurs lorsqu’ils cherchent à établir les circonstances de l’accident afin de prévenir un accident similaire. Dans cet effort commun de faire évoluer leurs méthodes et de s’appuyer sur des algorithmes automatiques de fouille de données audio, le BEA et RESEDA ont déjà commencé à intégrer des outils notamment de transcription automatique de la parole dans le but d’indexer rapidement le contenu des enregistrements pour identifier plus efficacement les phases d’intérêt pour l’analyse.
Toutefois l’efficacité de ces méthodes automatiques est limitée par la présence d’une quantité non négligeable de paroles superposées dans les enregistrements des CVR. La parole superposée a deux impacts négatifs immédiats. Elle dégrade tout d’abord l’intelligibilité des échanges vocaux des pilotes, et d’autre part elle limite l’efficacité des outils de transcription automatique de la parole. En effet, sans capacité d’identifier la présence de parole superposée, il devient difficile d’évaluer a posteriori la qualité des hypothèses de transcription.
Dans ce projet, nous proposons de répondre à la problématique de la segmentation et de la séparation de la parole superposée avec pour objectif d’améliorer l’intelligibilité de la parole pour l’analyse humaine et la transcription automatique de la parole. En particulier, le consortium cherchera à proposer des méthodes de segmentation, d’analyse automatique d’intelligibilité et de séparation de sources informée. Plus particulièrement, il étudiera l’apport que la segmentation et de l’évaluation automatique de l’intelligibilité de la parole peuvent apporter à la séparation de sources. De plus, dans le cadre d’une démarche d’intelligence artificielle frugale, explicable et reproductible, le cadre méthodologique choisi pour la séparation de sources sera de type factorisation matricielle et placera l’humain au cœur de la boucle d’analyse des données, en lui proposant initialement les sorties d’approches aveugles simples que l’IA informera par l’apport de connaissances si l’analyste audio ne juge pas ces premiers résultats concluants. A l’issue du projet, dans le cadre d’une démarche FAIR, le consortium cherchera à mettre à disposition de la communauté scientifique des données non-sensibles mais représentatives des challenges inhérents au CVR.
Coordination du projet
Bureau d'Enquêtes et d'Analyses (Divers public)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
DGA EP : RESEDA DGA Essais Propulseurs
LISIC LABORATOIRE D'INFORMATIQUE, SIGNAL ET IMAGE DE LA CÔTE D'OPALE
BEA Bureau d'Enquêtes et d'Analyses
IRIT Institut de Recherche en Informatique de Toulouse
Aide de l'ANR 450 698 euros
Début et durée du projet scientifique :
- 36 Mois