CE38 - Révolution numérique : rapports au savoir et à la culture 2019

Analyse et transformation du style de chant – ARS

Modèles et technologies développés dans le projet.

Pour le premier objectif central du projet, l’analyse du style de chant, deux approches ont été proposées pour l’investigation. La première approche du projet prévoyait de tirer parti des avancées des modèles de traitement de la voix basés sur l’apprentissage profond. En ce qui concerne l’analyse musicale, cela couvre les modèles pour l’analyse de F0, la séparation vocale, ainsi que l’alignement des paroles. Pour la deuxième approche, ARS prévoyait d’étudier les algorithmes de synthèse vocale interactive en tant qu’outils interactifs pour l’analyse musicologique performative.

En ce qui concerne le deuxième objectif, la transformation du style vocal, nous avons développé des modèles profonds pour la représentation et la transformation de la voix. Notamment, pour la représentation un vocodeur neuronal et pour la transformation, un auto-encodeurs avec contraints.

Résultats

Service Web pour analyse de chant

Le projet ARS a réalisé des progrès significatifs envers les deux objectifs initiaux. En ce qui concerne le soutien informatique à l’analyse musicologique du style vocal, le projet ARS a réalisé un nouveau logiciel, dénommé ars_analysis, qui sert de backend pour un service web développé par l'équipe WEB de l’IRCAM. Ce service web a été intégré par le partenaire Passages XX-XXI dans un site web accessible à l'adress www.ars-analysis.fr, dédié aux chercheurs travaillant sur les études musicologiques du chant. Le site permet à tous les chercheurs de la communauté de téléverser des chansons avec leurs paroles et offre ensuite la possibilité de télécharger les résultats : la voix chantée extraite, accompagnée de son analyse F0 ainsi que d’une annotation temporelle des syllabes des paroles alignées avec l’audio.

Alignement entre audio et lyriques

La principale innovation du projet ARS dans ce logiciel est le modèle Adagio d’alignement des paroles avec l’audio, développé dans la thèse de doctorat de Yann Teytaut. Il contient un modèle d’alignement syllabique capable d’aligner les paroles avec la voix chantée, même sans supprimer la musique de fond. Une propriété particulière du modèle est que l’entraînement peut être réalisé sur des paires simples audio-texte, sans nécessiter d’alignements de référence. Une seconde particularité du modèle est que, bien qu’il ait été entraîné uniquement sur du chant en anglais, il fonctionne avec presque toutes les langues occidentales.

Transformation du Chant

Le deuxième résultat majeur du projet ARS est le développement du démonstrateur Circe (Circe : the IRCam voice Encoder), un modèle innovant d’apprentissage profond permettant la transformation de la voix. Le modèle contient le vocodeur MBExWN (Multi-Band Excited WaveNet), un vocodeur neuronal universel. Ce vocodeur a été l’un des premiers vocodeurs universels à prendre en charge la voix chantée et parlée, permettant une inversion quasi transparente d’un mel-spectrogramme donné en un signal vocal correspondant, tout en restant compétitif en termes d’exigences computationnelles. Deuxièmement, il y a le modèle Circe lui-même, un auto-encodeur qui permet une transformation de la hauteur et de l’intensité de haute qualité pour la voix chantée et parlée. Cette approche axée sur la transformation vocale, proposée dans l’auto-encodeur Circe, est rare, voire unique, dans le paysage actuel de la recherche, qui est orienté vers l’utilisation de grands modèles de langage et de descriptions textuelles pour tous les contrôles. Le contrôle raffiné offert par l’auto-encodeur Circe est très apprécié par les artistes, car il permet un contrôle beaucoup plus détaillé. Nous notons que la transformation de l'intensité a été appris sans avoir besoin d'une base d'enregistrement calibré en intensité facilitant ainsi la production de ce type de transformation.

Perspectives

Étude computationnel et statistique du style de chant en musicologie

La musicologie numérique est une branche émergente de la musicologie. Le service web développé par le projet ARS soutiendra ces activités en pleine expansion et fournira des outils informatiques à la communauté.

Nouvelles approches pour la transformation de la voix

Le vocodeur neuronal MBExWN et l’auto-encodeur Circe, développés dans le cadre du projet ARS, illustrent une approche frugale du traitement neuronal de la voix. Ces modèles seront développés davantage afin de couvrir une plus large gamme de qualités vocales tout en réduisant les coûts de calcul et la latence.

Résumé de soumission

L'étude des styles de chant dans la musique populaire est une branche émergente en musicologie, et les effets de chant sont devenus un élément central des productions de musique populaire utilisant les quelques plug-ins d'effet disponibles à ce jour. ARS vise à établir une collaboration mutuellement bénéfique entre des musicologues travaillant sur l’analyse du chant et des spécialistes en traitement du signal, avec les objectifs suivants : 1) exploiter les progrès du traitement de la voix et de l’apprentissage profond pour la recherche musicologique sur le style de chant et 2) développer des nouveaux algorithmes de transformation de chant qui diversifient et enrichissent la palette des expressions artistiques. Les musicologues contribueront au développement des effets de chant grâce à leur expertise des caractéristiques de style, tandis que les spécialistes en traitement du signal établiront des algorithmes d'analyse robustes permettant aux musicologues d'étudier le style dans des performances musicales réelles, et produiront des algorithmes innovants pour la transformation du chant dans les productions musicales.

Axel Roebel (INST RECH COORD ACOUSTIQ MUSIQ)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

FLUX SOFTWARE ENGINEERING
EA4160 PASSAGES XX-XXI
STMS INST RECH COORD ACOUSTIQ MUSIQ
d'Alembert Institut Jean le rond d'Alembert

Aide de l'ANR 774 197 euros
Début et durée du projet scientifique : décembre 2019 - 42 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.