CE23 - Intelligence artificielle et science des données 2023

Synthèse Texte-Vidéo pour Applications Créatives – RENAISSANCE

Résumé de soumission

La synthèse de médias décrit l'utilisation de l'intelligence artificielle (IA) pour générer et manipuler des données, le plus souvent pour automatiser la création de contenus (image, vidéo, audio). Les progrès technologiques dans ce domaine favorisent l'utilisation d'algorithmes d'IA dans l'industrie créative en révolutionnant le processus de création de contenu. Récemment, les algorithmes de conversion de texte en image ont progressé de manière spectaculaire et ont été mis à la disposition du grand public. Il est désormais possible de générer, en quelques secondes, une image correspondant à une description textuelle fournie, ce qui a des implications considérables pour l’industrie créative.

La vidéo est le support le plus polyvalent et le plus efficace pour transmettre des informations. Par conséquent, la possibilité de créer une vidéo à partir d'un texte permettrait de franchir une nouvelle étape dans la révolution créative de l'IA.

Dans le cadre du projet RENAISSANCE, nous travaillerons sur la création d'algorithmes de conversion de texte en vidéo pour des applications créatives. Notre consortium est composé d'Obvious, un trio d'artistes de renommée mondiale qui travaille avec l'intelligence artificielle pour créer des œuvres d'art avec un fort bagage de recherche, et de MLIA, un acteur majeur dans le développement de l'apprentissage profond en France qui étudie la vision par ordinateur et le traitement du langage naturel. Cette combinaison unique d'un collectif artistique et d'un laboratoire académique est pertinente pour travailler sur la recherche en vue d'une application créative. Notre travail se concentrera sur quatre directions de recherche importantes.

Premièrement, nous visons à créer des bases de données qualitatives de texte-vidéo. Actuellement, ces bases n'existent pas, ce qui empêche la génération de vidéos haute définition cohérentes. Nous réaliserons cette tâche en appliquant une politique stricte d'utilisation des données : nous ne diffuserons que les modèles qui ont été entraînés sur des données dont nous possédons les droits (par le biais de partenariats, par exemple).

Ensuite, nous nous attaquerons au problème difficile de la génération de vidéos avec des mouvements complexes avec une cohérence spatiale et temporelle à partir de textes. Une hiérarchie de problèmes de plus en plus difficiles se pose, allant de vidéos simples comme une voiture roulant en ligne droite à un tutoriel vidéo complet pour une recette de cuisine complexe. Pour cela, nous tirerons parti des progrès considérables réalisés récemment dans la recherche sur la conversion du texte en image, avec l'avènement des modèles de diffusion et de l'architecture des transformateurs pour le traitement et la génération d'images et de vidéos.

Nous travaillerons également sur la mise à disposition de nos modèles avec des interfaces spécifiquement développées pour un usage créatif, en prenant soigneusement en compte les besoins de l'artiste. Obvious s'appuiera sur son réseau d'artistes et d'acteurs de l'industrie créative pour tester les interfaces et les fonctionnalités développées , augmentant ainsi l'impact du projet, culturellement et économiquement.

Enfin, pour que les algorithmes de conversion de texte en vidéo soient utiles à l'industrie créative, nous nous concentrerons sur les besoins des artistes et des créatifs. Nous envisageons le développement de fonctionnalités telles que l'édition sans masque (modification d'un objet ou d'un sujet de la vidéo générée par simple saisie de texte), la personnalisation (ajout de soi-même ou d'un objet personnel aux concepts connus du modèle) ou la gestion de scénarios (division automatique d'un scénario complet en différentes scènes).

Coordination du projet

Obvious (PME (petite et moyenne entreprise))

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

Obvious
ISIR Institut des Systèmes Intelligents et de Robotique

Aide de l'ANR 729 795 euros
Début et durée du projet scientifique : octobre 2023 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter