CE25 - Sciences et génie du logiciel - Réseaux de communication multi-usages, infrastructures numériques 2024

Caractérisation, Vérification et Mutualisation des Workflows de ML – PROFIL

Résumé de soumission

La démocratisation du Machine Learning (ML) à de nombreux domaines d’applications a pour conséquence une profusion de codes mis en commun sans réel contrôle. En pratique, l’expertise portée par ces codes est largement réutilisée pour guider de nouvelles explorations. Cependant, il reste aujourd’hui très difficile d’une part de systématiquement analyser les variations entre les workflows (WF) (i.e. les ensembles partiellement ordonnés de tâches) portés par ces codes, que ce soit pour les réutiliser ou en extraire de nouvelles connaissances et d’autre part de vérifier leur qualité au moins pour ne pas reproduire des erreurs connues.
Dans ce projet, nous adoptons une approche de génie logiciel (GL) pour aborder cette problématique en proposant de lier ingénierie des modèles (au sens GL), analyse statique et statistique pour caractériser ces workflows de ML par des modèles (aussi au sens GL), désormais nommés profils pour éviter la confusion.
Plus précisément, notre projet vise à explorer trois aspects complémentaires : (i) quelles informations peut-on et doit-on extraire automatiquement de code ML pour construire un profil permettant son analyse ? (ii) Est-il possible d’identifier systématiquement des erreurs types à partir du profil et d’identifier de mauvaises pratiques ? (iii) Peut-on exploiter la profusion des codes ML pour accélérer la recherche en ML en favorisant, à partir des profils extraits, une mutualisation des connaissances et l’élicitation de bonnes ou mauvaises pratiques ?
Notre hypothèse de recherche est qu’il est possible d’identifier finement les étapes d’un WF en fonction soit des fonctions de bibliothèques logicielles appelées, soit d'informations contextuelles (ex: données en paramètre, appels de fonction précédents).
Avec PROFIL, nous fournirons la première plateforme d’analyse de code de ML à des fins de caractérisation de profils en nous appuyant sur un méta-modèle de WF, de la logique propositionnelle, de l'analyse de code et du clustering.

Coordination du projet

Anne Etien (Institut national de la recherche en informatique et automatique)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenariat

Institut national de la recherche en informatique et automatique
I3S Centre national de la recherche scientifique
Institut national de la recherche en informatique et automatique

Aide de l'ANR 559 777 euros
Début et durée du projet scientifique : décembre 2024 - 48 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter