CE23 - Intelligence artificielle et science des données 2024

Apprentissage et résolution de modèles graphiques discrets à l'aide de la fouille de données et du Deep Learning – GMLaS

Apprentissage et résolution de modèles graphiques discrets à l'aide de la fouille de données et du Deep Learning

Ces dernières années, l'apprentissage automatique (ML) et de la fouille de données (DM) ont connu d'énormes progrès, devenant une technologie omniprésente dans un large éventail d'applications. L'hybridation du DM, du ML et du Deep Learning avec le raisonnement par contraintes et l'optimisation constitue l'un des défis majeurs de l'IA. Notre proposition explore ce défi dans un cadre de raisonnement/optimisation discret et son solveur associé : les modèles graphiques et le solveur toulbar2.

Le projet GMLaS constitue une étape importante vers l'objectif ultime d'intégrer les outils ML/DM au paradigme des fonctions de coûts, conduisant à un cadre de résolution hybride basé sur les données

Ces dernières années, l'apprentissage automatique (ML) et la fouille de données (DM) ont connu d'énormes progrès, s'imposant comme une technologie incontournable dans divers secteurs d'application. Le raisonnement par contraintes et l’optimisation constituent des domaines qui peuvent grandement bénéficier de l’intégration du ML/DM. La programmation par contraintes (PPC) est considérée comme l'un des principaux paradigmes pour résoudre les problèmes combinatoires en IA. La PPC offre un cadre générique pour modéliser et résoudre des problèmes combinatoires provenant de divers domaines. L'hybridation de la fouille de données, de l'apprentissage machine et de l'apprentissage profond (DL) avec le raisonnement par contraintes et l'optimisation représente un défi majeur en IA. Notre proposition explore ce défi à travers un cadre combiné d'apprentissage automatique, de raisonnement et d'optimisation discrets, ainsi que le solveur associé : les modèles graphiques (MG) et le solveur toulbar2 (vainqueur de plusieurs compétitions de solveurs). Les modèles graphiques discrets, en particulier les modèles additifs tels que les réseaux de fonctions de coût (CFN) et les champs aléatoires de Markov, sont intéressants car ils peuvent représenter des informations logiques et probabilistes de manière transparente. toulbar2 est un solveur de l'état de l'art dédié à la résolution de tels modèles discrets. Il comprend à la fois des méthodes exactes et des méta-heuristiques sophistiquées. L'hybridation des méthodes ML et PPC a ouvert une voie de recherche avec deux directions: (1) l'utilisation du ML pour améliorer la performance des solveurs discrets de l’état de l’art pour résoudre des familles spécifiques de problèmes, (2) l'utilisation du DL sur des problèmes complexes en les faisant collaborer avec des solveurs discrets. <br /><br />Lorsque des méthodes approchées, telles que les méta-heuristiques (MH), sont nécessaires, les techniques de ML et de DM peuvent également coopérer pour résoudre des problèmes d'optimisation combinatoire. Lors de l'exploration, les MHs génèrent un volume considérable de données, y compris de bonnes ou mauvaises solutions en termes de leurs valeurs de fitness, etc. Ces données peuvent potentiellement contenir des connaissances précieuses, telles que les caractéristiques des bonnes et des mauvaises solutions, etc. L'intégration de telles connaissances dans la recherche permet de guider les MHs vers de meilleures décisions, rendant les MHs plus intelligentes. <br /><br />Le projet GMLaS constitue une étape importante vers l'objectif ultime d'intégrer les outils ML/DM au paradigme des fonctions de coûts, conduisant à un cadre de résolution hybride basé sur les données, avec la possibilité de résoudre des problèmes réels plus vastes et plus complexes. Un exemple de problème sur lequel le projet se focalisera est le design computationnel de protéines (CPD), un domaine dans lequel l'un des partenaires du projet possède une expertise approfondie.

Programmation par contraintes, fouille de données, apprentissage automatique, réseaux de fonctions de coût, toulbar2, toulbar2-VNS

Le projet s’appuiera sur plusieurs paradigmes et méthodes listées ci-dessous:

(1) La programmation par contraintes (PPC) est considérée comme l'un des principaux paradigmes pour résoudre les problèmes combinatoires en IA. La PPC offre un cadre générique pour modéliser et résoudre des problèmes combinatoires provenant de divers domaines.

(2) Les modèles graphiques discrets, en particulier les modèles additifs tels que les réseaux de fonctions de coût (CFN) et les champs aléatoires de Markov, sont intéressants car ils peuvent représenter des informations logiques et probabilistes de manière transparente.

(3) Les MHs sont une famille de méthodes d'optimisation approchées qui pilotent une interaction entre des procédures d'amélioration locale et des stratégies de haut niveau capables de s'échapper des optima locaux et d'effectuer une exploration robuste de l'espace de recherche. La Recherche en Voisinage Variable (VNS) est une méta-heuristique bien connue, dirigée par des changements systématiques dans les structures de recherche de voisinage afin de trouver un optimum local et d'en sortir.

(4) L’extraction de motifs est une tâche fondamentale en fouille de données, visant à identifier des sous-structures récurrentes et intéressantes à partir des données, comme forme de découverte de connaissances. Nous comptons exploiter ce type d'approches pour guider la recherche toulbar2-VNS.

(5) l'apprentissage automatique et le Deep Learning

(6) Plateforme toulbar2 : L'épine dorsale du développement logiciel est la plateforme toulbar2 qui hébergera tous les développements algorithmiques du projet. L'environnement de développement collectif (GitHub : (https://github.com/toulbar2/toulbar2) qui héberge la plateforme logicielle toulbar2 fournira un soutien au développement coordonné du logiciel.

toulbar2 est un solveur de l'état de l'art dédié aux réseaux de fonctions de coût (CFN). Il comprend à la fois des méthodes exactes et des méta-heuristiques sophistiquées telle que la Recherche en Voisinage Variable (toulba2-VNS). Ce solveur a remporté plusieurs médailles lors de compétitions de Modèles Graphiques déterministes et probabilistes dans le passé et jusqu'à récemment : Compétition Max-CSP 2008 (vainqueur sur les tâches 2-ARY-EXT et N-ARY-EXT), Évaluation de l'Inférence Probabiliste à UAI 2008 (vainqueur sur plusieurs tâches du MPE), Défi d'Inférence Probabiliste à UAI 2010 (vainqueur sur la tâche MPE de 1200 secondes), Défi d’Inférence Probabiliste PIC 2011 (deuxième place par ficolofo sur la tâche MAP de 1 heure), Compétition d'Inférence UAI 2014 (vainqueur dans toutes les catégories de tâches MAP, voir les entrées Proteus, Robin et IncTb), Compétition XCSP3 2022 (deuxième place dans les catégories Mini COP et Parallel COP), Compétition d'Inférence UAI 2022 (vainqueur dans toutes les catégories de tâches MPE et MMAP), et Compétition XCSP3 2023 (première place dans la catégorie Mini COP et deuxième place dans la catégorie Parallel COP).

Résultats

Plusieurs résultats scientifiques sont attendus du projet GMLaS :

1. Résolution d'instances CPD de grande taille:
Un premier résultat du projet sera la résolution potentielle d'instances difficiles de très grandes taille du problème de Conception de Protéines Computationnelles (CPD) en termes de temps de calcul en qualité des solutions produites.

2. Nouvelles fonctionnalités du solveur Toulbar2 :
Un second résultat du projet sera le nouveau solveur toulbar2, qui sera équipé des fonctionnalités suivantes :
- Outil de configuration automatique pour ajuster efficacement ses paramètres, permettant ainsi de renforcer l’efficacité et la robustesse du solveur.
- Apprentissage des heuristiques pour le branchement et la propagation des fonctions de coût.
- Apprentissage de représentations hybrides d’instances de conception de protéines (CPD) qui combinent des fonctions par paires denses avec des interactions d'ordre supérieur peu denses.

3. Capacités d'apprentissage pour Toulbar2-VNS :
La méta-heuristique Toulbar2-VNS et ses variantes seront enrichies de capacités d’apprentissage pour générer des voisinages pertinents, en exploitant les données produites au fil des recherches pour guider la résolution vers des solutions de qualité.

Résumé de soumission

Ces dernières années, les domaines de l'apprentissage automatique (ML) et de la fouille de données ont connu d'énormes progrès, devenant une technologie omniprésente dans un large éventail d'applications. Un domaine qui peut bénéficier de manière significative de l'utilisation du ML est le raisonnement par contraintes et l'optimisation. La programmation par contraintes (CP) est considérée comme l'un des principaux paradigmes pour résoudre les problèmes combinatoires en IA. La technologie CP offre un cadre générique pour modéliser et résoudre des problèmes combinatoires provenant de divers domaines. L'hybridation du Data Mining (DM), du Machine et du Deep Learning avec le raisonnement par contraintes et l'optimisation constitue l'un des défis majeurs de l'intelligence artificielle. Notre proposition explore ce défi dans un cadre de raisonnement/optimisation discret et son solveur associé : les modèles graphiques (MG) et le solveur toulbar2 (vainqueur à la compétition UAI 2022 sur deux tâches discrètes d'optimisation/comptage). Les modèles graphiques discrets, en particulier les modèles additifs tels que les réseaux de fonctions de coût (CFN) et les champs aléatoires de Markov, sont intéressants car ils peuvent représenter des informations logiques et probabilistes de manière transparente. toulbar2 est un solveur de l'état de l'art dédié à la résolution de tels modèles discrets. Il comprend à la fois des méthodes exactes et des méta-heuristiques sophistiquées. Le projet GMLaS constitue une étape importante vers l'objectif ultime d'intégrer les outils ML/DM au paradigme des fonctions de coûts, conduisant à un cadre de résolution hybride basé sur les données, avec la possibilité de résoudre des problèmes réels plus vastes et plus complexes. Un exemple de problème sur lequel le projet se focalisera est le design computationnel de protéines (CPD), un domaine dans lequel l'un des partenaires du projet possède une expertise approfondie.

Samir Loudni (Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

MIAT Institut national de recherche pour l'agriculture, l'alimentation et l'environnement
LS2N Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire
GREYC Université de Caen Normandie

Aide de l'ANR 549 463 euros
Début et durée du projet scientifique : février 2025 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.