Analyse de paramètres de classes de DAGS – PANDAG
Graphes dirigés acycliques (DAG) : des modélisations et des analyse de propriétés
Ce projet propose une étude combinatoire des structures de données informatiques modélisées par des graphes acycliques dirigés (DAG). Nous nous concentrons sur l'analyse d'objets issus de procédures de compactage, notamment les circuits booléens et les diagrammes de décision. Le défi principal consiste à spécifier de nouveaux objets combinatoires et à étendre l'algèbre des fonctions génératrices à ces nouveaux contextes.
Comprendre les DAG et leurs rôles primordiaux en informatique
Les graphes acycliques dirigés (DAG) constituent une structure de données fondamentale en informatique, omniprésente dans de nombreux domaines : problèmes d'ordonnancement, structures de données persistantes avec partage, systèmes de contrôle de version collaboratifs. Malgré leur importance cruciale, l'analyse combinatoire de ces structures reste complexe et présente des défis méthodologiques significatifs. Problématiques actuelles : Le décompte des DAG avec un nombre donné de sommets a été résolu dans les années 70 pour deux modèles (nœuds étiquetés ou non), mais les approches existantes présentent des limitations importantes. Les méthodes basées sur le principe d'inclusion-exclusion, bien qu'efficaces théoriquement, conduisent à des algorithmes d'échantillonnage aléatoire inefficaces en raison des nombreux rejets nécessaires. Les approches plus récentes utilisant les fonctions génératrices graphiques, bien que prometteuses, nécessitent encore le recours au principe d'inclusion-exclusion, limitant leur applicabilité pratique. Objectifs du projet : Notre projet vise à développer une approche constructive pour l'analyse des DAG, évitant les inconvénients du principe d'inclusion-exclusion. Nous nous concentrons sur l'étude des structures d'arbres compactées et avons développé des outils avancés pour analyser les structures de DAG obtenues par compactage d'arbres utilisant le partage de sous-structures communes. Les objectifs principaux incluent : 1. Développement d'outils combinatoires avancés : Création de nouvelles méthodes d'analyse utilisant la combinatoire analytique et énumérative pour décrire structurellement les objets combinatoires complexes. 2. Spécification de nouveaux objets : Identification et formalisation de nouvelles classes d'objets combinatoires émergents des procédures de compactage, particulièrement les circuits booléens et les diagrammes de décision. 3. Extension de l'algèbre des fonctions génératrices : Adaptation et extension des outils existants pour traiter ces nouveaux contextes combinatoires, permettant une analyse plus fine des propriétés structurelles. 4. Algorithmes d'échantillonnage efficaces : Développement d'algorithmes constructifs pour l'échantillonnage uniforme de DAG, contournant les problèmes de rejet des méthodes classiques. 5. Analyse de propriétés universelles : Étude des propriétés émergentes des grandes structures aléatoires dans différents contextes informatiques, révélant des caractéristiques universelles des structures de données.
Synthèse du projet : Analyse combinatoire des structures de données compactées
Ce projet propose une approche combinatoire innovante pour l'étude de quatre familles de structures de données obtenues par compactage.
1. Circuits booléens
L'étude des fonctions booléennes représentées par des circuits compactés constitue un défi majeur. Contrairement aux formules arborescentes classiques, les circuits permettent le partage de sous-structures, créant des graphes acycliques dirigés complexes. Les questions centrales portent sur la distribution probabiliste des fonctions : probabilité d'obtenir une tautologie, persistance de l'effet Shannon. Les premiers résultats suggèrent un comportement différent des modèles arborescents. Le défi réside dans le développement d'outils combinatoires adaptés aux modèles basés sur le partage.
2. Diagrammes de décision binaire
Ces structures révolutionnent la représentation des fonctions booléennes par compactage d'arbres de décision. Le défi combinatoire principal consiste à établir une fonction génératrice nécessitant la mémorisation du profil complet. Une approche récente utilise l'inclusion-exclusion pour éviter cette complexité. Les objectifs incluent l'échantillonnage uniforme efficace et l'analyse des propriétés cryptographiques des fonctions obtenues.
3. Structures DAG croissantes
Extension des arbres récursifs, ces structures relaxent les contraintes d'étiquetage en autorisant les répétitions de labels. Ce modèle généralise les processus phylogénétiques où plusieurs branches se divisent simultanément. La transformée de Borel approximative résout les équations fonctionnelles complexes. Les défis incluent l'extension par substitution de sous-arbres et l'adaptation aux modèles phylogénétiques non-plans.
4. Extensions exploratoires
Deux directions émergent : compilation de connaissances et algorithmes textuels. Les langages d-DNNF en intelligence artificielle représentent des bases de connaissances avec contraintes de déterminisme. Dans le domaine textuel, les arbres trie compactés révèlent des économies par partage de suffixes. Les structures DAWG présentent des dépendances complexes entre suffixes, constituant des défis combinatoires majeurs.
Impact
Ce projet unifie l'analyse de structures distinctes sous le prisme du compactage. Les outils développés révolutionneront la compréhension théorique avec des retombées en algorithmique, cryptographie, intelligence artificielle et bio-informatique.
Pour le moment une équipe franco-autrichienne de 3 chercheurs, un doctorant et une doctorante travaillent sur la modélisation pour le point 1.
Un premier résultat vient d'être soumis à publication pour le point 2. Il s'agit de l'article (et du code associé) présenté dans ce dépôt : hal.sorbonne-universite.fr/hal-05183438v1.
Les deux chercheurs, associés à un doctorants sont en train d'exploiter ces résultats quantitatifs afin de définir des algorithmes de génération aléatoire et par unranking. Les outils sont finaliser et sont en train d'être rédigés.
Concernant le point 3., un post-doctorant ainsi que deux chercheurs du projet sont en train de travailler dans deux directions diverses : l'une pour revisiter le contexte des arbres binaires construits via des processus de croissance et l'autre pour analyser des DAG par couches issus de sous-structures de plus courts chemins dans des graphes.
Le point 4. est pour le moment entre-aperçus dans les perspectives des résultats en cours de finalisation du point 2.
Toutes nos avancées reposent sur des outils de génération et de simulation que nous proposons au téléchargement accompagnant nos articles scientifiques.
Nous nous sommes rencontrés au mois de mai 2025, afin de confronter nos diverses pistes de recherche et d'unifier nos approches : pandag.proj.lip6.fr/workshop-2025/
Les premiers résultats sont prometteurs, et nous sommes confiants pour pouvoir présenter des avancées majeures pour chacun des 4 points que nous avons soulevés lors de l'écriture du projet.
Plusieurs réunions bilatérales France/Autriche, mais aussi Caen/Paris et Paris/Paris sont prévues au cours de l'automne 2025.
Les graphes dirigés acycliques sont étroitement liés aux ordres partiels, ce qui en fait une structure générale et importante. Des familles de DAGs sont apparues en informatique dès les premières procédures de compression de structures arborescentes. Les premières études ont eu lieu dans les années 70, en particulier pour l'énumération. Nos compétences résident dans l'analyse d'algorithmes en utilisant les méthodes de la combinatoire analytique pour décrire la structure combinatoire, trouver de nouvelles spécifications et exhiber des propriétés universelles. Dans ce projet, nous souhaitons étudier des structures d'arbres et leurs DAGs associés. Nous prévoyons de d'étendre la méthodologie à ces DAGs selon trois directions principales:
(i) analyse de la compression dans les tries;
(ii) structure typique de grands DAGs en lien avec les arbres sous-jacents;
(iii) Enumération, génération aléatoire et satisfaisabilité de différents types de diagrammes de décision et circuits booléens.
Coordination du projet
Antoine GENITRINI (LIP6)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
GREYC Groupe de recherche en Informatique, Image, Automatique et Instrumentation de Caen
LIP6 LIP6
LIPN Laboratoire d'Informatique de Paris-Nord
Aide de l'ANR 295 534 euros
Début et durée du projet scientifique :
février 2024
- 36 Mois