Élicitation interactive des contraintes pour la fouille de données non-supervisée et semi-supervisée – InvolvD
Les recherches récentes en Apprentissage Automatique et Fouille de Données cherchent à automatiser le processus de découverte de connaissances et à réduire les interactions avec l’expert avec de bonnes raisons comme la difficulté à traiter des volumes importants de données (d’autant plus en grandes dimensions) ainsi que les progrès techniques qui ont permis d’alléger les tâches chronophages. Cela a conduit à l’émergence d’offres telles que AutoML service (Google) envisageable dans un cadre supervisé où les étiquettes des objets peuvent être exploitées pour régler des paramètres ou sélectionner des modèles. En revanche, si les données sont partiellement étiquetées (apprentissage semi-supervisé) ou n’ont pas d’étiquette (non supervisé), la démarche inverse est nécessaire : mettre l’expert dans la boucle d’apprentissage et intégrer ses retours sur les résultats pour améliorer le processus, autrement dit rendre le processus interactif. Cela pose de nouveaux défis comme présenter les résultats pour permettre des retours informés de l’expert, être capable de les expliquer, interagir fréquemment avec l’utilisateur alors que AutoML a la possibilité de tourner pendant des heures. Résoudre ces défis non seulement améliore les résultats mais offre un autre avantage : un utilisateur est plus enclin à accepter un résultat si le processus qui a conduit à son émergence est expliqué..Ceci est d’autant plus vrai dans des applications où les investissements (en argent, temps, vies humaines) reposent sur la justesse des résultats. De plus, les réglementations récentes en Europe et aux Etats-Unis donnent des droits aux citoyens concernés par des décisions algorithmiques et imposent que les décisions soient expliquées. Ces exigences ont ainsi motivé des recherches sur l’interprétabilité des méthodes de type boîte noire (e.g. apprentissage profond).
Pour obtenir des résultats explicables en fouille de données non supervisée ou semi-supervisée, le projet InvolvD traite des questions posées par le développement de processus interactif de fouille de données : identification automatique de visualisations faisant sens, explications pour des retours informés, transformation en contraintes opérationnelles et développement de nouveaux systèmes d’apprentissage intégrant ces contraintes. A contrario d’approches de type boîte noire, nous nous fonderons sur le clustering et la recherche de motifs symboliques. Le cas d’usage en chemo-informatique, qui servira de guide tout au long du projet, est un cas typique d’illustration de cette problématique. En conception de médicaments, l’analyse exploratoire de données est capitale : les molécules doivent être comprises en termes de structures et/ou de propriétés chimiques, et les experts ont des connaissances qu’ils ne peuvent expliciter qu’au vu de résultats préliminaires.
InvolvD est structuré en cinq parties complémentaires :
1) Comment traduire les différentes formes de retours utilisateurs en contraintes exploitables dans des algorithmes de fouille de motifs structurés ?
2) Comment introduire des retours utilisateurs dans un processus de clustering, au delà des contraintes classiques à pouvoir d’expression relativement limité ?
3) Comment identifier les meilleurs outils pour visualiser les résultats, et comment évaluer automatiquement leur intérêt ?
4) Comment coupler étroitement clustering et fouille de motifs, pour expliquer des motifs en termes de clusters et vice versa et définir une interface présentant les résultats et exploitant les retours utilisateurs ?
5) Application et évaluation continue des solutions en chemo-informatique
Même si le cas d’usage influencera les décisions de conception, les avancées seront applicables à d’autres cadres, comme l’environnement, où des étiquettes fiables ne sont pas disponibles et où la compréhension du processus de découverte et l’interprétation des résultats dérivés sont de toute première importance.
Coordinateur du projet
Monsieur Albrecht ZIMMERMANN (Groupe de recherche en Informatique, Image, Automatique et Instrumentation de Caen)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
LaBRI Laboratoire Bordelais de Recherche en Informatique
GREYC Groupe de recherche en Informatique, Image, Automatique et Instrumentation de Caen
CERMN CENTRE D'ETUDES ET DE RECHERCHE SUR LE MEDICAMENT DE NORMANDIE
LIFO EA 4022 LABORATOIRE D'INFORMATIQUE FONDAMENTALE D'ORLÉANS
Aide de l'ANR 575 817 euros
Début et durée du projet scientifique :
janvier 2021
- 48 Mois