Laboratoire d'ingénierie, d'analyse et de la sécurité documentaire – IDEAS
IDEAS
International Document Engineering, Analysis and Security Lab
Imaginer, Inventer; Concevoir, développer, optimiser et entrainer les meilleurs algorithmes de traitement automatiques des documents d'entreprise
La vision que nous avons du LabCom est d’imaginer, inventer, concevoir, développer, optimiser et entrainer les meilleurs algorithmes de traitement automatiques des documents d’entreprise pour offrir un service d’intelligence artificielle capable de comprendre un maximum de document d’entreprise
Afin d’opérationnaliser cette vision, trois axes scientifiques sont actuellement en cours avec pour chacun un.e responsable côté Université / L3i et un.e responsable côté Entreprise / Yooz, et des recrutements associés. Ces trois axes sont :
- la classification de document, dont la visée est d’identifier tous types de documents reçus par les entreprises du monde entier ;
la fouille de document, dont la visée est d’extraire toutes les informations essentielles portées par le document (informations inscrites ou induites) pour automatiser le traitement métier ;
- la détection de fraude documentaire, dont la visée est d’identifier tout risque pour le récepteur du document de capturer des informations malignes.
L’ensemble de l’activité du LabCom est valorisée auprès de communication dans des salons et évènements grands publics (fête de la science, journées portes ouvertes) d’une part, et dans des évènements scientifiques d’autre part (conférences ou revues internationales). Le laboratoire IDEAS a démarré doucement avec la structuration de l’équipe, et la définition des sujets. Ainsi, l’activité est en cours d’accélération et ce travail de valorisation devrait s’accroître dans les deux ans à venir.
Pour le moment, la valorisation et diffusion auprès de réseaux professionnels spécialisés a été très limité de par la situation sanitaire (aucune présentation officielle n’a pu avoir lieu pour le moment). La valorisation scientifique pour sa part a été principalement lors de journées d’échanges ou de conférences (nationales ou internationales). La liste exhaustive de ces rencontres et publications est présentée ci-après.
[1] Nadeem Iqbal Kajla, Malik Muhammad Saad Missen, Muhammad Muzzamil Luqman, Mickaël Coustaty, Arif Mehmood, Gyu Sang Choi: Additive Angular Margin Loss in Deep Graph Neural Network Classifier for Learning Graph Edit Distance. IEEE Access 8: 201752-201761 (2020)
[2] Joris Voerman, Aurélie Joseph, Mickaël Coustaty, Vincent Poulain D'Andecy, Jean-Marc Ogier: Evaluation of Neural Network Classification Systems on Document Stream. DAS 2020: 262-276 – Conférence Internationale de rang A
[3] Ibrahim Souleiman, Joris Voerman, Mickaël Coustaty, Aurélie Joseph, Vincent Poulain d'Andecy and Jean-Marc Ogier : Apprentissage multimodal basé sur des modèles d’attention pour la classification de documents dans un contexte déséquilibré. EGC 2021 (to appear) – Conférence Nationale
Il faut également ajouter que trois articles sont actuellement soumis pour relecture à une conférence internationale de rang A.
Continuer les travaux initiés
[1] Nadeem Iqbal Kajla, Malik Muhammad Saad Missen, Muhammad Muzzamil Luqman, Mickaël Coustaty, Arif Mehmood, Gyu Sang Choi: Additive Angular Margin Loss in Deep Graph Neural Network Classifier for Learning Graph Edit Distance. IEEE Access 8: 201752-201761 (2020)
[2] Joris Voerman, Aurélie Joseph, Mickaël Coustaty, Vincent Poulain D'Andecy, Jean-Marc Ogier: Evaluation of Neural Network Classification Systems on Document Stream. DAS 2020: 262-276 – Conférence Internationale de rang A
[3] Ibrahim Souleiman, Joris Voerman, Mickaël Coustaty, Aurélie Joseph, Vincent Poulain d'Andecy and Jean-Marc Ogier : Apprentissage multimodal basé sur des modèles d’attention pour la classification de documents dans un contexte déséquilibré. EGC 2021 (to appear) – Conférence Nationale
L’Intelligence Artificielle mise au service de la dématérialisation de document, c’est à dire l’utilisation de versions numériques des documents, permet l’automatisation de l’interprétation des documents et la robotisation des processus métier impactés par le contenu de ces documents.
Yooz propose un service Internet SaaS d’automatisation de la gestion des demandes d’achat et des paiements et récemment, une extension au « tous documents ». Le succès de Yooz avec plus de 2000 clients repose sur sa stratégie d’innovation technologique dans la compréhension automatique des documents. Le L3i de l’université de La Rochelle a développé un savoir-faire d’excellence en algorithmes et méthodologies d’analyse de document, appliqué dans des domaines aussi variés que le document historique, administratif, culturuel, la vidéo de scène naturelle, la sécurité des documents multimédias,…
Yooz et le L3i sont partenaires depuis 2011 dans plusieurs projets de recherche collaboratifs centrés sur le document administratif, et notamment des projets pionniers en détection de fraude. Le LabCom IDEAS s’inscrit dans la continuité de ces collaborations, marquant une nouvelle étape dans le renforcement du partenariat L3i–Yooz.
Ces travaux ont conduit à élaborer une vision commune qui définit un périmètre et une ambition de développements scientifiques et technologiques communs: nous souhaitons inventer, développer, optimiser et entrainer les meilleurs algorithmes de traitement automatiques des documents d’entreprise pour offrir un service d’intelligence artificielle capable de comprendre un maximum de document d’entreprise. Concrètement, cette vision partagée se décline sur trois thèmes fonctionnels : la classification de document, la fouille de document et la détection de fraude documentaire.
L’innovation technologique résultante de cette vision tient dans la performance et la couverture en termes de variétés des documents (typologies, langues). Scientifiquement, cela demande de dépasser l’état de l’art des algorithmes capables d’apprendre efficacement de nombreuses classes de document dans la contrainte d’absence de données d’apprentissage (en volume) car une réalité industrielle tient dans la difficulté d’avoir a priori des échantillons de document.
Une seconde innovation importante autant technologique que scientifique, est la proposition d’algorithmes de détection de fraude sur des images de documents, en particulier sur des documents ayant subi des séquences impression/numérisation, pour lequel l’état de l’art est très pauvre.
Conscient de la variété de maturité des méthodes et des approches existantes, et afin de pouvoir valoriser les innovations techniques et scientifiques au plus tôt, nous proposons une mise en œuvre du programme du LabCom dans une stratégie d’intégration continue. Il s’agit de développer parallèlement des travaux court terme sur les méthodes matures et des travaux de recherche plus fondamentale, moyen ou long terme, sur les problématiques moins matures.
Ainsi, à court terme, nous envisageons de travaux à partir des technologies existantes afin d’optimiser les apprentissages et la coopération des différentes méthodes disponibles, d’enrichir le système expert de fouille de document de Yooz, et d’optimiser des prototypes existants réalisés à la fin de projet Securdoc concernant la détection de modification dans des images. Sur le moyen terme, nous souhaitons explorer d’autres approches pouvant dépasser les limites des méthodes existantes. Nous nous intéresserons au Deep Learning incrémental afin de bénéficier de la puissance de ces techniques avec des contraintes d’évolutivité continue et de tolérance aux petits corpus d’apprentissage, et à la généralisation de ces algorithmes sur des tâches de classification autant que de fouille de document. Enfin, à long terme, nous souhaitons étudier les autres techniques de stéganographies et d’authentification des imprimantes pour détecter des incohérences de qualité dans un document.
Coordination du projet
Mickael COUSTATY (LABORATOIRE INFORMATIQUE IMAGE INTERACTION)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
EA2118 LABORATOIRE INFORMATIQUE IMAGE INTERACTION
Aide de l'ANR 300 000 euros
Début et durée du projet scientifique :
February 2019
- 36 Mois