DS0901 - Liberté et protection des citoyens et des résidents 2014

Un Framework Automatique et Opérationnel pour la Détection et le Profilage de Fraude sur l’Identité – IDFRAud

IDFRAud

Un Framework Automatique et Opérationnel pour la Détection et le Profilage de Fraude sur l’Identité

Objectifs, originalité, et nouveauté du projet

Le Phénomène de la fraude documentaire n'a pas cessé de monter en puissance ces dernières années. Plusieurs études à travers le monde ont confirmé la croissance du nombre des faux documents d'identité. Les travaux de ce projet visent à proposer une plate-forme automatique pour la détection et l'analyse des documents frauduleux. Cette analyse s'appuie sur trois modules interconnectés : la vérification, la gestion de connaissances et l'analyse des cas de fraude.<br />Le module de la vérification repose sur la classification et l'extraction de l’information de la pièce afin d'y appliquer les vérifications adaptées. La classification vise à identifier la famille de la pièce (type, pays, …). Les deux approches basées sur l’image d’une part et sur le texte d’autre part seront combinées de manière à obtenir une classification fine. Ensuite, le contenu textuel sera extrait grâce à un prétraitement dépendant de sa classe. Le processus d’authentification forensique sera ensuite exécuté à la fois sur la représentation du texte et de l’image de la pièce.<br />Cela nous amène au second objectif : un module de gestion des connaissances des pièces d’identité. Il permet d’organiser intelligemment les règles d’analyse ainsi que la facilité de l’insertion et la modification d’une règle, et d’assurer la cohérence globale des tests.<br />Le troisième module vise à détecter des liens entre des pièces frauduleuses en se basant sur leurs caractéristiques. Cette détection sera couplée à des méthodes de clustering pour mieux analyser et visualiser les profils des cas de fraude.

Travaux effectués

Une importante évaluation a été réalisée en collaboration avec l’équipe LinkMedia de L’IRISA concernant la classification automatique des documents d'identité. Plusieurs méthodes d'extraction de caractéristiques et d'encodage ont été évaluées. De plus, des travaux sur les méthodes à base de parties sont réalisés pour la classification d'images à grain fin. La problématique principale est la non-disponibilité des images des documents ce qui rend les techniques classiques basées sur l'apprentissage inadaptées. Une nouvelle méthode a été proposée permettant l’apprentissage du classifieur à partir d'une seule image de référence. La création des modèles ainsi que la classification sont basées sur l'extraction des descripteurs locaux de l'image (SURF).
Modéliser le plus grand nombre des documents d'identité est un des objectifs les plus importants dans IDFRAud. Le premier travail a consisté en l'élaboration d'une base de connaissances sur les modèles de documents d'identité. Une partie importante de ce premier travail a été réalisé dans le cadre d’un stage réalisé à l’équipe LIS de L’IRISA en se basant sur la base PRADO et les technologies du Web sémantique. Toutes les connaissances ne peuvent pas être acquises automatiquement et certaines connaissances doivent être saisies par des experts du domaine. Deux cas se présentent dans le cadre du projet : (1) la création ou la complétion de nouveaux modèles de documents et (2) la description de faux documents en vu de leur analyse.
En ce qui concerne l'analyse des cas de fraude, plusieurs techniques de clustering et d'analyse de données de l'état de l'art ont été explorées (eg. K-means, analyse de concepts formels (FCA), règles d'associations, KRIMP).

Résultats

Une première version du classifieur proposé est déjà mise en place et permet la distinction entre 10 classes de documents (pièces françaises) avec un taux de réussite proche de 98%. Des nouveaux contrôles de l'intégrité des pièces ont été développés suite aux formations ainsi qu'aux diverses réunions avec la DCPAF et des cas de fraude rencontrés.
À ce stade, un prototype fonctionnel de 'Formulis' existe et a permis une expérience le 27 juin 2016 auprès de gendarmes de l'IRCGN sur la description de fausses cartes d'identité portugaises. Dans ce contexte, AriadNEXT a créé le framework AutoRDF pour faciliter l’évolution du code qui permet la manipulation des données au format RDF où une ontologie au format OWL existe.

Perspectives

Une couverture plus vaste du classifiuer est prévue dans les mois à venir pour inclure plus de modèles de documents des pays limitrophes à la France. D'autres contrôles seront ajoutés suite à l'ajout des nouveaux modèles de documents dans la base de connaissance.
L’extension de la couverture du classifieur va être accompagnée par une extension plus importante des modèles de documents dans la base de connaissance.
Une réflexion et un travail collaboratif entre LIS et AriadNEXT a été entamé sur la génération de workflows coordonnant les différents modules d'analyse de documents. L'objectif principal est d'améliorer la flexibilité et la maintenabilité par rapport à la solution existante qui est manuelle. La flexibilité est nécessaire pour s'adapter à différents ensembles de documents, à différents appareils et à différents niveaux d'analyse

Productions scientifiques et brevets

Revues internationales :
1. Sébastien Ferré, Sparklis: An Expressive Query Builder for SPARQL Endpoints with Guidance in Natural Language. Semantic Web: Interoperability, Usability, Applicability, 2016. IOS Press.
Conférence internationales :
1. F. Chevalier. AutoRDF - Using OWL as an Object Graph Mapping (OGM) specification language, Extended Semantic Web Conference, demo, (2016)
2. Sébastien Ferré, Peggy Cellier. Graph-FCA in Practice. Int. Conf. Conceptual Structures, 2016: 107-121. Springer.
3. Sébastien Ferré. Bridging the Gap Between Formal Languages and Natural Languages with Zippers. Extended Semantic Web Conference, 2016: 269-284. Springer.
4. Sébastien Ferré. A Proposal for Extending Formal Concept Analysis to Knowledge Graphs. Int. Conf. Formal Concept Analysis (ICFCA), LNCS 9113, pages 271-286, 2015. Springer.
Conférences nationales :
1. Ahmad Montaser Awal et Abdullah Almaksour. Classification et extraction des documents complexes à partir des images issues d’un périphérique mobile : Application aux documents d’identité, Colloque International Francophone sur l’Ecrit et le Document, 575-588 (2016)
2. Sébastien Ferré. Conception interactive d'ontologies par élimination de mondes possibles. In Ingénierie des connaissances (IC), 2015.

Résumé de soumission

Etant donné l’ampleur de ses conséquences, la fraude sur l’identité représente un risque majeur pour la sécurité de notre société. Elle est associée à des fraudes minimes mais répétées (forfaits de téléphone, crédits de faible montant etc.) autant qu’aux crimes organisés et aux actions des terroristes. Plusieurs études officielles à travers le monde ont montré ces dernières années la croissance du nombre de faux documents d’identité. Avec la démocratisation d’Internet, un public toujours croissant a accès à des technologies avancées, ce qui peut expliquer la montée en puissance de ce phénomène, jusque dans ses aspects criminels. Les méthodes d’investigation traditionnelles sur les documents d’identité nécessitent la présence d’un expert, ce qui limite fortement leur utilisation dans nombre de cas, que ce soit dans les services de l’Administration, ou dans des services commerciaux. Les outils actuels de contrôle de pièces d’identité présentent quelques limitations, comme le fort taux de faux positifs, la focalisation sur des caractéristiques partielles des pièces (vérification seulement de la MRZ, ou bien seulement des contrôles UV etc.), et sont souvent incapables d’évoluer avec l’arrivée de nouvelles techniques. Dans ce contexte, l’informatique est utilisée de manière très limitée, pour du stockage de données et pour réaliser des tâches basiques. La première contribution du projet IDFRAud consiste à proposer l’automatisation de l’analyse de pièces d’identité et la vérification de leur intégrité. Notre analyse de pièce s’appuie sur trois processus : la classification, l’extraction des données, et la vérification de la pièce. Le module de classification vise à identifier la famille d’appartenance de la pièce (type, pays, version). Les deux approches basées sur l’image d’une part et basées sur le texte d’autre part seront combinées de manière à obtenir une classification fine. Une fois obtenue la classe de la pièce, son contenu texte sera extrait grâce à un pré-processing dépendant de cette classe, et à des méthodes de localisation et de reconnaissance. Le processus d’authentification forensique sera ensuite exécuté à la fois sur la représentation du texte et de l’image de la pièce. Les trois processus mentionnés précédemment s’appuient sur un ensemble de règles qui sont externalisées de manière formelle afin de faciliter leur gestion, et de garantir leur évolutivité. Cela nous amène à la seconde contribution de IDFRAud : un module de gestion des connaissances sur les pièces d’identité. Il permet d’organiser intelligemment les règles d’analyse des pièces d’identité afin de faciliter l’insertion et la modification d’une règle, et d’assurer la cohérence globale des tests. L’information sur les pièces d’identité provenant de registres publics (comme Prado) peut être facilement intégrée à la solution grâce à cette couche de gestion des connaissances. Plusieurs études ont montré le côté organisé des activités de fraude sur les pièces d’identité, et la progression du marché noir associé. Par suite, le troisième objectif du projet IDFRAud est d’adresser le problème de la détection de lien forensique, et de proposer un moteur d’analyse automatique qui puisse s’appliquer en permanence sur la base des faux documents. Des méthodes d’analyse de cluster seront utilisées pour découvrir les relations entre des fausses pièces d’identités dans l’environnement multidimensionnel de leurs caractéristiques. Ce module d’extraction de pattern sera couplé à un mécanisme de visualisation adapté de manière à faciliter la compréhension et l’analyse des groupes de cas de fraudes liés les uns aux autres qui auront été extraits. Il est utile de mentionner que le module de gestion des connaissances de IDFRAud permettra une exploitation simple et directe de toutes les nouvelles règles de contrôle suggérées via le module d’analyse et de vérification des pièces.

Ahmad Montaser AWAL (AriadNEXT)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

ENSP Ecole Nationale Supérieure de Police
Pôle Judiciaire de la Gendarmerie Nationale
AXT AriadNEXT
Université de Rennes 1 / IRISA Université de Rennes 1 / Institut de Recherche en Informatique et Systèmes Aléatoires

Aide de l'ANR 905 433 euros
Début et durée du projet scientifique : septembre 2014 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.