CE23 - Données, Connaissances, Big data, Contenus multimédias, Intelligence Artificielle

réSEaux Numériques de Données sémantiques: Utilité et vie Privée – SENDUP

SENDUP - réSEaux Numériques de Données sémantiques: Utilité et vie Privée

La quantité de données produites par les particuliers et les entreprises a explosé durant les dernières décennies. Leur exploitation offre des opportunités mais questionne le respect de la vie privée. Tandis que les concepts de données liées et ouvertes gagnent en importance, le grand public exprime une méfiance croissante vis-à-vis de l'exploitation des données personnelles. Cela conduit à un nouveau défi : comment préserver la vie privée tout en fournissant des données utilisables?

Objectifs: Respect de la vie privée lors de la publication et de l'interrogation de graphes de données sémantiques

De nos jours, les données sont souvent représentées sous forme de graphes avec une sémantique sous-jacente pour faciliter leur indexation et l'utilisation de moteurs d'inférence. C'est le cas, par exemple, dans les domaines des données liées et du web sémantique reposant typiquement sur la représentation RDF. Si l'anonymisation de données tabulaires et celle de graphes homogènes non-typés ont été largement étudiées, l'état de l'art concernant l'anonymisation de ce type de représentation reste lacunaire. Leur anonymisation demeure un challenge, du fait de leur hétérogénéité et de leur sémantique intrinsèque. C'est pourquoi le projet SENDUP se focalise sur des données à caractère personnel représentées sous la forme de graphe comprenant une sémantique sous-jacente en général et d'après le modèle RDF en particulier. Il vise la production d'une suite logicielle remplissant deux objectifs principaux : <br />(1) permettre l'interrogation de bases de type graphe sémantique tout en empêchant l'inférence et l'exploitation illégitime de données personnelles<br />(2) publier des graphes de données sémantiques utilisables tout en respectant la vie privée des individus dont les données sont publiées<br /><br />Pour ce faire, le projet SENDUP devra étendre l'état de l'art sur les domaines de l'anonymisation et de la mise à jour de bases de données sémantiques représentées sous la forme de graphe.

Approche: Confidentialité différentielle et gestion de mise à jour par actions compensatoires dans les graphes de données sémantiques

SENDUP enrichira tout d'abord l’état de l’art sur les techniques d’anonymisation en proposant de nouveaux concepts et techniques d'anonymat accordant des garanties formelles dans les bases de données considérées. Dans ce cadre, nous adapterons des approches de confidentialité différentielle aux graphes typés présentant une sémantique sous-jacente. Elles prendront en compte l'hétérogénéité des sommets et l'existence de relations logiques et sémantiques au sein de la base. Ces techniques entraînant nécessairement une dégradation des données. Des métriques de qualité appropriées seront introduites pour en valider l’utilité.

L’anonymisation de données implique leur modification. Or, les bases de données de type graphe sémantique peuvent être sujettes à des contraintes structurelles ou d’intégrité et être associées à des règles d’inférence. Leur mise à jour doit alors préserver ces contraintes et considérer ces règles. Pour supporter nos techniques d'anonymisation, nous définirons donc des techniques de gestion de mise à jour de graphes sémantiques de données. Premièrement il s'agira de garantir la satisfaction de contraintes et relations logiques lors de l'application d'une mise à jour. Ce point peut entraîner des situations où une mise à jour n'est pas applicable car elle entraînerait une violation de contraintes. La refuser est néanmoins inacceptable si elle est nécessaire au processus d'anonymisation. Dans un deuxième temps, nous garantirons donc l'application de toute mise à jour au travers de la génération d'actions compensatoires. De telles actions, appelées «effets de bord«, prendront la forme de mises à jour supplémentaires. Ainsi, la suppression d’un fait s’accompagnera par exemple de la suppression des faits permettant de le ré-inférer.

Résultats

A mi-parcours, les résultats obtenus dans le cadre du projet SENDUP s'articulent en deux axes.

Gestion de la mise à jour de bases RDF/S:
Nous avons formalisé sous forme de règles de réécriture de graphe toutes les mises à jour atomiques d’instance et schéma RDF/S et démontré que leur application préserve les contraintes d’intégrité inhérentes à RDF/S. Nous avons proposé des algorithmes générant des effets de bord sur l’instance et le schéma afin de garantir l’applicabilité de toute mise à jour atomique. Ces concepts ont été implémentés dans SetUp, module dédié de notre suite logicielle pouvant être utilisé de manière autonome.

Anonymisation et évaluation de requêtes respectueuse de la vie privée:
Nous avons développé une sémantique formelle du langage d'interrogation SPARQL qui est plus uniforme que celle proposée par le standard W3C et qui permet la formalisation de requêtes à des fins de validation formelle. Nous avons proposé une caractérisation des niveaux de confiance et des connaissances des acteurs des scenarios du projet et en avons extrait 4 modèles d’attaque. En général, nous considérons des analystes externes observant les informations publiées. Dans le cadre de bases de données et calculs distribués, nous considérons en plus l’absence de curateur de confiance, ainsi que des acteurs internes honnêtes, honnêtes mais curieux et malveillants (paresseux ou menteurs). Nous avons proposé, implémenté et validé expérimentalement des solutions de confidentialité différentielle répondant à tous ces modèles d’attaque dans le cadre d'un scénario préliminaire d'identification de nœuds influents dans des réseaux sociaux.

Perspectives

SENDUP fournira des solutions théoriques et techniques garantissant la préservation de la vie privée lors de l'exploitation de graphes de données sémantiques. Ce type de représentation, largement utilisée dans les domaines des données liées et du web sémantique, est particulièrement impacté par cette problématique.
L'analyse et la science des données promettent des évolutions sociétales majeures, mais posent à juste titre la question de leur intrusivité et de l'exploitation grandissante des données personnelles. Répondre à ces inquiétudes est une condition essentielle à la mise en œuvre de ces évolutions et à la promotion des mouvements d'open data.

Productions scientifiques et brevets

Publications :

Jacques Chabin, Cédric Eichler, Mirian Halfeld Ferrari, Nicolas Hiot. “Graph Rewriting Rules for RDF Database Evolution Management”. International Conference on Information Integration and Web-based Applications & Services, Nov-Dec 2020, Thaïlande.

Dominique Duval, Rachid Echahed and Frédéric Prost. «An Algebraic Graph Transformation Approach for RDF and SPARQL«. International Workshop on Graph Computation Models, Juin 2020, Norvège.

Cédric Eichler, Pascal Berthomé, Jacques Chabin, Rachid Echahed, Mirian Halfeld Ferrari, Benjamin Nguyen, Frédéric Prost. “SEmantic Networks of Data: Utility and Privacy”. Atelier sur la Protection de la Vie Privée (APVP'19), Juillet 2019, Cap Hornu, France.

Cédric Eichler, Pascal Berthomé, Jacques Chabin, Rachid Echahed, Mirian Halfeld Ferrari, Benjamin Nguyen, Frédéric Prost. “SEmantic Networks of Data: Utility and Privacy”. RESSI 2019: Rendez-vous de la Recherche et de l'Enseignement de la Sécurité des Systèmes d'Information, Mai 2019, Erquy, France.

Résumé de soumission

La quantité de données produites par les particuliers et les entreprises a explosé au cours des dernières décennies. Cette collecte généralisée offre des opportunités (par exemple, la construction de nouvelles connaissances en utilisant ce "Big Data") mais également des challenges pour le respect de la vie privée. Le grand public exprime une méfiance croissante vis-à-vis de l'exploitation des données personnelles, ce qui se traduit par des réglementations toujours plus contraignantes (tel que le Règlement Général de Protection des Données de l'UE). En parallèle, de plus en plus d'administrations se reposent sur l'Open Data, estimant que les données qu'elles collectent sont un atout qui doit être disponible et utilisable par tous. Cela conduit à un nouveau défi sociétale au carrefour de ces évolutions sociales: comment préserver la vie privée tout en publiant des données utilisables?

De nos jours, les données sont souvent organisées sous forme de graphes avec une sémantique sous-jacente pour permettre une interrogation efficace et l'utilisation de moteurs d'inférence. Tel est le cas, par exemple, des données liées et du web sémantique reposant typiquement sur RDF. Le projet SEND UP vise deux objectifs principaux: (1) empêcher l'utilisation illégitime de données privées lors de l'interrogation de graphes de données sémantiques et (2) publier des graphes de données sémantiques sensibles à la fois utiles et respectueux de la vie privée.

La confidentialité des bases de données tabulaires a été l'objet de multiples travaux ayant abouti sur des modèles bien établis, tels que le k-anonymat, la l-diversité et la confidentialité différentielle. Récemment, ces concepts ont été étendus aux graphes, principalement aux réseaux sociaux. Ces méthodes considèrent généralement des nœuds homogènes sans relation sémantique et visent à protéger la topologie du graphe. La plupart du temps, leur utilité est évaluée expérimentalement par rapport à des ensembles spécifiques de fonctions et/ou de caractéristiques de graphes (par exemple, le diamètre et la distribution de degrés). Pour parvenir à ses objectifs, SEND UP vis à:

- Introduire des métriques d'utilité basées sur la connaissance et l'usage. En effet, en raison de la nature des graphes ciblés, l'évaluation de l'utilité ne peut pas reposer sur la préservation, par exemple, du diamètre du graphe.

- Définir entièrement les effets secondaires des mises à jour de graphes de données sémantiques et introduire des méthodes et des outils pour les gérer. En effet, mettre à jour des instances de tels graphes durant leur anonymisation entraîne de nouveaux problèmes incluant des effets secondaires sur les instances mais aussi sur leur schéma et leurs contraintes. Le contexte particulier implique des problématiques superficiellement adressées dans la littérature (e.g., mettre à jour des bases de données incomplètes, déclencher des évolutions de schémas comme effets secondaires de mises à jour d'instances) et même de complètement nouvelles (e.g, résoudre des problèmes de non-déterminisme des effets secondaires comme des problèmes d'optimisation de confidentialité et d'utilité).

- Introduire de nouveaux concepts d'anonymat accordant des garanties de confidentialité dans les bases de données de graphes sémantiques et prenant en compte l'hétérogénéité des sommets et l'existence de relations logiques et de règles sémantiques entre les attributs.

- Introduire des méthodes et des algorithmes pour l'anonymisation des bases de données de graphes sémantiques intégrant nos nouveaux concepts d'anonymat, nos métriques d'utilité basées sur l'usage et la connaissance mais aussi les effets secondaires de transformations. Des techniques efficaces devraient tenir compte des effets secondaires au cours du processus de décision plutôt que de simplement les déclencher par la suite.

Ces contributions et objectifs seront supportés et implémentés par une suite de modules logiciels validés en laboratoire.

Cédric EICHLER (EA 4022 LABORATOIRE D'INFORMATIQUE FONDAMENTALE D'ORLÉANS)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

LIG Laboratoire d'Informatique de Grenoble
LIFO EA 4022 LABORATOIRE D'INFORMATIQUE FONDAMENTALE D'ORLÉANS

Aide de l'ANR 218 721 euros
Début et durée du projet scientifique : - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.