DS04 - Vie, santé et bien-être 2017

Communication, Literacy, Education, Accessibility, Readability – CLEAR

CLEAR - Rendre les informations médicales plus compréhensibles

Une étude ancrée en IA et langue

Quels objectifs se fixer pour réaliser la simplification de textes médicaux ?

Les patients ont souvent des difficultés pour comprendre les informations médicales qui les concernent. Cela concerne les diagnostics médicaux mais aussi les traitements et soins prescrits, que les patients doivent respecter. Le projet CLEAR est né dans ce contexte, avec de grands besoins scientifiques et sociétaux. En effet, il n'existait presque pas de travaux de recherche sur la simplification de textes médicaux en français. Notre projet a donc proposé d'effectuer des réalisations pour cette tâche. L'accent principal a été mis sur la création ressources linguistiques dédiées à la simplification, parce que ces ressources jouent un rôle très important. En utilisant ces ressources, il est aussi possible de créer des outils et programmes dédiés. Le projet est orienté sur plusieurs défis, comme: (1) proposer des travaux de recherche sur les besoins des patients, (2) traiter de grands volumes de données hétérogènes et non structurées, (3) adapter des méthodes automatiques au domaine médical, (4) créer des ressources pour l'explicitation de termes médicaux en français. Les résultats du projet peuvent être exploités par les professionnels du domaine médical, par les institutions et associations, et par les patients. Les patients, en particulier, reçoivent la possibilité d'accéder aux informations et connaissances sur les maladies et leurs traitements. Cela permet d'avoir une meilleure gestion du processus de soins et assurer une meilleure participation à la vie sociale, malgré la maladie.

Comment simplifier les textes médicaux ?

Le projet CLEAR utilise les méthodes du Traitement automatique des langues (TAL ou NLP) et de l'IA. Pour différentes tâches, nous exploitons des méthodes dédiées.

Par exemple, un des objectifs consiste à construire un dictionnaire avec des explications des termes médicaux, comme {myocarde, muscle du coeur}. Plusieurs méthodes sont proposées pour cela. Elles relèvent de l'extraction d'information. La majorité de ces méthodes est basée sur des règles. De cette manière, les méthodes peuvent fonctionner dans des corpus non annotés, car les règles décrivent assez précisément les structures langagières recherchées. Nous exploitons par exemple les définitions (Le myocarde est un muscle du coeur, qui a pour fonction de...), les reformulations (Le myocarde, c'est-à-dire le muscle du coeur, joue un rôle important dans...), la structure morphologique des termes (myo (muscle) + carde (coeur) = muscle du coeur), etc.

Les méthodes d'IA par apprentissage supervisé sont également exploitées. Ces méthodes doivent disposer de données de référence annotées, souvent manuellement, pour créer leur propre modèle et reconnaitre les informations recherchées. Par exemple, nous utilisons l'apprentissage supervisé pour trouver les phrases sémantiquement proches et parallèles. Ces phrases sont différenciées par leur technicité et difficulté {phrase difficile, phrase simplifiée}. Ces paires de phrases sont ensuite exploitées pour simplifier les documents : transformer ou ré-écrire des phrases techniques difficiles en des phrases simplifiées.

Une partie de l'évaluation est effectuée avec les utilisateurs réelles. Dans ce cas, les méthodes de sociologie sont utilisées.

Résultats

Le projet CLEAR a produit plusieurs résultats :

- un corpus comparable, avec des paires de documents, qui sont différenciés par leur technicité et difficulté. Les documents sont de trois types : (1) articles d'encyclopédie de Wikipedia et Vikidia (2*3 815 documents, 14M occ), (2) résumés de littérature scientifique de la collaboration Cochrane (2*575 documents, 8M occ), (3) notices de médicaments écrites pour les patients et informations similaires pour les médecins (2*11 800 documents, 278M occ).

- un corpus parallèle avec presque 11 000 paires de phrases alignées provenant de textes médicaux. Une partie de ces phrases est alignée manuellement, d'autres paires de phrases sont alignées automatiquement grâce à l'apprentissage supervisé. Les phrases d'une paire sont différenciées par leur difficulté.

- le corpus Wikilarge-FR avec presque 300 000 paires de phrases alignées provenant des textes généraux de Wikipédia. Ce corpus a été créé en anglais par d'autres chercheurs et traduit en français lors du projet CLEAR.

- un lexique, avec presque 8 000 paires de termes de type {myocarde, muscle du coeur} : les termes médicaux y sont associés avec des explications.

- une typologie de transformations langagières que l'on utilise pendant la simplification de textes médicaux. Parmi les transformations les plus fréquentes, nous avons par exemple les synonymes et les termes plus génériques.

- 16 textes, généraux et médicaux, simplifiés manuellement. Les textes sont de trois types : articles d'encyclopédie sur les sujets généraux, articles d'encyclopédie sur les sujets médicaux, cas cliniques.

- un corpus de 16 textes annotés avec les indicateurs d'oculométrie. Les expériences d'oculométrie sont effectuées avec presque 90 personnes. Ce corpus fournit plusieurs indicateurs, comme les fixations (arrêts sur les mots), saccades (mouvements entre les arrêts) et régressions (retours en arrière).

- des jeux de données créées pour la compétition DEFT en 2019 et 2020 pour les tâches de similarité sémantique.

Le projet a aussi proposé deux approches pour la simplification : une basée sur les règles, une autre par apprentissage supervisé.

Perspectives

Ce projet ouvre de très nombreuses perspectives. Elles sont surtout liées à la création de ressources et d'outils dédiés à la simplification.

Nous pensons en effet que la création de ressources (lexiques, corpus, annotations) est une tâche extrêmement importante. D'une part, de telles ressources permettent de mieux décrire les besoins et les spécificités de la simplification et de son évaluation. D'autre part, ces ressources permettent de développer les outils de simplification adaptés pour un public donné.

Résumé de soumission

Le projet CLEAR propose des méthodes innovantes pour la création de ressources et d'un prototype informatique dédiés à la simplification des textes médicaux en français. Le prototype a la vocation de jouer le rôle d'intermédiaire dans la communication entre les patients et les médecins. Le projet propose plusieurs points originaux, comme par exemple, orienter les recherches sur les besoins des patients, traiter de grosses masses de données hétérogènes et non structurées, adapter les méthodes de TAL au domaine médical, créer une base avec des connaissances pour l'explicitation de termes médicaux en français. Le projet offrira des ressources pouvant être exploitées par les médecins pour améliorer leurs interactions avec les patients. Pour les patients, il s'agit d'un moyen pour leur faciliter l'accès aux connaissances sur la pathologie et son traitement, afin qu'ils puissent mieux gérer leur pathologie et augmenter le degré de participation à la vie sociale malgré la maladie.

Natalia GRABAR (Maison Européenne des Sciences de l'Homme et de la Société Lille Nord-de-France/STL-Savoirs, Textes, Langage)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

MESHS - STL UMR8163 Maison Européenne des Sciences de l'Homme et de la Société Lille Nord-de-France/STL-Savoirs, Textes, Langage
LISN Laboratoire Interdisciplinaire des Sciences du Numérique
LEPS EA 3412 LABORATOIRE EDUCATIONS ET PRATIQUES EN SANTÉ
AFH ASSOCIATION DES HEMOPHILES
SYNAPSE SYNAPSE DEVELOPPEMENT

Aide de l'ANR 610 853 euros
Début et durée du projet scientifique : - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.