TecSan - Technologies pour la santé et l’autonomie

SYstème de Normalisation et d'Organisation de Données médicales textuelles pour l'Observation en Santé – SYNODOS

SYstème de Normalisation et d’Organisation de Données médicales textuelles pour l’Observation en Santé

Solution générique d’extraction sémantique des données médicales à des fins d’exploitation épidémiologique

La solution générique car - s’adaptant à toute thématique médicale - flexible dans les choix des technologies intégrées

Le dossier patient informatisé (DPI) constitue une source potentielle très importante de données pour des domaines aussi variés que l’aide à la décision médicale, la médecine factuelle ou la surveillance épidémiologique. Une grande partie de ces données étant disponibles sous format textuel, les méthodes de traitement du langage naturel utilisées peuvent être utilisées pour faciliter leur fouille et leur interprétation. L’objet de notre projet consiste à développer une solution générique d’extraction et de structuration sémantique des données médicales afin de les rendre exploitables dans le cadre d’études épidémiologiques ou d’aide à la décision médicale. <br />La solution développée sera la plus indépendante possible domaine d’application médical afin de permettre à tout nouvel utilisateur d’écrire lui-même ses règles métier quel que soit son domaine de spécialité médicale. La qualité des données extraites par la solution issue de nos travaux sera évaluée dans le cadre d’une utilisation épidémiologique. Les performances du système seront évaluées dans 2 domaines d’application : les infections associées aux soins et le cancer. <br /> <br />D’un point de vue technologique, le projet consistera à développer un analyseur sémantique à la fois robuste et précis capable de prendre en compte différents phénomènes linguistiques complexes tels que la détection d’expressions temporelles ou de négation et à interfacer cet analyseur sémantique avec un serveur multi-terminologique. SYNODOS proposera un système qui établira une distinction claire entre règles linguistiques et règles du système expert, rendant ainsi les deux modules indépendants et permettant à l’utilisateur non informaticien de générer ses propres règles métier et d’interroger les données ainsi produites. Les résultats attendus sont la mise à disposition pour commercialisation d’un système opérationnel en environnement de production, interfaçant les différents outils technologiques précédemment décrits.

Nous proposons l’approche suivante :
• Identifier les enrichissements et les adaptations nécessaires des outils linguistiques et des ressources terminologiques et ontologiques nécessaires à la réalisation des deux cas d’usage (repérage des infections associées aux soins et prise en charge diagnostique du cancer du colon).
• Concevoir un outil permettant aux utilisateurs du monde médical d’écrire des règles « métier ». IL s’agit de règles qui permettent d’inférer de nouveaux faits à partir de ceux issus des documents (faits certains) et de ceux définis de façon probabiliste ou de façon heuristique par des experts médicaux,
• Implémenter ces différents modules sous forme de services web
• Intégrer les différents modules dans un système SYNODOS général comprenant une interface utilisateur permettant d’accéder aux documents, d’écrire les règles « métier », d’analyser les documents et d’interroger la base de connaissance à des fins de recherche épidémiologique
• Evaluer les approches choisies et les outils implémentés sur la base de deux cas d’usage afin d’en mesurer les performances.

En cours

En cours

En cours

Le dossier patient informatisé constitue une source potentielle très importante de données pour la recherche biomédicale. Les dernières années ont vu une augmentation exponentielle des publications scientifiques traitant de l’utilisation du traitement textuel de données médicales dans des domaines aussi variés que l’aide à la décision médicale, la médecine factuelle, la surveillance épidémiologique ou le data et semantic mining. Dans le cadre du projet ANR TecSan ALADIN (n° ANR-08-TECS-001), le développement d’un outil d’analyse sémantique visant à détecter les infections associées aux soins, a démontré la faisabilité et les bonnes performances de ce type d’approche. Ce projet a aussi mis en évidence certains verrous technologiques que ce nouveau projet SYNODOS s’appliquera à résoudre.

L’objet de notre projet consiste à développer une solution générique d’extraction sémantique des données médicales et de les organiser afin de les rendre exploitable à des fins épidémiologiques ou d’aide à la décision médicale. Le caractère générique du domaine d’application médicale de la solution sera assuré en permettant à l’utilisateur d’écrire lui-même ses règles métier. Le projet permettra également d’évaluer la qualité des données extraites par la solution à des fins d’utilisation épidémiologique. Les performances du système seront évaluées dans 2 domaines d’application : les infections associées aux soins et le cancer.
D’un point de vue technologique, les objectifs du projet seront : le développement de règles de détection fine d’expressions temporelles, l’interfaçage entre l’analyseur sémantique et le serveur multi-terminologique en amont pendant la phase d’extraction, l’interfaçage entre l’analyseur sémantique et la représentation des connaissances. Au niveau de la génération des règles expert, SYNODOS proposera un système qui fait une claire distinction entre règles linguistiques et règles de systèmes experts rendant les deux modules indépendants, permettant à l’utilisateur de générer ses règles métier et d’interroger les données produites. Les résultats attendus du projet sont la mise à disposition pour commercialisation d’un système opérationnel en environnement de production, interfaçant les différents outils technologiques précédemment décrits.

Coordinateur du projet

Laboratoire de Biométrie et Biologie Evolutive (Laboratoire public)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

Laboratoire de Biométrie et Biologie Evolutive
Equipe Catalogue et Index des Sites Médicaux et Francophones et Groupe Gestion de la Connaissance et Système d'Information de Santé

Aide de l'ANR 785 183 euros
Début et durée du projet scientifique : septembre 2012 - 36 Mois

Liens utiles