Extraction d'information translingue améliorée par des connaissances pour la pharmacovigilance – KEEPHA
De nos jours les connaissances scientifiques peut être publiée sous forme numérique dans différentes sources : encyclopédies, articles scientifiques, documents réglementaires, ainsi que dans des sources de connaissances structurées comme les ontologies ou les bases de connaissances. De plus, les articles de presse et les messages sur les réseaux sociaux peuvent contenir des informations pertinentes et être utilisées pour la recherche. Tout cela est publié tous les jours dans un grand nombre de langues. Le volume et la vitesse de production des contenus numériques sont cependant devenus trop rapides dans certaines domaines pour que les humains puissent suivre le rythme et maintenir une vue à jour des données actuelles de la science. Dans la base MEDLINE par exemple, près d'un million d'entrées sont ajoutées chaque année.
Ce projet vise à concevoir des méthodes d'intelligence artificielle qui digèrent automatiquement ces différents types de sources de textes et extraient conjointement de telles connaissances et informations pour peupler des bases de connaissances existantes. Notre projet prend comme démonstration le domaine de la pharmacovigilance, qui vise à maintenir à jour les connaissances sur les effets indésirables des médicaments, au bénéfice de la santé publique. Dans ce domaine, les sources de référence incluent les revues scientifiques et les notices de médicaments, et des observations élémentaires sont rapportées dans les dossiers médicaux et les réseaux sociaux.
Les méthodes d'extraction d'information courantes extraient des représentation auto-supervisées de représentations de mots à partir de grands corpus textuels et ont tendance à négliger les connaissances qui existent sur le domaine ciblé. Ce projet vise au contraire à intégrer les connaissances existantes dans les processus d'acquisition de représentations de mots et d'extraction d'information pour améliorer l'extraction de nouvelles informations et connaissances. Cela s'avère d'autant plus nécessaire pour s'attaquer à des sources de textes moins formelles et de ce fait plus complexes à traiter, comme les réseaux sociaux. De plus, le projet cherche à s'appuyer sur l'existence d'informations similaires publiée dans des langues multiples pour collecter des connaissances à travers les frontières.
Coordination du projet
Pierre Zweigenbaum (Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
DFKI German Research Center for Artificial Intelligence, Speech and Language Technology Lab
LIMSI Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur
NAIST Nara Institute of Science and Technology, Graduate School of Science and Technology
Aide de l'ANR 248 477 euros
Début et durée du projet scientifique :
mars 2021
- 36 Mois