CE23 - Intelligence artificielle

Variations de l’environnement d’évaluation : caractérisation du delta et impact sur l’évolution continue des systèmes de recherche d’information – Kodicare

KoDicare

Proposer un cadre pour évaluer de manière continue les systèmes de recherche d'information de manière continue.

Objectifs et Hypilthèses de recherche

L'évaluation des systèmes de recherche nécessite la mise en place d'un environnement d'évaluation : sélectionner un paradigme, des métriques, un jeu de données, etc. Le choix d'un environnement est rarement motivé objectivement, et l'impact de ses variations (choix d'un jeu de données contre un autre, en modifier un, etc.) est rarement mesuré. Une telle objectivité provient d'une compréhension quantifiable des différences entre les ensembles de données, les documents ou les requêtes. A partir de la connaissance de ces impacts, Kodicare propose de définir a cadre capable de supporter l'évaluation continue, dans laquelle les corpus, les requêtes, et les systèmes évoluent.

Dans Kodicare, nous appelons génériquement cette différence « delta de connaissances ». L'évaluation de plusieurs environnements, connaissant leurs deltas de connaissances, conduit à mesurer et qualifier des « deltas de résultats ». Les systèmes en ligne nécessitent une évaluation continue avec un environnement stable et significatif qui garantit la reproductibilité et l'explicabilité des résultats des systèmes. Un environnement contrôlé quantifiant à la fois les « deltas de connaissances » et les « deltas de résultats » soutiendra une telle évaluation continue et permettra de fournir des explications aux ingénieurs système grâce à l'analyse des changements associés dans les deux « deltas ». Les résultats théoriques seront confrontés à des cas réels définis par une entreprise française qui déploie un moteur de recherche web (Qwant).

Modélisation et expérimentation des deltas de résultats.

Modélisation et expérimentation des deltas de connaissance.
Passage à l'échelle des propositions

Articles publiés :
P. Mulhem, G. Gonzalez Saez, A. Mannion, D. Schwab, and J. Frej. LIG-Health at Adhoc and Spoken IR Consumer Health Search: expandingqueries using UMLS and FastText. InCLEF 2020, Thessaloniki (on line),Greece, Sept. 2020.
L. Goeuriot, H. Suominen, L. Kelly, A. Miranda-Escalada, M. Krallinger,Z. Liu, G. Pasi, G. G. Saez, M. Viviani, and C. Xu. Overview of the clefehealth evaluation lab 2020. InInternational Conference of the Cross-Language Evaluation Forum for European Languages, pages 255–271. Springer, 2020
L. Goeuriot, H. Suominen, L. Kelly, L. A. Alemany, N. Brew-Sam, V. Cotik,D. Filippo, G. G. Sáez, F. Luque, P. Mulhem, G. Pasi, R. Roller, S. Senevi-ratne, J. Vivaldi, M. Viviani, and C. Xu. CLEF ehealth evaluation lab2021. In D. Hiemstra, M. Moens, J. Mothe, R. Perego, M. Potthast, andF. Sebastiani, editors,Advances in Information Retrieval - 43rd European Conference on IR Research, ECIR 2021, Virtual Event, March 28 - April1, 2021, Proceedings, Part II, volume 12657 of Lecture Notes in ComputerScience, pages 593–600. Springer, 2020
N. Gonzalez Sáez, L. Goeuriot, and P. Mulhem. Addressing different evaluation environments for information retrieval through pivot systems. In A. Doucet and A. Chifu, editors,COnférence en Recherche d’Informationset Applications - CORIA 2021, French Information Retrieval Conference,Grenoble, France, April 15, 2021. ARIA, 2021
G. Gonzalez-Saez, P. Mulhem, and L. Goeuriot. Towards the evaluationof information retrieval systems on evolving datasets with pivot systems.InCLEF 2021, Lecture Notes in Computer Science, pages Accepted, bePublished. Springer, 2021

L'évaluation de systèmes de recherche d'information nécessite de mettre en place un environnement qui : choisi un paradigme d'évaluation, des mesures d'évaluation, un corpus, etc. Le choix d'un tel environnement est rarement motivé objectivement, et l'impact de ses variations (choisir un corpus plutôt qu'un autre, en modifier un) est rarement mesuré). Une telle objectivation peut provenir d'une compréhension quantifiable de différences entre corpus, documents, requêtes de test, etc. Kodicare nomme des différences "delta de connaissance". L'évaluation de plusieurs environnements, en connaissant leur delta de connaissance, amène à mesurer et qualifier des deltas de résultats. Les systèmes en ligne ont besoin d'évaluations continues dans un environnement stable et expressif, afin de garantir la reproductibilité et l'explicabilité des résultats. Les deltas d'environnement et de résultats permettrons de supporter des évaluations continues, et de fournir des explications sur ces différences. Les résultats théoriques seront confrontés à des cas réels définis par la société Qwant, qui déploie un moteur de recherche sur le web.

Les verrous scientifiques et techniques :
A notre connaissance, aucun cadre dédié à l'évaluation continue des systèmes de recherche d'information n'existe, en particulier à cause du grand nombre de paramètres rencontrés. Les deltas proposés par KodiCare sont une approche sensée pour traiter ce problème. L'évaluation continue n'est possible que si l'on se confronte à des cas réels, difficiles à définir sans l'aide d’entreprises proposant des moteurs de recherche sur le Web. L'implication de Qwant et de son moteur de recherche est donc nécessaire pour Kodicare.

Résultats escomptés :
• La solution théorique innovante explorée par le projet est de définir un cadre commun de « deltas de connaissance » et « deltas de résultats », et de les quantifier pour que les résultats soient comparables au cours du temps (tel un test de régression) et que le moteur de recherche s'adapte aux changements de comportements et de besoins d'information des utilisateurs.
• Un sujet de recherche va explorer la transparence qu'un tel système doit proposer pour être utilisé.
• Le nouveau paradigme défini possède un impact potentiel sur de nombreuses communautés de recherches connexes à ces travaux.

Coordination du projet

Philippe Mulhem (Laboratoire d'Informatique de Grenoble)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

LIG Laboratoire d'Informatique de Grenoble
QWT QWANT
Research Studios Austria Forschungsgesellschaft mbH / Research Studio Data Science

Aide de l'ANR 400 670 euros
Début et durée du projet scientifique : décembre 2019 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter