Systèmes de bases de données augmentées par ML sur des données multimodales à l'aide de requêtes en langage naturel – MAgiQ
Dans cette proposition, nous présentons notre vision des bases de données augmentées par ML. Contrairement à la ligne de travail existante sur le ML pour les bases de données qui se concentre uniquement sur l'amélioration des performances des bases de données, notre approche cherche à tirer parti du ML pour étendre les bases de données avec de nouvelles fonctionnalités afin de remédier aux limites des systèmes existants. En particulier, nous envisageons une nouvelle classe de bases de données augmentées par ML pour permettre des requêtes en langage naturel sur des données multimodales sans avoir besoin de transformer au préalable les données au format tabulaire. Récemment, de grands modèles de langage (LLM) tels que GPT-4 démontrent déjà des capacités permettant de prendre en charge les réponses aux questions en langage naturel sur des sources de données multimodales. Nous appelons cela une approche LLM-first puisque le LLM est lui-même utilisé pour répondre aux questions. Bien qu’une telle approche LLM-first puisse sembler résoudre le problème de la réponse multimodale aux questions comme indiqué ci-dessus, nous soutenons que l’approche LLM-first présente des inconvénients importants. Par exemple, les LLM ont des limitations inhérentes difficiles à résoudre, telles que les hallucinations, qui sont une conséquence de leur nature générative. De plus, la réponse aux requêtes avec les LLM est une boîte noire puisque les utilisateurs ne peuvent pas retracer comment la réponse a été obtenue. Les coûts élevés des LLM sont encore plus graves, car ils les empêchent de fournir efficacement des réponses aux questions sur de grands ensembles de données. Dans cette proposition, avec des bases de données augmentées par ML, nous suggérons une nouvelle approche pour répondre aux questions sur des données multimodales. Contrairement à l'approche LLM-first, les bases de données augmentées par ML représentent une solution axée sur la base de données, dont l'idée principale consiste à exploiter les premiers principes des bases de données, tels que les plans de requêtes et l'optimisation des requêtes, pour permettre une réponse efficace et robuste aux requêtes. Ces principes sont encore étendus avec la maîtrise des LLM dans la compréhension des questions en langage naturel et des données multimodales.
Coordination du projet
Paolo PAPOTTI (EURECOM)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenariat
EURECOM EURECOM
TUDa TU Darmstadt
Aide de l'ANR 208 215 euros
Début et durée du projet scientifique :
octobre 2024
- 36 Mois