CHEX - Chaires d’excellence

Probabilité et logique unifiés pour l’extraction d’informations – PLUIE

PLUIE

Probabilité et logique unifiés pour l'extraction des informations

Objectifs du projet

Le projet permettra d'établir et de consolider un langage formel proposé pour les modèles de probabilité du premier ordre et de tester son applicabilité au domaine difficile de l'extraction des informations à l’échelle du Web. Le succès de ces objectifs représenterait une avancée significative dans les méthodes de calcul pour le raisonnement incertain et ouvrirait de nouvelles voies d'accès aux informations.

Nous prouvons que chaque modèle bien formé dans le langage formel définit une distribution de probabilité. Nous développons des algorithmes d'inférence dans le cadre de Metropolis-Hastings. Nous achevons l’extraction des informations en utilisant l'inférence probabiliste avec un modèle génératif et le texte comme observation. Le modèle comprend un monde réel (inconnu), la sélection pragmatique des faits pour présentation, et les formes syntaxiques possibles pour exprimer ces faits.

Nous avons développé une analyse bayésienne formelle de la méthode du «bootstrapping», ce qui sous-tend la plupart des principaux systèmes d'extraction des informations. Nous avons démontré que le modèle bayésien donne des résultats beaucoup plus robustes pour le bootstrapping et pour à la découverte des relations, obtenant des excellents résultats sur un corpus de texte du New York Times.

Nous croyons que les modèles génératifs basés sur le réalisme ontologique - l'hypothèse que le texte est généré, pas par un processus stochastique purement autonome, mais par une réalité sous-jacente des faits - représenteront avec beaucoup plus de précision les statistiques de la texte et permettront une analyse plus profonde et plus puissante des phénomènes linguistiques.

1 rapport technique
9 conférences invités

Le projet établira et consolidera un langage formel pour les modèles de probabilité "open-universe" du premier ordre - une unification pratique entre la logique et les probabilités - et testera son applicabilité au domaine difficile de l'extraction d'information de la World-Wide Web. La réussite de ces objectifs représenterait une avancée significative dans les méthodes de calcul pour le raisonnement incertain et ouvrirait de nouvelles voies d'accès à l'information.

Coordinateur du projet

Monsieur Stuart RUSSELL (Laboratoire d'informatique de Paris 6 (LIP6)) – russell@cs.berkeley.edu

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

UPMC - LIP6 Laboratoire d'informatique de Paris 6 (LIP6)

Aide de l'ANR 384 000 euros
Début et durée du projet scientifique : décembre 2012 - 20 Mois

Liens utiles