CORD - Contenu et interaction 2009

Modèles linguistiques et ontologies. Extraction informatique et caractérisation d'opinions et de jugements d'évaluation dans les textes – OntOpiTex

Résumé de soumission

Ces dernières années ont vu croître l'intérêt pour la recherche informatisée des opinions, des attitudes ou des jugements dans des textes. Ceci correspond à des enjeux économiques et sociaux réels : veille économique, veille d'image, observatoire politique... Pourtant les travaux actuels se limitent souvent à la simple détermination de polarités positive, négative, neutre. Ils n'arrivent à capter que partiellement les phénomènes visés qui recouvrent des significations riches, diversifiées et souvent complexes Ils s'intéressent peu aux paramètres et au contexte de manière plus genérale. Un des buts principaux d'ONTOPITEX est plutôt de chercher à identifier et à agréger des segments textuels porteurs d'opinions caractérisés finement, en fonction de plusieurs critères (valeur sémantique, source, intensité et force, type d'objet évalué - la cible, ...). Des outils d'agrégation de contenu et des interfaces interactives seront proposés pour permettre à un utilisateur final de prendre connaissance des annotations produites à l'échelle d'une collection de documents et de naviguer parmi celles-ci, selon ses propres critères. Sur le plan scientifique (en linguistique, TAL...), des questions théoriques importantes émergent concernant la nature même de l'objet « opinion », le choix des méthodes et des outils les plus adaptés à leurs traitements (extraction, agrégation, présentation), en fonction des cas d'utilisation. Dans ONTOPITEX, nous entendons traiter ces questions sur trois fronts, en adoptant délibérément une approche bi-disciplinaire (linguistique et informatique) :1) Modèle linguistique et ontologie. Un travail amont de modélisation sera réalisé, afin d'éclaircir conceptuellement la famille des notions ayant trait à l'évaluation (appréciation, jugement, opinion,...). L'analyse originale de ces notions, considérées dans leur contexte d'énonciation et à l'échelle du discours, sera opérée sur corpus en intégrant tant les apports théoriques venant de la linguistique et du TAL (Appraisal de Martin and White, 2005, Wiebe 2005...), que les acquis des différents partenaires du projet (prise en charge énonciative, évaluation automatique des objets culturels...). Des modèles linguistiques de complexité croissante seront élaborés, d'abord au niveau de la phrase, puis du texte. La construction d'une ontologie permettra de formaliser les notions concernées, permettant ainsi l'utilisation de méthodes et d'outils d'annotation sémantique. 2) Analyse automatique,agrégation et présentation synthétique. A partir des travaux précédents, un modèle opératoire sera développé et mis en œuvre par un outil d'analyse textuelle automatique, en s'appuyant sur la plate-forme LinguaStream adaptée au développement de chaînes d'analyse linguistique et déjà utilisée chez deux des partenaires. Les outils de présentation seront intégrés ou construits. Les différentes ressources linguistiques nécessaires seront aussi constituées à partir des spécifications de ce modèle opératoire. Notre approche est clairement expérimentale et incrémentale. 3) Evaluation et cas d'utilisation. Elle s'appuiera sur des évaluations soigneusement conçues au cours des différentes étapes de la réalisation, qui seront menées sur des corpus de travail et dans un cadre applicatif fourni par un des partenaires, spécialiste de la veille sur les technologies (nano, bio, NTIC et aéronautique). Elles devraient permettre, tout au long du projet, une prise en compte des usages faits par des analystes des positionnements et des opinions exprimés dans des articles de presse spécialisés. Ceci est un des apports novateurs du projet sur ces thèmes où les usages réels avec leur spécificités et exigences sont soit limités, soit ignorés. La triple modélisation, linguistique, ontologique et opératoire est novatrice et originale dans le champ de l'étude des opinions. La réalisation de ces objectifs ambitieux sera rendue possible par la collaboration étroite entre 3 laboratoires, LaLIC, GREYC et CRISCO, maîtrisant les méthodes de modélisation linguistique et ontologique et du TAL, et 2 entreprises impliquées dans l'informatique linguistique (NOOPSIS) et dans le marché de la veille (TecKnowMetrix).

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Aide de l'ANR 512 661 euros
Début et durée du projet scientifique : - 0 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.