DS08 - Sociétés innovantes, intégrantes et adaptatives 2017

Exploitation de Big Data Historiques pour les Humanités Numériques : application aux données financières – HBDEX

La crise financière de 2008 a souligné la faiblesse des fondements empiriques des modèles explicatifs financiers et économiques, due à la rareté des données de long terme pour affiner les modèles et les tester dans différents contextes historiques et géographiques (en particulier ceux concernant les transformations structurelles). En utilisant des technologies innovantes, HBDEX vise à améliorer la compréhension du fonctionnement des marchés financiers et des événements historiques.

Elaboration des technologies et des outils afin d’alimenter la « Révolution Big Data » dans les sciences du passé

HBDEX vise trois objectifs : (1) concevoir une technologie innovante et généralisable qui fixe la chaîne de production de données massives à partir de sources historiques tabulaires et lève le verrou technologique qui freine la réalisation de la « Révolution Big Data » dans les sciences du passé; (2) intégrer des données produites par HBDEX (prix quotidiens sur la Coulisse entre 1899 et 1939) dans la base de données déjà existante, produisant un outil efficace d’analyse du fonctionnement des marchés financiers; (3) l’exploitation comparative de données entre 1873 et 1939, à partir d’une base partiellement produite par l’EQUIPEX DFIH (Bourse de Paris, 1796 à 1949 ; Coulisse, 1870-1898) et complétées par HBDEX.<br />Une analyse économétrique et sous forme de séries temporelles sera effectuée, un modèle multi-agent sera simulé, et des méthodes de visualisation seront développées pour fournir des services d’aide à la compréhension des marchés financiers. Ainsi, une analyse comparée et sur une longue période de la robustesse de deux types d’organisation viendra nourrir le débat actuel sur la réorganisation et la régulation des marchés financiers, qui représente un grand enjeu de politique publique. <br /><br />La technologie développée dans le cadre du projet HBDEX produira les bases fondamentales pour promouvoir la « Révolution Big Data » dans les sciences sociales historiques, notamment pour l’accroissement de la diversité et de la quantité des données disponibles.

Construction d’un système d’extraction de cotations boursières tabulaires, fiabilisé par le contexte d’une collection de plusieurs semaines de publication

Un premier système développé par l’IRISA sur les cotes de la Coulisse, permet de reconnaître sur une page, l’organisation structurelle des tableaux de cotations grâce à une description grammaticale écrite avec la méthode générique DMOS-PI. Cette description s’appuie sur des éléments de base tels que les lignes de texte (obtenues grâce à de l’apprentissage profond) ou les segments verticaux et horizontaux. Ce système sera piloté par une stratégie au niveau d’une collection de documents.

Cette stratégie globale de reconnaissance des documents au niveau d’une collection (plusieurs semaines de cotes) est en cours de développement par l’IRISA. Elle repose sur un processus itératif où chaque itération valide un type de données dans l’ordre hiérarchique donné par la structure : colonnes, sections, désignations des titres boursiers.... Les itérations sont composées d’une étape de reconnaissance structurelle pour extraire des éléments d’une page, suivie d’une phase de validation transversale de l’information extraite sur toute une période en exploitant un système de reconnaissance des champs textuels.

Pour pouvoir intégrer des connaissances spécifiques aux documents traités, un système de reconnaissance des champs informatifs a été développé par le LITIS. Il repose sur un réseau de neurones profonds combinant des couches convolutionnelles pour l’extraction de caractéristiques et des couches récurrentes (BLSTM) pour la prise en compte du contexte. Ce modèle optique est associé à un modèle de langage qui est paramétrable par les connaissances présentes sur les documents de la Coulisse (dictionnaire des titres cotés, syntaxe d’une date, d’un montant...).

Une interface de consultation des résultats, développée par le LITIS avec des technologies Web, permet à un utilisateur de corriger de façon ergonomique les transcriptions en les visualisant dans le contexte des documents d’origine.

Résultats

Le système de reconnaissance de structures tabulaires par page a été appliqué sur les années 1899 et 1924 pour générer les zones des champs informatifs afin d'entraîner le système de reconnaissance de champs textuels en ayant un contexte syntaxique. Combiné avec des corrections/annotations effectuées grâce à l’interface de consultation, le système de reconnaissance de champs a été entraîné sur 70 000 exemples. Les résultats obtenus (0,84 % de Character Error Rate) montrent un gain important de performances vis à vis des logiciels commerciaux.

L’interface de consultation des résultats permet de corriger de façon ergonomique les transcriptions en mettant en vis à vis le texte de chaque ligne avec la zone de l'image correspondante. Une visualisation des cotes des jours précédents et suivants est également proposée pour un titre spécifique afin de visualiser l’apparition de nouveaux titres dans la Coulisse. Un marquage en surbrillance des résultats peu fiables permet de questionner l’utilisateur pour des corrections attendues. Les informations modifiées sont intégrées automatiquement dans une base de données avec le lien vers le fichier image correspondant.

Perspectives

Les bons résultats obtenus sur la reconnaissance des champs textuels peuvent encore être améliorés pour une extraction plus fiable des informations boursières. Ceci est actuellement mené en augmentant la taille de l’ensemble d’apprentissage du système en mettant à profit la première version de la chaine de traitement développée pour annoter automatiquement plus d’exemples et les valider aisément grâce à l’interface de consultation.

Le développement de la stratégie globale de reconnaissance des documents au niveau de la collection est en cours. Les perspectives apportées par le contexte de la collection (sur une période de plusieurs semaines) sont importantes pour fiabiliser au maximum l’extraction des données aussi bien sur les intitulés de titres boursiers que sur les valeurs de cotations. L’objectif est de limiter au maximum les erreurs et les interventions humaines dans le processus interactif de production des données. Ces travaux nécessitent de combiner la stratégie au niveau de la collection, l’analyse de la structure au niveau page et la reconnaissance contextuelle des champs textuels.

Productions scientifiques et brevets

Conférence : « Big-data historique : modélisation de stratégies d'analyse de collections de document ». Symposium International Francophone sur l'Ecrit et le Document (SIFED), 2019

Panel : « Financial centers, agents and transactions on the long run. Towards a multidimensional approach and tools of analysis » au World Economic History Congress, Boston (Juillet-Août 2018)

Conférence : « Combination of deep-learning and syntactical approaches
for the interpretation of interactions between text-lines and tabular structures in handwritten documents », International Conference on Document Analysis and Recognition, 2019

Résumé de soumission

Les défis de la recherche actuelle concernent les méthodes innovantes de production, de traitement et d’analyse sur toute la chaîne de la valeur de la donnée et sur le développement de solutions originales de stockage et d’extraction de connaissances nouvelles. Les masses de données “born digital” manquent de la profondeur historique nécessaire pour comprendre les dynamiques qui traversent notre société. En s’appuyant sur une innovation technologique en STIC, HBDEX contribue à la compréhension du fonctionnement des marchés financiers. La crise financière de 2008 a encore souligné la faiblesse des fondements empiriques des modèles explicatifs. Le marché financier parisien a pendant longtemps fonctionné selon deux marchés co-existants, la Bourse de Paris, marché centralisé et régulé et la Coulisse, un marché OTC, de gré à gré et non régulé. Ces différences d’organisation et leurs évolutions auront certainement affecté et été affectées par la production économique et des événements historiques majeurs telle la crise de 1929. Une difficulté pour comprendre ces phénomènes vient de la rareté des données de long terme, nécessaires pour observer des faits stylisés modélisables et tester ces modèles dans différents contextes historiques et géographiques, en particulier ceux concernant les transformations structurelles. Les STIC sont au cœur d’enjeux scientifiques et socioéconomiques majeurs, exigeant des collaborations étroites avec d’autres disciplines pour concevoir des solutions adaptées à leurs besoins spécifiques.
Avec une avancée majeure en informatique, le projet interdisciplinaire (informaticiens et économistes) HBDEX cherche à répondre à une question économique fondamentale, celle du fonctionnement des marchés financiers. Son objectif est triple : (1) concevoir une technologie innovante et généralisable qui assure la chaîne de production de données massives à partir de sources historiques tabulaires et lève le verrou technologique qui freine la réalisation de la « Big Data Revolution» dans les sciences du passé; (2) intégrer des données produites par HBDEX (prix quotidiens sur la Coulisse entre 1899 et 1939) dans la base de données déjà existantes, produisant un outil efficace d’analyse du fonctionnement des marchés financiers; (3) l’exploitation comparative de données entre 1873 et 1939, à partir d’une base partiellement produite par l’EQUIPEX DFIH (Bourse de Paris, 1796 à 1949 ; Coulisse, 1870-1898) et complétées par HBDEX. Une analyse économétrique et en série temporelle sur séries longues sera effectuée, un modèle multi-agent sera simulé et des méthodes de visualisation seront développées pour fournir des services d’aide à la compréhension des marchés financiers. Ainsi, une analyse comparée et en longue période de la robustesse de deux types d’organisation viendra nourrir le débat actuel sur la ré-organisation et la régulation des marchés financiers, qui représente un grand enjeu de politique publique.
La technologie logicielle réalisée se veut le premier jalon d’une plateforme universitaire nationale capable d’assurer le passage à l’échelle dans la production de données à partir de sources tabulaires chronologiques. Ce projet ANR coopère avec les TGIR Progedo et Huma-Num pour la dissémination des données et la valorisation des images numérisées. Il peut compter sur un co-financement et les données de DFIH. Il s’appuie sur l’infrastructure et les capacités d’accueil de l’Institut des Systèmes Complexes Paris-Ile de France. Il participe de la dynamique poussant à l’émergence d’un leader européen sur les données financières, CEDEFI, jonction entre les EQUIPEX DFIH et BEDOFI et EUROFIDAL, projet d’infrastructure de recherche proposé par le Ministère de la Recherche. Un membre de HBDEX est coordinateur européen du projet EURHISFIRM, soumis en mars 2017, dans le cadre du « Infrastructure Development Program of H2020 » et qui s’appuie sur les expériences les plus significatives en collecte de données financières.

PIERRE CYRILLE HAUTCOEUR (ECOLE D´ ECONOMIE DE PARIS)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

PSE ECOLE D´ ECONOMIE DE PARIS
LITIS LABORATOIRE D'INFORMATIQUE, DE TRAITEMENT DE L'INFORMATION ET DES SYSTÈMES
INSA-IRISA IRISA Institut de recherche en informatique et systèmes aléatoires Unité de recherche
CAMS Centre d'analyses et de mathématiques sociales Unité de recherche

Aide de l'ANR 660 960 euros
Début et durée du projet scientifique : décembre 2017 - 48 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.