Blanc Inter II - SIMI 2 - Blanc International II - SIMI 2 - Science informatique et applications

Reconnaissance de Manuscrits Chinois Historiques – GuWenShiBie

GUWENSHIBIE

Reconnaissance des manuscrits historiques chinois

Développement d'une reconnaissance optique de caractères pour les manuscrits historiques chinois

L'objectif des grands projets de numérisation est de rendre le patrimoine culturel accessible en ligne dans le monde entier. Ces documents historiques doivent être transcrits dans un texte éditable afin de permettre aux chercheurs et aux experts de les éditer, traduire, rechercher et parcourir leurs contenus. La transcription manuelle de documents anciens et surtout des manuscrits doit être réalisée que par des experts ou par un système de vision par ordinateur entraîné par des experts. Sans l'aide de l'ordinateur, la transcription manuelle des principaux documents historiques par un nombre réduit de spécialistes prendra plusieurs décennies. La Reconnaissance Optique de Caractères (OCR) est un système entièrement automatique qui permet de lire les caractères dans les images numériques sans intervention humaine. L'OCR atteint de mauvaises performances sur des documents historiques et en particulier sur les manuscrits dégradés. L'objectif principal de ce projet est le développement du premier OCR pour les manuscrits historiques chinois. C'est une tâche très difficile car l'ancien système d'écriture chinoise se compose de plus de 80.000 caractères chacun représentant un mot d'une syllabe. Avec autant de caractères, il est nécessaire de complexifier les formes pour tous les distinguer et certains caractères peuvent être réalisés avec 30 traits. Aujourd'hui les documents modernes contiennent seulement jusqu'à environ 8500 caractères et les caractères les plus courants ont été simplifiés et sont réalisés avec une moyenne de cinq traits. En outre les manuscrits anciens montrent beaucoup de dégradations dues au vieillissement qui rendent difficile leur reconnaissance. La variabilité spatiale des écritures apporte une autre difficulté dans ce projet. Guwenshibie sera le tout premier projet pour le développement d'un système de reconnaissance automatique des documents historiques chinois .

OCR sans segmentation

Tous les travaux antérieurs sur les systèmes OCR dans la littérature sont basés sur la segmentation d'images. Toutes les étapes du processus de reconnaissance utilisent de l'information extraite des images binaires. Cette approche traditionnelle est bien adaptée pour les documents imprimés ou manuscrits modernes. Mais l'étape de binarisation est un problème crucial pour les documents historiques , en particulier pour les manuscrits dégradées.

Nous voulons développer de nouvelles méthodologies afin de surmonter les limites actuelles de la technologie OCR pour les documents manuscrits historiques et en particulier en chinois. Nous proposons de développer un OCR complètement sans segmentation qui utilise directement les niveaux de gris et l'information couleur pour décrire les formes de caractères et analyser la mise en page. Nous visons à faire des progrès significatifs sur les méthodes sans segmentation pour un système de reconnaissance optique de caractères robuste pour les manuscrits historiques. Le système de reconnaissance de formes sera entraîné sur des images originales bruitées sans aucune segmentation ni de l'image ni de la structure physique du document. Cette approche devrait améliorer les performances de la reconnaissance sur des images de documents ayant une forte dégradation due au vieillissement. C'est la seule solution pour traiter les documents historiques et surtout des rouleaux anciens chinois. Le développement d'un OCR pour les documents historiques chinois est un nouveau défi pour les chercheurs dans le domaine de l'analyse d'images de documents.

Université Tsinghua de Pékin et l'INSA de Lyon ont des compétences complémentaires : l'Université de Tsinghua apportera une grande expertise dans l'OCR multilingue et l'INSA de Lyon partagera son expérience dans le traitement des images de manuscrits et l'extraction robuste d'informations à partir de documents historiques dégradés numérisés.

Résultats

Le projet est tout à fait une proposition originale et un véritable défi. Il n'y a pas de précédents travaux sur manuscrite OCR pour les documents historiques chinois montrant dégradations dues au vieillissement.

Les résultats attendus sont:

• Un prototype d'un système OCR robuste pour les manuscrits historiques chinois. Ce prototype pourrait être réutilisé pour les futurs OCR commerciaux chinois.

• Publications sur l'OCR pour les documents historiques et les approches sans segmentation.

• Un taux de reconnaissance plus élevé mesuré sur une large gamme de tests à partir de différents manuscrits chinois par rapport à l'état de l'art

• Images et ensembles de données avec la vérité terrain (transcription) pour l'apprentissage des OCRs, pour les compétitions internationales et plus généralement à des fins de recherche.

Perspectives

Ces recherches sur la reconnaissance robuste des contenus des documents historiques chinois peuvent être étendues à d'autres manuscrits écrits avec des langues différentes et différents scripts. Elles peuvent être également utiles pour améliorer la robustesse des OCR chinois actuels pour les textes modernes chinois capturés à partir de caméras dans les scènes naturelles pour des applications nomades.

Productions scientifiques et brevets

Guwenshibie fournira
• De nouvelles méthodologies «sans segmentation« pour un OCR plus robuste
• Nouveaux descripteurs robustes pour décrire des formes complexes de caractères sans segmentation
• plusieurs publications conjointes entre l'université Tsinghua et l'INSA de Lyon dans des revues internationales et des communications dans des conférences internationales.
• La publication en ligne des résultats des expériences.
• Un OCR en-ligne par Web service

Résumé de soumission

Les projets de numérisation à grande échelle (Google Book, Europeana, Gallica, la British Librairie ... Bibliothèque nationale de Chine) produisent chaque année un grand nombre d'images numérisées des documents du patrimoine culturel. L'objectif du projet est de permettre de transcrire les images de document historique en un texte modifiable afin de permettre aux chercheurs et aux experts de modifier, traduire, rechercher et parcourir leurs contenus. Ce projet mettra l'accent sur des méthodes de reconnaissance de manuscrits chinois du projet international de Dunhuang Projet (IDP) avec un fond de communication interculturelle. Ce projet défit les limites actuelles de l'OCR sur des images dégradées, des mises en page diverses, et un grand jeu de caractères avec une base d'apprentissage réduite. Le plan de recherche proposé par les deux partenaires LIRIS et TSINGHUA s'attaque aux problèmes de traitement robuste et la reconnaissance de caractères. La performance du système final est évalué par la base de données standard et des outils d'évaluation. Le projet va faire réaliser des progrès significatifs à la reconnaissance de manuscrits chinois anciens. Les résultats de cette recherche sera utile aux documents historiques manuscrits dans d'autres scripts, comme les deux partenaires a une expérience de recherche sur l'analyse et la reconnaissance de documents multilingues.

Frank LEBOURGEOIS (Institut National des Sciences Appliquées de Lyon - Laboratoire d'Informatique en Images et Systèmes d'information) – Franck.lebourgeois@insa-lyon.fr

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

TSINGHUA university Beijing TSINGHUA university Beijing
INSA DE LYON - LIRIS Institut National des Sciences Appliquées de Lyon - Laboratoire d'Informatique en Images et Systèmes d'information

Aide de l'ANR 178 880 euros
Début et durée du projet scientifique : décembre 2012 - 36 Mois

Explorez notre base de projets financés

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.