Service de traduction automatique basé sur les concepts du WEB2.0 et s'appuyant sur une recherche interlingue de la langue cible. – WEBCROSSLING
Le projet WEBCROSSLING vise à développer et à mettre en service à titre expérimental une application Web 2.0 de traduction automatique en ligne. Ce service s’appuie sur le développement d’une nouvelle technologie de traduction automatique qui a fait l’objet d’un dépôt de brevet par le CEA LIST et sur l’expérience de la société Softissimo sur le marché de la traduction automatique et en particulier sur son expérience de traduction en ligne sur internet (2 à 3 millions de pages traduites en ligne chaque jour auprès du grand public et 3 millions d’utilisateurs dans plus de 100 grandes entreprises). La technologie brevetée par le CEA LIST s’appuie ses les technologies de recherche interlingue qu’elle a licenciée à sa start-up NewPhenix. Elle exploite la connaissance linguistique contenue dans la totalité du web d’une langue vers laquelle on veut traduire en s’inspirant de la pratique des traducteurs professionnels qui utilise le web pour déterminer les meilleures traductions à utiliser. Cette technologie donnera des résultats nettement supérieurs à ce que propose aujourd’hui Google à base de technologies statistiques utilisant la connaissance de textes déjà traduits (corpus bilingues) et à un coût de développement moindre, notamment pour les couples de langues plus rares. Elle doit permettre d’attirer un nombre suffisant d’utilisateurs pour assurer un financement de l’opération par la publicité (en direct ou en indirect par d’autres portails) ou par abonnement, les utilisateurs visés étant à la fois les professionnels de la traduction (200 000 freelances dans le monde) que le grand public ou l’entreprise avec des solutions personnalisées. Le projet devra permettre également d’élaborer une nouvelle approche d’enrichissement et de contrôle qualité semi-automatique, pour les logiciels de traduction actuellement commercialisés Cette approche serait basée sur les corpus et les outils d’extraction et de validation statistico-syntaxique utilisés dans le projet. Cette évolution est indispensable pour conserver la compétitivité des outils de traduction et permet de combler la période entre la disponibilité commerciale de logiciels nouvelle génération et les versions actuelles. L’aspect web 2.0 est assuré par la contribution des utilisateurs à l’amélioration des dictionnaires bilingues et par les corrections qu’ils feront des traductions proposées. Cela s’adresse bien entendu principalement aux utilisateurs professionnels qui maîtrisent la langue cible. Un système de scoring sera mis en place pour évaluer le degré de confiance qu’on peut donner aux propositions faites. Ce type de validation est couramment utilisé dans les sites collaboratifs de groupes de traducteurs. On s’inspirera de ces fonctionnements éprouvés Le projet doit permettre de montrer à la fois l’efficacité de la technologie de traduction et la capacité de la faire fonctionner en WEB 2.0. Pour des raisons de facilité de mise au point, on expérimentera en premier sur la langue cible française et avec l’anglais comme langue source. Mais une fois cette mise au point faite le système sera fonctionnel avec l’ensemble des langues sources qui sont supportées par la technologie d’interrogation interlingue du CEA LIST.
Coordination du projet
Nasredine SEMMAR (COMMISSARIAT A L'ENERGIE ATOMIQUE CENTRE D'ETUDES NUCLEAIRES SACLAY)
L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.
Partenaire
COMMISSARIAT A L'ENERGIE ATOMIQUE CENTRE D'ETUDES NUCLEAIRES SACLAY
Aide de l'ANR 815 146 euros
Début et durée du projet scientifique :
- 24 Mois