Blog de développement

Le Vrai-Faux OCR de Chorus-Pro

Dernière Modification le :
2024-01-13
image

A la longue le dépôt de factures sur Chorus Pro a quelque chose de frustrant et surtout chronophage. L'outil n'est pas parfait et on tombe vite dans les chausses trappes de fonctions incomplètes

Chorus Pro Océrise-t-il la facture ? Non!

A chaque facture Chorus Pro vous demande de vérifier qu'il a bien lu votre facture sous forme PDF, avec irrémédiablement une lecture incomplète ou avec des erreurs. Bref, vous voilà à réécrire, en quelque sorte, des champs pourtant bien explicites sur votre facture. Par exemple, Chorus lit très bien mes montants à payer, TVA etc. Mais jamais l'identifiant, le numero de facture, etc. Ce qui oblige à le mettre à la main!

C'est rageant! Il doit bien y avoir un moyen de tout bien écrire pour qu'il reconnaisse tout! Eh Oui! Ca existe! Mais avant de trouver on va suer un peu, d'autant que la documentation de Chorus est imparfaite, voire piègeuse

De meilleures polices ? De meilleures dispositions ? De meilleurs mots clés ? Rien n'y fait

Changer les polices ? aucun effet! Les tailles? Aucun effet... Changer les dispositions ? Pas mieux. Utiliser les mots clés listés dans le manuel ? Oui, un peu: il ne reconnait pas 'Engagement Juridique', contrairement à ce qui est annoncé. Par contre il reconnaît 'Commande'. Identifiant? n'y comptez pas ! c'est SIRET Client! Ca, ça marche.

En Fait, Chorus ne lit pas les scans!

Cet article décrit bien ce que Chorus annonce par ailleurs: il ne 'lit' pas les scans. Uniquement les documents générés par un logiciel, pas un scanner. Mais bon... C'est bien comme cela que je fais. Et pourtant cela ne marche pas!

Une facture est dite électronique à condition d’être créée, transmise, reçue et archivée au format électronique. Une facture papier numérisée, par exemple, n’est pas une facture électronique, mais une facture dématérialisée.

Si une facture créée avec un logiciel de traitement de texte puis exportée en PDF est bien une facture électronique, elle ne permet pas de bénéficier des avantages de l’automatisation des traitements. De nouveaux formats standards, tels que le format Factur-X combinant un fichier PDF avec un fichier XML attaché, permettent de tirer parti de l’automatisation pour faciliter et accélérer l’intégration et le traitement comptable.

Ce n'est pas un OCR... Qu'est ce que c'est ?

Est-ce un mauvais OCR ? Le code source de la page de dépôt utilise le terme 'océrisation', mais il n'en est rien! C'est de l'extraction de texte!

C'est pareil non ? Pas du tout! Un bon extracteur de texte, gratuit est xpdftotxt, un utilitaire super pratique, très rapide: (on l'utilisera quand on voudra faire la lecture automatique des bons de commande). Derek Noonburg, fondateur de Glyph and Clog, explique ce que c'est et les difficultés rencontrées dans l'extraction du texte: les extraits de polices

Pour afficher "Texte peut être...", un fichier PDF pourrait dessiner "T", puis reculer un peu vers la gauche, puis dessiner "exte peut être...". Un extracteur de texte PDF doit réassembler cela dans la séquence de caractères appropriée.

Dans ce genre de situation [extrait de police... ], il n'y a aucun moyen de récupérer le texte dans le fichier PDF, à moins de le reconnaître par OCR.

Cf cet article de référence par Tim Allison (NASA) Lire → et son essai comparatif Lire →

Avant de passer à Facture-X... Passez à PDF-A

La spécification PDF évolue... Chorus accepte les anciens formats (ex. PDF 1.0), lui, mais son extracteur ??? Pas toujours. A l'inverse l'extracteur fonctionnera de façon optimale en PDF A. Pourquoi ? Parce qu'en PDF A, A pour Archive, les polices sont embarquées en entier: elles sont dans le PDF ad vitam.

parametrage PDFA














Je vais décrire comment je suis passé à Factur-X, sur mon serveur. En mode Desktop, il existe des modules pour Excel ou LibreOffice (Les trouver ici →). Avant d'en arriver là, il suffit de paramétrer son exportation PDF pour PDF/A. C'est facile, il suffit de le savoir, mais ce n'est écrit nulle part!

Résultat: la meilleure police (font) pour déposer une facture sur Chorus Pro c'est .... La police embarquée.

Si on n'a pas la possibilité de passer à PDF/A ou Factur-x, il reste possible d'optimiser un PDF 'classique' pour une lecture optimale par Chorus voire même d'automatiser le dépôt. Lire →