L’INTELLIGENCE ARTIFICIELLE au Labo de SEFAS
Le deep learning pour optimiser la reprise de vos flux documentaires dans Harmonie Communication Suite
Un des métiers historiques de SEFAS est le traitement automatisé de larges volumes de documents. A l’origine, nos logiciels avaient pour vocation de composer des flux de gestion (factures, bulletins de salaire,…) mais également de reprendre des flux documentaires déjà composés provenant d’autres sources en vue d’être convertis puis transformés. Ces flux repris par nos logiciels étaient des flux formatés pour l’impression ou la mise en page PDF. Il s’agissait de flux PDF, AFP, PCL, PostScript…
Aujourd’hui ce n’est plus leur unique vocation. Les besoins du marché ont évolué, la transformation digitale et la nécessité d’avoir une approche harmonisée et omnicanal nous ont conduits à nous ouvrir au monde digital et mobile. Notre technologie éprouvée dans l’industrie de l’éditique depuis près de 30 ans est toujours utilisée pour concevoir et produire des documents papier/PDF mais également des emails et documents web responsive design ainsi que des SMS.
Par ailleurs, la transition numérique implique non seulement la dématérialisation des flux physiques, mais également la capacité à transformer des flux « classiques » (au format page, courrier ou PDF) en flux de type email, web, sms,…
Ces nouvelles fonctionnalités omnicanal intégrée dans Harmonie Communication Suite ont conduit nos clients à vouloir tout centraliser au sein de notre solution logicielle. Ce qui implique également la reprise de flux documentaires provenant de sources de plus en plus hétérogènes (bureautique, outils de PAO, marketing, …).. Ces flux de moins en moins « normalisés » sont soit non conformes aux standards de marché, soit présentent des éléments variables que les outils traditionnels ont du mal à interpréter.
Pour répondre à ce besoin, SEFAS explore de nouvelles méthodes pour le traitement de masse des flux documentaires multi-sources, multi-formats, multi-canaux
Deux approches sont actuellement étudiées au sein de notre R&D :
- Une approche heuristique tout d’abord, visant à identifier dans les flux importés dans nos logiciels la non-conformité aux standards de marché, puis à mettre en œuvre des mécanismes d’autocorrection de plus en plus poussés. Ainsi pour le format PDF, qui constitue une très large majorité des flux traités chez nos clients, nos logiciels intègrent un module de « nettoyage » de flux non-conformes. Cette fonction permet d’identifier et de corriger à la volée les anomalies rencontrées (polices manquantes, encodages erronés, ressources mal référencées…). Les flux deviennent ainsi éligibles à une industrialisation, tout en conservant un niveau de performance élevé.
- Une approche « intelligente » ensuite, faisant appel à de nouveaux mécanismes d’apprentissage machine (deep learning). Nous étudions actuellement l’intégration de fonctions d’intelligence artificielle, basées sur des réseaux de neurones, s’inspirant du fonctionnement du cerveau humain pour apprendre. Cette technologie permettra à nos moteurs de réingénierie documentaire d’apprendre à reconnaître des structures dans les flux que nos logiciels analysent, de façon à optimiser davantage leur traitement. Il s’agit par exemple d’identifier un élément documentaire donné (image, bloc adresse, tableau, etc…), présent dans tout type de document repris. Grace à l’apprentissage machine, des ressources similaires fonctionnellement (mais pas techniquement identiques), peuvent être identifiées de façon fiable.
Les applications sont multiples, et l’on peut citer deux exemples concrets :
- Le cas le plus évident est la factorisation (la mise en commun) des ressources présentes individuellement dans chaque document, de façon à réduire le poids des flux produits et améliorer la performance de production industrielle. Par exemple des documents égrenés envoyés au fil de l’eau par différents utilisateurs contiendront tous le logo de l’entreprise, mais celui-ci peut varier en taille, en position, et les algorithmes de compression tels que le JPEG font que techniquement chaque occurrence du logo est différente. Avec le deep learning, il devient possible d’identifier fonctionnellement cette image et de la factoriser, ce qui était impossible par les moyens conventionnels.
- L’autre cas d’usage est la capacité à « recomposer » les contenus des flux repris. L’identification de ressources « riches » est habituellement impossible dans un format tel que le PDF, car il reste destiné à l’impression. Techniquement parlant, un PDF ne contient que du texte, des images, des vecteurs. Avec l’Intelligence Artificielle, on peut y détecter des paragraphes, des sections et des tableaux, comme un humain le ferait. Cela permet à la fois d’améliorer la capture fonctionnelle de contenu, mais aussi d’envisager de propager ces contenus sémantiques fonctionnels vers des formats numériques, par un mécanisme de « recomposition » qui permettra à terme de transformer un format « legacy » en format numérique moderne, en masse, sans interaction utilisateur. SEFAS a drastiquement amélioré ces dernières années le taux de reprise des flux PDF avec divers mécanismes. En plus de ces fonctions d’autocorrection, nos logiciels intègrent des fonctions d’OCR et de rastérisation intelligentes, qui nous permettent d’approcher les 100% de taux de conversion.
Auteur : Jean-Marie Bonnefont, directeur du pôle produit de SEFAS