Dernière innovation sortie des laboratoires de Amazon Web Services, la division consacrée aux outils numériques (hébergement et cloud computing), voici Textract. Derrière ce mot-valise à l’américaine, une solution manifestement très puissante : plus que de la simple reconnaissance de caractèree, la garantie d'une solide extraction de texte et de données, de tous types de documents.
Amazon l’a annoncé avec fierté : Textract est en mesure de « traiter des millions de pages de documents par heures ». Mais quel est ce traitement, dans les faits ? On parle bien de text and data mining, à des niveaux stratosphériques, dépassant de loin les capacités des traditionnels outils d’OCR — la reconnaissance optique de caractères.
Textract, la tout-puissance de la machine
Ou alors, un OCR sous stéroïdes, à en croire la présentation faite. De fait, Textract serait en mesure d’extraire non seulement du texte, mais également des tableaux, des formulaires — issus de documents scannés, de feuilles d’imposition ou tout autre. Il va ensuite générer des données structurées, sans qu’aucune intervention humaine ne soit nécessaire.
La grande limite des logiciels d’OCR réside dans l’identification de caractères parfois confus. Si les améliorations sont constantes — Google y avait largement fait travailler, gratuitement, les internautes avec Captcha — les écueils persistent. Ainsi, le chiffre « 1 » peut encore être confondu avec la lettre « l », etc.
Textract réduirait les coûts de traitement de documents, en épargnant le passage par une saisie manuelle — et ce, sans que l’utilisateur ait besoin de connaissances préalables sur le machine learning.
Dans les faits, l’outil repose cependant bien sur une machine learning, avec la capacité de reconnaître des informations précises comme le nom, prénom ou numéro de sécurité sociale. De quoi convertir un PDF en feuilles de calcul, plus lisibles et faciles à comprendre.

« De plus, vous pouvez créer des index de recherche intelligents, construire des flux de travail d’approbation automatisés et mieux maintenir la conformité avec les règles d’archivage de documents en signalant les données pouvant nécessiter une rédaction. »
Swami Sivasubramanian, vice-président d’Amazon Machine Learning, souligne dans un communiqué : « La force d’Amazon Textract réside dans le fait qu’il extrait avec précision le texte et les données structurées de pratiquement n’importe quel document sans aucune expérience en machine learning. Par la suite, les développeurs peuvent analyser et interroger le texte et les données extraits à l’aide de nos services de base de données et d’analyse. »
Parce que bien entendu, Amazon AWS offre déjà une mine d’outils qui faciliteront la vie…
Pour l’heure, Textract n’est disponible que pour quelques clients d’États américains : l’Ohio, la Virginie du Nord et l’Oregon, ainsi qu’en Irlande. Et nécessite évidemment de disposer d’un compte AWS. La démocratisation viendra pour le reste des USA dans le courant de l’année, avec quelques autres territoires — sans plus de précisions.
Un point encore non élucidé : où iront donc les données ainsi numérisées ? Certainement quelque part dans le Nuage, que commercialise déjà la firme. C’est déjà le cas pour Alexa, l’assistant vocal qui anime l’enceinte Echo, et sert d’espion à peine déguisé…
Commentaires
Pas de commentaires
Poster un commentaire