Textract d'Amazon peut lire et traiter des millions de pages par heure

Kheel Center, CC BY 2.0 (photo d'illustration)

Amazon l’a annoncé avec fierté : Textract est en mesure de « traiter des millions de pages de documents par heures ». Mais quel est ce traitement, dans les faits ? On parle bien de text and data mining, à des niveaux stratosphériques, dépassant de loin les capacités des traditionnels outils d’OCR — la reconnaissance optique de caractères.

Ou alors, un OCR sous stéroïdes, à en croire la présentation faite. De fait, Textract serait en mesure d’extraire non seulement du texte, mais également des tableaux, des formulaires — issus de documents scannés, de feuilles d’imposition ou tout autre. Il va ensuite générer des données structurées, sans qu’aucune intervention humaine ne soit nécessaire.

La grande limite des logiciels d’OCR réside dans l’identification de caractères parfois confus. Si les améliorations sont constantes — Google y avait largement fait travailler, gratuitement, les internautes avec Captcha — les écueils persistent. Ainsi, le chiffre « 1 » peut encore être confondu avec la lettre « l », etc.

Textract réduirait les coûts de traitement de documents, en épargnant le passage par une saisie manuelle — et ce, sans que l’utilisateur ait besoin de connaissances préalables sur le machine learning.

Dans les faits, l’outil repose cependant bien sur une machine learning, avec la capacité de reconnaître des informations précises comme le nom, prénom ou numéro de sécurité sociale. De quoi convertir un PDF en feuilles de calcul, plus lisibles et faciles à comprendre.

« Une fois que l’information est capturée, vous pouvez prendre des mesures à ce sujet dans vos applications métiers pour initier les étapes suivantes pour une demande de prêt ou le traitement des demandes de remboursement pour frais médicaux », indique Amazon.

« De plus, vous pouvez créer des index de recherche intelligents, construire des flux de travail d’approbation automatisés et mieux maintenir la conformité avec les règles d’archivage de documents en signalant les données pouvant nécessiter une rédaction. »

Swami Sivasubramanian, vice-président d’Amazon Machine Learning, souligne dans un communiqué : « La force d’Amazon Textract réside dans le fait qu’il extrait avec précision le texte et les données structurées de pratiquement n’importe quel document sans aucune expérience en machine learning. Par la suite, les développeurs peuvent analyser et interroger le texte et les données extraits à l’aide de nos services de base de données et d’analyse. »

Parce que bien entendu, Amazon AWS offre déjà une mine d’outils qui faciliteront la vie…

Pour l’heure, Textract n’est disponible que pour quelques clients d’États américains : l’Ohio, la Virginie du Nord et l’Oregon, ainsi qu’en Irlande. Et nécessite évidemment de disposer d’un compte AWS. La démocratisation viendra pour le reste des USA dans le courant de l’année, avec quelques autres territoires — sans plus de précisions.

Un point encore non élucidé : où iront donc les données ainsi numérisées ? Certainement quelque part dans le Nuage, que commercialise déjà la firme. C’est déjà le cas pour Alexa, l’assistant vocal qui anime l’enceinte Echo, et sert d’espion à peine déguisé…

Textract d'Amazon peut lire et traiter des millions de pages par heure

Commenter cet article

Panodyssey, le réseau social littéraire, lance une levée de fond

Kobo inaugure une gamme de liseuses en couleur

Meta a envisagé l'acquisition de Simon & Schuster pour entraîner son IA

Transparence, labels... Comment réguler l'IA dans la culture ?

Des millions pour Inkitt, au croisement de l'autoédition et de l'IA

Club de lecture numérique : “Derrière l'écran, il y a surtout de l'humain”

Bibliothèques Sans Frontières lance son appli pour l'intégration

Amazon révèle une synthèse vocale “de pointe” avec BASE TTS

GenIA-L : Lefebvre Dalloz lance son IA spécialisée dans les contenus juridiques

Insight, ou l'intelligence artificielle assistante des éditeurs

Les logiciels des bibliothèqes : 30e enquête Tosca consultants

Quand ChatGPT permet de remporter le Goncourt du Japon

IA : une start up propose la première certification, "livre écrit par un humain"

"C'est la première fois de l'histoire qu'une IA remporte un prix littéraire"

Des liseuses vendues dans les librairies indépendantes de France

Langues vivantes, machines pensantes ? L'IA au Collège de France

Vivlio lance sa plateforme de streaming pour lectures

De Her à Heidegger : faire l'IAmour avec la machine

De Marque s'associe à MOBiDYS pour rendre la lecture plus accessible

Une appli pour vérifier que le libraire ne vous extorque pas

L'entreprise Geo Comix rachetée par De Marque

IA et droit d'auteur : un appel collectif à la transparence

Un hackathon dédié à l'IA générative dans l'édition juridique

Du piratage au partage de livres : 96 Z-Points dans 34 pays (dont la France)

Piratage : des sites miroirs qui font réfléchir l'Arcep

Quels auteurs français ont alimenté les intelligences artificielles, malgré eux ?

Spotify expérimente la traduction et l'imitation de la voix par l'IA

Qui achète vraiment vos livres ? Un outil pour décrypter le lectorat

En attendant d'écrire des livres directement avec son esprit...

Stephen King : “L'intelligence artificielle ne me fait pas peur”

40 ans après, le retour d'une série culte d'Osamu Tezuka, signé l'IA

Inspection générale des finances : le NFT, ni une oeuvre d'art ni un support

Quel impact écologique pour les boites à histoires ?

Intelligence artificielle : plus de 10 000 auteurs réclament justice

Jeanne Verne d'Amiens, la nièce robotique de Jules

Le piratage facile : accéder en un clic à Z-Library, de son ordinateur

Audiolivre : plus de 100 acteurs mobilisés pour la saga Harry Potter

La Bibliothèque nationale de France présente "Bijoux et Littérature"

Au Moyen-Orient, une alliance autour des livres audio

Le livre numérique de plus en plus plébiscité en Espagne

Les éditions Milan lancent “le premier manga audio”

Piratage : après la France, l'Allemagne bloque Sci-Hub sur son territoire

Conseils de lectures : deux acteurs s'associent pour aider à choisir

Livre audio : l'insondable énigme de la création des contenus

Offrir des livres comme on offre des fleurs

L'intelligence artificielle : l'Europe, premier bon élève ?

Droit d'auteur et IA : un rapport à l'Élysée tourné vers l'Europe

Créer des vidéos pour parler des livres

Allemagne : ventes d'ebooks en hausse en 2023, après un mauvais 2022

Quelques années après son rachat, Feedbooks disparait

Quatre éditeurs scientifiques réclament près de 30 millions € à LibGen

Spotify propose un abonnement réservé aux livres audio

OpenAI accuse le New York Times d'avoir “piraté” ChatGPT

Olga Tokarczuk : quand la littérature et les jeux vidéo se rencontrent

Marathon de sable et d'Épice : 115 heures à écouter Dune

IA génératives : des mesures de protection pour les artistes

Livre numérique : les “efforts” de la chaine du livre pour l'exception handicap

Le diffuseur numérique e-Dantès rejoint le groupe Albin Michel

Offrir et envoyer des livres à ses proches : une pratique à cultiver

La BnF ajoute Skyblogs et pages perso Orange à la sauvegarde du net

Jean Spiri rejoint l'application littéraire Gleeph, avant la mairie de Courbevoie ?

L'Intention, le nouveau podcast de Hachette Livre

FIBD 2024 : Tom-Tom et Nana dans un escape game

Manga Nova, une nouvelle plateforme de lecture pour Ki-Oon

Facebook admet s'être appuyé sur des livres "piratés" pour former son IA

Malgré une “année solide”, Audible procède à des licenciements

Nextory fait évoluer son application de lecture en streaming

ChatGPT : OpenAI admet ne pouvoir se passer de contenu soumis au droit d'auteur

Le colis : un marché qui continue son développement

Télécharger les livres de Francis Picabia

Smartphones : des livres éclairants sur leurs usages

Face aux audiolivres piratés, l'impuissance règne