Faire la reconnaissance OCR d'un PDF numérisé en toute confidentialité — reconnaissez le texte dans votre navigateur

Sélectionnez un PDF numérisé et une langue ; chaque page est restituée et reconnue localement par Tesseract (compilé en WebAssembly), et le texte reconnu s'affiche et peut être téléchargé sous forme de fichier .txt.

How it works

  1. Sélectionnez un PDF numérisé sur votre appareil et choisissez la langue du document.
  2. Le fichier est chargé en mémoire du navigateur — aucune donnée ne quitte votre navigateur.
  3. pdf.js restitue chaque page en image dans un Web Worker.
  4. Tesseract OCR — compilé en WebAssembly et servi depuis ce site — reconnaît localement le texte de chaque page ; le modèle de langue est lui aussi chargé depuis ce site, et non depuis un CDN tiers.
  5. Le texte reconnu s'affiche page par page et est proposé au téléchargement en fichier .txt.

Frequently asked questions

En quoi cet outil diffère-t-il des autres outils PDF en ligne ?
La plupart des outils PDF en ligne envoient vos fichiers vers un serveur distant pour les traiter. Cet outil traite tout localement dans votre navigateur, en JavaScript côté client. Vos fichiers ne sont transmis à aucun serveur, ce qui veut dire que le contenu de vos documents reste sous votre contrôle.
Mes fichiers PDF sont-ils envoyés sur un serveur ?
Non. Vos fichiers sont lus directement par votre navigateur. Rien n'est transmis sur le réseau. L'outil fonctionne entièrement dans l'onglet de navigateur que vous avez ouvert.
Puis-je vérifier que les fichiers ne sont pas envoyés ?
Oui. Ouvrez les outils de développement de votre navigateur (F12), allez dans l'onglet Réseau, puis surveillez les requêtes sortantes pendant que vous utilisez l'outil. Vous verrez qu'aucune donnée de fichier ne quitte votre navigateur. Toutes les opérations s'effectuent sans activité réseau.
Cet outil fonctionne-t-il hors ligne ?
Oui. Une fois la page chargée, l'outil fonctionne entièrement dans votre navigateur, sans connexion réseau. Vous pouvez vous déconnecter d'Internet et continuer à l'utiliser.
Que se passe-t-il si j'actualise la page ?
Comme rien n'est stocké sur un serveur, actualiser la page réinitialise votre session en cours. Les fichiers que vous aviez sélectionnés devront l'être à nouveau.
Cet outil conserve-t-il mes fichiers ?
Non. Les fichiers ne restent en mémoire du navigateur que tant que la page est ouverte. Fermer ou actualiser la page les supprime. L'outil n'écrit rien sur le disque et n'envoie rien à un serveur.
Cet outil peut-il déverrouiller les PDF protégés par mot de passe ?
Non. Cet outil ne tente pas de retirer ni de contourner la protection par mot de passe d'un PDF. Si vous connaissez le mot de passe, l'outil Déverrouiller un PDF de ce site peut le retirer localement ; cet outil pourra ensuite traiter le fichier.
Quelles technologies cet outil utilise-t-il ?
Cet outil utilise pdf.js pour restituer les pages et le moteur OCR Tesseract compilé en WebAssembly (tesseract.js) exécuté dans un Web Worker de même origine — aucun serveur n'intervient.
Cet outil utilise-t-il WebAssembly ?
Oui — c'est l'un des rares outils ici à le faire. Le moteur OCR Tesseract est du C++ compilé en WebAssembly et s'exécute dans votre navigateur ; le binaire .wasm est servi depuis ce site et rien n'est envoyé où que ce soit.
Pourquoi la première exécution est-elle plus lente que les suivantes ?
À la première utilisation, votre navigateur télécharge le moteur OCR et le modèle de langue depuis ce site (quelques mégaoctets) et les compile. Ils sont ensuite mis en cache, de sorte que les exécutions suivantes démarrent beaucoup plus vite.