Ein gescanntes PDF privat per OCR verarbeiten – Text in Ihrem Browser erkennen

Wählen Sie ein gescanntes PDF und eine Sprache; jede Seite wird lokal von Tesseract (nach WebAssembly kompiliert) gerendert und erkannt, und der erkannte Text wird angezeigt und als .txt-Datei zum Download angeboten.

How it works

  1. Wählen Sie ein gescanntes PDF von Ihrem Gerät aus und wählen Sie die Dokumentsprache.
  2. Die Datei wird in den Arbeitsspeicher des Browsers eingelesen – es verlassen keine Daten Ihren Browser.
  3. pdf.js rendert jede Seite in einem Web Worker zu einem Bild.
  4. Tesseract OCR – nach WebAssembly kompiliert und von dieser Website ausgeliefert – erkennt den Text jeder Seite lokal; auch das Sprachmodell wird von dieser Website geladen, nicht von einem Drittanbieter-CDN.
  5. Der erkannte Text wird pro Seite angezeigt und als .txt-Download angeboten.

Frequently asked questions

Worin unterscheidet sich dieses Tool von anderen Online-PDF-Tools?
Die meisten Online-PDF-Tools senden Ihre Dateien zur Verarbeitung an einen entfernten Server. Dieses Tool verarbeitet alles lokal in Ihrem Browser mit clientseitigem JavaScript. Ihre Dateien werden an keinen Server übertragen, sodass der Inhalt Ihrer Dokumente vollständig unter Ihrer Kontrolle bleibt.
Werden meine PDF-Dateien hochgeladen?
Nein. Ihre Dateien werden direkt von Ihrem Browser eingelesen. Es wird nichts über das Netzwerk übertragen. Das Tool arbeitet ausschließlich im geöffneten Browser-Tab.
Kann ich überprüfen, dass keine Dateien hochgeladen werden?
Ja. Öffnen Sie die Entwicklertools Ihres Browsers (F12), wechseln Sie zum Tab „Netzwerk“ und achten Sie während der Nutzung auf ausgehende Anfragen. Sie werden sehen, dass keine Dateidaten Ihren Browser verlassen. Alle Vorgänge laufen ohne Netzwerkaktivität ab.
Funktioniert dieses Tool offline?
Ja. Sobald die Seite geladen ist, läuft das Tool vollständig in Ihrem Browser ohne Netzwerkverbindung. Sie können die Internetverbindung trennen und es weiter nutzen.
Was passiert, wenn ich die Seite neu lade?
Da nichts auf einem Server gespeichert wird, setzt das Neuladen der Seite Ihre aktuelle Sitzung zurück. Bereits ausgewählte Dateien müssen erneut ausgewählt werden.
Speichert dieses Tool meine Dateien?
Nein. Dateien werden nur so lange im Arbeitsspeicher des Browsers gehalten, wie die Seite geöffnet ist. Beim Schließen oder Neuladen der Seite werden sie verworfen. Das Tool schreibt nichts auf die Festplatte und sendet nichts an einen Server.
Kann dieses Tool passwortgeschützte PDFs entsperren?
Nein. Dieses Tool versucht nicht, den PDF-Passwortschutz zu entfernen oder zu umgehen. Wenn Sie das Passwort kennen, kann das Tool „PDF entsperren“ auf dieser Website es lokal entfernen; anschließend kann dieses Tool die Datei verarbeiten.
Welche Technologien verwendet dieses Tool?
Dieses Tool verwendet pdf.js, um Seiten zu rendern, sowie die nach WebAssembly kompilierte OCR-Engine Tesseract (tesseract.js), die in einem Web Worker mit gleicher Herkunft läuft – es ist kein Server beteiligt.
Verwendet dieses Tool WebAssembly?
Ja – dies ist eines der wenigen Tools hier, das es tut. Die Tesseract-OCR-Engine ist nach WebAssembly kompilierter C++-Code und läuft in Ihrem Browser; die .wasm-Binärdatei wird von dieser Website ausgeliefert und es wird nichts irgendwohin gesendet.
Warum ist der erste Durchlauf langsamer als die folgenden?
Bei der ersten Nutzung lädt Ihr Browser die OCR-Engine und das Sprachmodell von dieser Website herunter (einige Megabyte) und kompiliert sie. Anschließend werden sie zwischengespeichert, sodass spätere Durchläufe deutlich schneller starten.