OCR naskenovaného PDF soukromě — rozpoznejte text ve svém prohlížeči

Vyberte naskenované PDF a jazyk; každá stránka se vykreslí a rozpozná lokálně pomocí Tesseract (zkompilovaného do WebAssembly) a rozpoznaný text se zobrazí a lze jej stáhnout jako soubor .txt.

How it works

  1. Vyberte naskenované PDF ze svého zařízení a zvolte jazyk dokumentu.
  2. Soubor se načte do paměti prohlížeče — žádná data neopouštějí váš prohlížeč.
  3. pdf.js vykreslí každou stránku do obrázku ve Web Workeru.
  4. Tesseract OCR — zkompilovaný do WebAssembly a poskytovaný z tohoto webu — rozpozná text každé stránky lokálně; jazykový model se rovněž načítá z tohoto webu, nikoli z CDN třetí strany.
  5. Rozpoznaný text se zobrazí pro každou stránku a nabídne se ke stažení jako .txt.

Frequently asked questions

Čím se to liší od jiných online PDF nástrojů?
Většina online PDF nástrojů posílá vaše soubory ke zpracování na vzdálený server. Tento nástroj zpracovává vše lokálně ve vašem prohlížeči pomocí JavaScriptu na straně klienta. Vaše soubory se nikdy nepřenášejí na žádný server, takže obsah dokumentů zůstává plně pod vaší kontrolou.
Nahrávají se moje PDF soubory?
Ne. Vaše soubory čte přímo váš prohlížeč. Po síti se nic nepřenáší. Nástroj pracuje výhradně v otevřené záložce prohlížeče.
Mohu si ověřit, že se soubory nenahrávají?
Ano. Otevřete vývojářské nástroje prohlížeče (F12), přejděte na záložku Network a sledujte případné odchozí požadavky během práce s nástrojem. Uvidíte, že váš prohlížeč neopouštějí žádná data souborů. Všechny operace proběhnou bez síťové aktivity.
Funguje tento nástroj offline?
Ano, jakmile se stránka načte, nástroj běží zcela ve vašem prohlížeči bez síťového připojení. Můžete se odpojit od internetu a dál jej používat.
Co se stane, když stránku obnovím?
Protože se na serveru nic neukládá, obnovení stránky vymaže vaši aktuální relaci. Soubory, které jste měli vybrané, bude nutné vybrat znovu.
Ukládá tento nástroj moje soubory?
Ne. Soubory jsou drženy v paměti prohlížeče jen po dobu, kdy je stránka otevřená. Zavřením nebo obnovením stránky se zahodí. Nástroj nic nezapisuje na disk a nic neodesílá na server.
Umí tento nástroj odemknout heslem chráněná PDF?
Ne. Tento nástroj se nepokouší odstranit ani obejít ochranu PDF heslem. Pokud heslo znáte, nástroj Odemknout PDF na tomto webu jej dokáže odstranit lokálně; poté může tento nástroj soubor zpracovat.
Jaké technologie tento nástroj využívá?
Tento nástroj používá pdf.js k vykreslení stránek a OCR jádro Tesseract zkompilované do WebAssembly (tesseract.js) běžící ve Web Workeru se stejným původem — žádný server se nepoužívá.
Používá tento nástroj WebAssembly?
Ano — je to jeden z mála zdejších nástrojů, který jej používá. OCR jádro Tesseract je C++ zkompilované do WebAssembly a běží uvnitř vašeho prohlížeče; binární soubor .wasm se poskytuje z tohoto webu a nic se nikam neodesílá.
Proč je první spuštění pomalejší než následující?
Při prvním použití váš prohlížeč stáhne OCR jádro a jazykový model z tohoto webu (několik megabajtů) a zkompiluje je. Poté se uloží do mezipaměti, takže pozdější spuštění začínají mnohem rychleji.