Beolvasott PDF OCR-je bizalmasan – ismerd fel a szöveget a böngésződben

Válassz ki egy beolvasott PDF-et és egy nyelvet; minden oldal helyben renderelődik és felismerésre kerül a Tesseract (WebAssemblyre fordítva) segítségével, a felismert szöveg pedig megjelenik, és letölthető .txt fájlként.

How it works

  1. Válassz ki egy beolvasott PDF-et az eszközödről, és add meg a dokumentum nyelvét.
  2. A fájl a böngésző memóriájába kerül – semmilyen adat nem hagyja el a böngésződet.
  3. A pdf.js minden oldalt képpé renderel egy Web Workerben.
  4. A Tesseract OCR – WebAssemblyre fordítva és erről az oldalról kiszolgálva – helyben felismeri minden oldal szövegét; a nyelvi modell szintén erről az oldalról töltődik be, nem egy harmadik fél CDN-jéről.
  5. A felismert szöveg oldalanként jelenik meg, és .txt fájlként letölthető.

Frequently asked questions

Miben különbözik ez a többi online PDF eszköztől?
A legtöbb online PDF eszköz a fájljaidat egy távoli szerverre küldi feldolgozásra. Ez az eszköz mindent helyben, a böngésződben dolgoz fel, kliensoldali JavaScript segítségével. A fájljaid soha nem kerülnek átküldésre semmilyen szerverre, vagyis a dokumentumod tartalma teljes mértékben a te ellenőrzésed alatt marad.
Feltöltődnek a PDF fájljaim?
Nem. A fájljaidat közvetlenül a böngésződ olvassa be. Semmi nem kerül átküldésre a hálózaton. Az eszköz teljes egészében a megnyitott böngészőfülön belül működik.
Ellenőrizhetem, hogy a fájlok nem töltődnek fel?
Igen. Nyisd meg a böngésződ fejlesztői eszközeit (F12), válts a Network (Hálózat) fülre, és figyeld a kimenő kéréseket, miközben az eszközt használod. Nem fogsz látni fájladatokat kilépni a böngésződből. Minden művelet hálózati forgalom nélkül fejeződik be.
Működik ez az eszköz offline módban?
Igen, miután az oldal betöltődött, az eszköz teljes egészében a böngésződben fut, hálózati kapcsolat nélkül. Lekapcsolódhatsz az internetről, és folytathatod a használatát.
Mi történik, ha frissítem az oldalt?
Mivel semmi nem tárolódik szerveren, az oldal frissítése törli az aktuális munkamenetet. A korábban kiválasztott fájlokat újra ki kell majd választanod.
Tárolja ez az eszköz a fájljaimat?
Nem. A fájlok csak addig maradnak a böngésző memóriájában, amíg az oldal nyitva van. Az oldal bezárása vagy frissítése eldobja őket. Az eszköz semmit nem ír a lemezre, és semmit nem küld szerverre.
Fel tudja oldani ez az eszköz a jelszóval védett PDF-eket?
Nem. Ez az eszköz nem próbálja eltávolítani vagy megkerülni a PDF jelszavas védelmét. Ha ismered a jelszót, az ezen az oldalon található PDF-feloldó eszköz helyben el tudja távolítani; ezután ez az eszköz fel tudja dolgozni a fájlt.
Milyen technológiákat használ ez az eszköz?
Ez az eszköz a pdf.js-t használja az oldalak rendereléséhez, és a WebAssemblyre fordított Tesseract OCR-motort (tesseract.js), amely egy azonos eredetű (same-origin) Web Workerben fut – nincs szerver a folyamatban.
Használ ez az eszköz WebAssemblyt?
Igen – ez egyike azon kevés itteni eszköznek, amely használja. A Tesseract OCR-motor C++ nyelven íródott, WebAssemblyre fordítva, és a böngésződben fut; a .wasm bináris erről az oldalról kerül kiszolgálásra, és semmi nem küldődik sehová.
Miért lassabb az első futtatás a következőknél?
Az első használatkor a böngésződ letölti az OCR-motort és a nyelvi modellt erről az oldalról (néhány megabájt), és lefordítja őket. Ezt követően gyorsítótárba kerülnek, így a későbbi futtatások sokkal gyorsabban indulnak.