Izvedite OCR skeniranega PDF zasebno — prepoznajte besedilo v vašem brskalniku

Izberite skeniran PDF in jezik; vsaka stran se izriše in lokalno prepozna s Tesseract (prevedenim v WebAssembly), prepoznano besedilo pa se prikaže in je na voljo za prenos kot datoteka .txt.

How it works

  1. Iz svoje naprave izberite skeniran PDF in izberite jezik dokumenta.
  2. Datoteka se prebere v pomnilnik brskalnika — noben podatek ne zapusti vašega brskalnika.
  3. pdf.js v Web Worker izriše vsako stran v sliko.
  4. Tesseract OCR — preveden v WebAssembly in postrežen s te strani — lokalno prepozna besedilo vsake strani; jezikovni model se prav tako naloži s te strani, ne s tretjeosebnega omrežja CDN.
  5. Prepoznano besedilo se prikaže po straneh in ponudi za prenos kot datoteka .txt.

Frequently asked questions

V čem se ta orodja razlikujejo od drugih spletnih orodij za PDF?
Večina spletnih orodij za PDF vaše datoteke pošlje v obdelavo na oddaljeni strežnik. To orodje vse obdela lokalno v vašem brskalniku z uporabo JavaScripta na strani odjemalca. Vaše datoteke se ne prenašajo na noben strežnik, kar pomeni, da vsebina dokumenta v celoti ostane pod vašim nadzorom.
Ali se moje datoteke PDF prenesejo v oblak?
Ne. Vaše datoteke prebere neposredno vaš brskalnik. Po omrežju se ne prenese nič. Orodje deluje v celoti znotraj zavihka brskalnika, ki ga imate odprtega.
Lahko preverim, da se datoteke ne prenašajo nikamor?
Da. Odprite razvijalska orodja brskalnika (F12), pojdite na zavihek Network (Omrežje) in med uporabo orodja opazujte morebitne izhodne zahteve. Videli boste, da nobeni podatki o datoteki ne zapustijo vašega brskalnika. Vse operacije se zaključijo brez omrežne dejavnosti.
Ali orodje deluje brez povezave?
Da. Ko se stran enkrat naloži, orodje deluje v celoti v vašem brskalniku brez omrežne povezave. Lahko se odklopite od interneta in z uporabo nadaljujete.
Kaj se zgodi, ko osvežim stran?
Ker se na strežniku ne shranjuje nič, osvežitev strani počisti vašo trenutno sejo. Datoteke, ki ste jih izbrali, boste morali izbrati znova.
Ali orodje shranjuje moje datoteke?
Ne. Datoteke ostanejo v pomnilniku brskalnika le toliko časa, dokler je stran odprta. Ob zaprtju ali osvežitvi strani se zavržejo. Orodje ničesar ne zapiše na disk in ničesar ne pošlje na strežnik.
Ali to orodje odklene s geslom zaščitene datoteke PDF?
Ne. To orodje ne poskuša odstraniti ali zaobiti zaščite PDF z geslom. Če geslo poznate, ga lahko orodje Odkleni PDF na tej strani odstrani lokalno; nato lahko datoteko obdelate s tem orodjem.
Katere tehnologije uporablja to orodje?
To orodje uporablja pdf.js za izris strani in pogon Tesseract OCR, preveden v WebAssembly (tesseract.js), ki teče v Web Worker iste izvorne domene — strežnik ni vključen.
Ali to orodje uporablja WebAssembly?
Da — to je eno redkih orodij tukaj, ki ga. Pogon Tesseract OCR je C++, preveden v WebAssembly, in teče znotraj vašega brskalnika; binarni .wasm se postreže s te strani in nič se ne pošlje nikamor.
Zakaj je prvi zagon počasnejši od naslednjih?
Ob prvi uporabi vaš brskalnik s te strani prenese pogon OCR in jezikovni model (nekaj megabajtov) ter ju prevede. Pozneje sta predpomnjena, zato se kasnejši zagoni začnejo veliko hitreje.