Izvedite OCR skeniranega PDF zasebno — prepoznajte besedilo v vašem brskalniku
Izberite skeniran PDF in jezik; vsaka stran se izriše in lokalno prepozna s Tesseract (prevedenim v WebAssembly), prepoznano besedilo pa se prikaže in je na voljo za prenos kot datoteka .txt.
How it works
- Iz svoje naprave izberite skeniran PDF in izberite jezik dokumenta.
- Datoteka se prebere v pomnilnik brskalnika — noben podatek ne zapusti vašega brskalnika.
- pdf.js v Web Worker izriše vsako stran v sliko.
- Tesseract OCR — preveden v WebAssembly in postrežen s te strani — lokalno prepozna besedilo vsake strani; jezikovni model se prav tako naloži s te strani, ne s tretjeosebnega omrežja CDN.
- Prepoznano besedilo se prikaže po straneh in ponudi za prenos kot datoteka .txt.
Frequently asked questions
- V čem se ta orodja razlikujejo od drugih spletnih orodij za PDF?
- Večina spletnih orodij za PDF vaše datoteke pošlje v obdelavo na oddaljeni strežnik. To orodje vse obdela lokalno v vašem brskalniku z uporabo JavaScripta na strani odjemalca. Vaše datoteke se ne prenašajo na noben strežnik, kar pomeni, da vsebina dokumenta v celoti ostane pod vašim nadzorom.
- Ali se moje datoteke PDF prenesejo v oblak?
- Ne. Vaše datoteke prebere neposredno vaš brskalnik. Po omrežju se ne prenese nič. Orodje deluje v celoti znotraj zavihka brskalnika, ki ga imate odprtega.
- Lahko preverim, da se datoteke ne prenašajo nikamor?
- Da. Odprite razvijalska orodja brskalnika (F12), pojdite na zavihek Network (Omrežje) in med uporabo orodja opazujte morebitne izhodne zahteve. Videli boste, da nobeni podatki o datoteki ne zapustijo vašega brskalnika. Vse operacije se zaključijo brez omrežne dejavnosti.
- Ali orodje deluje brez povezave?
- Da. Ko se stran enkrat naloži, orodje deluje v celoti v vašem brskalniku brez omrežne povezave. Lahko se odklopite od interneta in z uporabo nadaljujete.
- Kaj se zgodi, ko osvežim stran?
- Ker se na strežniku ne shranjuje nič, osvežitev strani počisti vašo trenutno sejo. Datoteke, ki ste jih izbrali, boste morali izbrati znova.
- Ali orodje shranjuje moje datoteke?
- Ne. Datoteke ostanejo v pomnilniku brskalnika le toliko časa, dokler je stran odprta. Ob zaprtju ali osvežitvi strani se zavržejo. Orodje ničesar ne zapiše na disk in ničesar ne pošlje na strežnik.
- Ali to orodje odklene s geslom zaščitene datoteke PDF?
- Ne. To orodje ne poskuša odstraniti ali zaobiti zaščite PDF z geslom. Če geslo poznate, ga lahko orodje Odkleni PDF na tej strani odstrani lokalno; nato lahko datoteko obdelate s tem orodjem.
- Katere tehnologije uporablja to orodje?
- To orodje uporablja pdf.js za izris strani in pogon Tesseract OCR, preveden v WebAssembly (tesseract.js), ki teče v Web Worker iste izvorne domene — strežnik ni vključen.
- Ali to orodje uporablja WebAssembly?
- Da — to je eno redkih orodij tukaj, ki ga. Pogon Tesseract OCR je C++, preveden v WebAssembly, in teče znotraj vašega brskalnika; binarni .wasm se postreže s te strani in nič se ne pošlje nikamor.
- Zakaj je prvi zagon počasnejši od naslednjih?
- Ob prvi uporabi vaš brskalnik s te strani prenese pogon OCR in jezikovni model (nekaj megabajtov) ter ju prevede. Pozneje sta predpomnjena, zato se kasnejši zagoni začnejo veliko hitreje.