Atlikite skenuoto PDF OCR privačiai – atpažinkite tekstą jūsų naršyklėje
Pasirinkite skenuotą PDF ir kalbą; kiekvienas puslapis atvaizduojamas ir atpažįstamas vietoje Tesseract priemone (sukompiliuota į WebAssembly), o atpažintas tekstas rodomas ir atsisiunčiamas kaip .txt failas.
How it works
- Pasirinkite skenuotą PDF iš savo įrenginio ir parinkite dokumento kalbą.
- Failas nuskaitomas į naršyklės atmintį – jokie duomenys neišeina iš jūsų naršyklės.
- pdf.js atvaizduoja kiekvieną puslapį į paveikslėlį Web Worker gijoje.
- Tesseract OCR – sukompiliuotas į WebAssembly ir pateikiamas iš šios svetainės – vietoje atpažįsta kiekvieno puslapio tekstą; kalbos modelis taip pat įkeliamas iš šios svetainės, o ne iš trečiosios šalies CDN.
- Atpažintas tekstas rodomas pagal puslapius ir pateikiamas atsisiųsti kaip .txt.
Frequently asked questions
- Kuo tai skiriasi nuo kitų internetinių PDF įrankių?
- Dauguma internetinių PDF įrankių siunčia jūsų failus apdoroti į nuotolinį serverį. Šis įrankis viską apdoroja vietoje, jūsų naršyklėje, naudodamas kliento pusės JavaScript. Jūsų failai niekada nesiunčiami į jokį serverį, todėl dokumento turinys lieka visiškai jūsų kontroliuojamas.
- Ar mano PDF failai įkeliami į serverį?
- Ne. Failus tiesiogiai nuskaito jūsų naršyklė. Niekas nesiunčiama tinklu. Įrankis veikia tik atidarytoje naršyklės kortelėje.
- Ar galiu įsitikinti, kad failai neįkeliami?
- Taip. Atidarykite naršyklės kūrėjo įrankius (F12), pereikite į kortelę „Network“ ir naudodamiesi įrankiu stebėkite, ar nėra siunčiamų užklausų. Pamatysite, kad jokie failo duomenys neišeina iš naršyklės. Visi veiksmai atliekami be jokio tinklo aktyvumo.
- Ar šis įrankis veikia neprisijungus prie interneto?
- Taip, kai puslapis įkeliamas, įrankis veikia tik jūsų naršyklėje ir jam nereikia interneto ryšio. Galite atsijungti nuo interneto ir toliau juo naudotis.
- Kas nutinka, kai atnaujinu puslapį?
- Kadangi niekas nesaugoma serveryje, atnaujinus puslapį dabartinė sesija išvaloma. Pasirinktus failus reikės pasirinkti iš naujo.
- Ar šis įrankis saugo mano failus?
- Ne. Failai laikomi naršyklės atmintyje tik tol, kol puslapis atidarytas. Uždarius arba atnaujinus puslapį jie pašalinami. Įrankis nieko nerašo į diską ir nieko nesiunčia į serverį.
- Ar šis įrankis gali pašalinti slaptažodžiu apsaugotų PDF apsaugą?
- Ne. Šis įrankis nebando pašalinti ar apeiti PDF apsaugos slaptažodžiu. Jei žinote slaptažodį, šios svetainės įrankis „Unlock PDF“ gali jį pašalinti vietoje; tada šis įrankis galės apdoroti failą.
- Kokias technologijas naudoja šis įrankis?
- Šis įrankis naudoja pdf.js puslapiams atvaizduoti ir Tesseract OCR priemonę, sukompiliuotą į WebAssembly (tesseract.js), veikiančią to paties domeno Web Worker gijoje – serveris nedalyvauja.
- Ar šis įrankis naudoja WebAssembly?
- Taip – tai vienas iš nedaugelio čia esančių įrankių, kuris jį naudoja. Tesseract OCR priemonė yra į WebAssembly sukompiliuotas C++ kodas, veikiantis jūsų naršyklėje; .wasm dvejetainis failas pateikiamas iš šios svetainės ir niekas niekur nesiunčiama.
- Kodėl pirmas paleidimas lėtesnis už paskesnius?
- Pirmą kartą naudojant jūsų naršyklė iš šios svetainės atsisiunčia OCR priemonę ir kalbos modelį (keletą megabaitų) ir juos sukompiliuoja. Vėliau jie įrašomi į talpyklą, todėl paskesni paleidimai prasideda daug greičiau.