Atlikite skenuoto PDF OCR privačiai – atpažinkite tekstą jūsų naršyklėje

Pasirinkite skenuotą PDF ir kalbą; kiekvienas puslapis atvaizduojamas ir atpažįstamas vietoje Tesseract priemone (sukompiliuota į WebAssembly), o atpažintas tekstas rodomas ir atsisiunčiamas kaip .txt failas.

How it works

  1. Pasirinkite skenuotą PDF iš savo įrenginio ir parinkite dokumento kalbą.
  2. Failas nuskaitomas į naršyklės atmintį – jokie duomenys neišeina iš jūsų naršyklės.
  3. pdf.js atvaizduoja kiekvieną puslapį į paveikslėlį Web Worker gijoje.
  4. Tesseract OCR – sukompiliuotas į WebAssembly ir pateikiamas iš šios svetainės – vietoje atpažįsta kiekvieno puslapio tekstą; kalbos modelis taip pat įkeliamas iš šios svetainės, o ne iš trečiosios šalies CDN.
  5. Atpažintas tekstas rodomas pagal puslapius ir pateikiamas atsisiųsti kaip .txt.

Frequently asked questions

Kuo tai skiriasi nuo kitų internetinių PDF įrankių?
Dauguma internetinių PDF įrankių siunčia jūsų failus apdoroti į nuotolinį serverį. Šis įrankis viską apdoroja vietoje, jūsų naršyklėje, naudodamas kliento pusės JavaScript. Jūsų failai niekada nesiunčiami į jokį serverį, todėl dokumento turinys lieka visiškai jūsų kontroliuojamas.
Ar mano PDF failai įkeliami į serverį?
Ne. Failus tiesiogiai nuskaito jūsų naršyklė. Niekas nesiunčiama tinklu. Įrankis veikia tik atidarytoje naršyklės kortelėje.
Ar galiu įsitikinti, kad failai neįkeliami?
Taip. Atidarykite naršyklės kūrėjo įrankius (F12), pereikite į kortelę „Network“ ir naudodamiesi įrankiu stebėkite, ar nėra siunčiamų užklausų. Pamatysite, kad jokie failo duomenys neišeina iš naršyklės. Visi veiksmai atliekami be jokio tinklo aktyvumo.
Ar šis įrankis veikia neprisijungus prie interneto?
Taip, kai puslapis įkeliamas, įrankis veikia tik jūsų naršyklėje ir jam nereikia interneto ryšio. Galite atsijungti nuo interneto ir toliau juo naudotis.
Kas nutinka, kai atnaujinu puslapį?
Kadangi niekas nesaugoma serveryje, atnaujinus puslapį dabartinė sesija išvaloma. Pasirinktus failus reikės pasirinkti iš naujo.
Ar šis įrankis saugo mano failus?
Ne. Failai laikomi naršyklės atmintyje tik tol, kol puslapis atidarytas. Uždarius arba atnaujinus puslapį jie pašalinami. Įrankis nieko nerašo į diską ir nieko nesiunčia į serverį.
Ar šis įrankis gali pašalinti slaptažodžiu apsaugotų PDF apsaugą?
Ne. Šis įrankis nebando pašalinti ar apeiti PDF apsaugos slaptažodžiu. Jei žinote slaptažodį, šios svetainės įrankis „Unlock PDF“ gali jį pašalinti vietoje; tada šis įrankis galės apdoroti failą.
Kokias technologijas naudoja šis įrankis?
Šis įrankis naudoja pdf.js puslapiams atvaizduoti ir Tesseract OCR priemonę, sukompiliuotą į WebAssembly (tesseract.js), veikiančią to paties domeno Web Worker gijoje – serveris nedalyvauja.
Ar šis įrankis naudoja WebAssembly?
Taip – tai vienas iš nedaugelio čia esančių įrankių, kuris jį naudoja. Tesseract OCR priemonė yra į WebAssembly sukompiliuotas C++ kodas, veikiantis jūsų naršyklėje; .wasm dvejetainis failas pateikiamas iš šios svetainės ir niekas niekur nesiunčiama.
Kodėl pirmas paleidimas lėtesnis už paskesnius?
Pirmą kartą naudojant jūsų naršyklė iš šios svetainės atsisiunčia OCR priemonę ir kalbos modelį (keletą megabaitų) ir juos sukompiliuoja. Vėliau jie įrašomi į talpyklą, todėl paskesni paleidimai prasideda daug greičiau.