Veiciet skenēta PDF OCR privāti — atpaziniet tekstu jūsu pārlūkprogrammā

Atlasiet skenētu PDF un valodu; katra lapa tiek renderēta un atpazīta lokāli ar Tesseract (kompilētu WebAssembly formātā), un atpazītais teksts tiek parādīts un ir lejupielādējams kā .txt fails.

How it works

  1. Atlasiet skenētu PDF no savas ierīces un izvēlieties dokumenta valodu.
  2. Fails tiek ielasīts pārlūkprogrammas atmiņā — neviens dati neatstāj jūsu pārlūkprogrammu.
  3. pdf.js renderē katru lapu kā attēlu Web Worker.
  4. Tesseract OCR — kompilēts WebAssembly formātā un piegādāts no šīs vietnes — atpazīst katras lapas tekstu lokāli; valodas modelis arī tiek ielādēts no šīs vietnes, nevis no trešās puses CDN.
  5. Atpazītais teksts tiek parādīts pa lapām un piedāvāts lejupielādei kā .txt fails.

Frequently asked questions

Ar ko tas atšķiras no citiem tiešsaistes PDF rīkiem?
Lielākā daļa tiešsaistes PDF rīku nosūta jūsu failus apstrādei attālā serverī. Šis rīks visu apstrādā lokāli jūsu pārlūkprogrammā, izmantojot klienta puses JavaScript. Jūsu faili netiek pārsūtīti uz nevienu serveri, kas nozīmē, ka jūsu dokumentu saturs pilnībā paliek jūsu kontrolē.
Vai mani PDF faili tiek augšupielādēti?
Nē. Jūsu failus tieši nolasa jūsu pārlūkprogramma. Nekas netiek pārsūtīts pa tīklu. Rīks darbojas pilnībā atvērtajā pārlūkprogrammas cilnē.
Vai es varu pārbaudīt, ka faili netiek augšupielādēti?
Jā. Atveriet pārlūkprogrammas izstrādātāja rīkus (F12), dodieties uz cilni Network un, lietojot rīku, vērojiet izejošos pieprasījumus. Redzēsiet, ka neviens failu dati neatstāj jūsu pārlūkprogrammu. Visas darbības tiek pabeigtas bez tīkla aktivitātes.
Vai šis rīks darbojas bezsaistē?
Jā, tiklīdz lapa ir ielādēta, rīks darbojas pilnībā jūsu pārlūkprogrammā bez tīkla savienojuma. Varat atvienoties no interneta un turpināt to lietot.
Kas notiek, kad atsvaidzinu lapu?
Tā kā nekas netiek glabāts serverī, lapas atsvaidzināšana notīra jūsu pašreizējo sesiju. Visi atlasītie faili būs jāatlasa atkārtoti.
Vai šis rīks glabā manus failus?
Nē. Faili tiek glabāti pārlūkprogrammas atmiņā tikai tik ilgi, kamēr lapa ir atvērta. Lapas aizvēršana vai atsvaidzināšana tos atmet. Rīks neko neraksta diskā un neko nesūta uz serveri.
Vai šis rīks var atbloķēt ar paroli aizsargātus PDF?
Nē. Šis rīks nemēģina noņemt vai apiet PDF paroles aizsardzību. Ja zināt paroli, šajā vietnē pieejamais rīks Atbloķēt PDF var to noņemt lokāli; pēc tam šis rīks var apstrādāt failu.
Kādas tehnoloģijas izmanto šis rīks?
Šis rīks izmanto pdf.js, lai renderētu lapas, un Tesseract OCR dzinēju, kas kompilēts WebAssembly formātā (tesseract.js) un darbojas viena izcelsmes (same-origin) Web Worker — serveris netiek izmantots.
Vai šis rīks izmanto WebAssembly?
Jā — šis ir viens no nedaudzajiem rīkiem šeit, kas to dara. Tesseract OCR dzinējs ir C++, kas kompilēts WebAssembly formātā un darbojas jūsu pārlūkprogrammā; .wasm binārais fails tiek piegādāts no šīs vietnes un nekas netiek nekur nosūtīts.
Kāpēc pirmā palaišana ir lēnāka par nākamajām?
Pirmajā lietošanas reizē jūsu pārlūkprogramma no šīs vietnes lejupielādē OCR dzinēju un valodas modeli (dažus megabaitus) un tos kompilē. Pēc tam tie tiek saglabāti kešatmiņā, tāpēc vēlākās palaišanas sākas daudz ātrāk.