Tee OCR skannatulle PDF:lle yksityisesti – tunnista teksti selaimessasi

Valitse skannattu PDF ja kieli; jokainen sivu renderöidään ja tunnistetaan paikallisesti Tesseractilla (käännetty WebAssemblyksi), ja tunnistettu teksti näytetään ja on ladattavissa .txt-tiedostona.

How it works

  1. Valitse skannattu PDF laitteeltasi ja valitse asiakirjan kieli.
  2. Tiedosto luetaan selaimen muistiin – mitään dataa ei poistu selaimestasi.
  3. pdf.js renderöi jokaisen sivun kuvaksi Web Workerissa.
  4. Tesseract OCR – käännetty WebAssemblyksi ja tarjottu tältä sivustolta – tunnistaa kunkin sivun tekstin paikallisesti; kielimalli ladataan myös tältä sivustolta, ei kolmannen osapuolen CDN:stä.
  5. Tunnistettu teksti näytetään sivukohtaisesti ja tarjotaan .txt-latauksena.

Frequently asked questions

Miten tämä eroaa muista online-PDF-työkaluista?
Useimmat online-PDF-työkalut lähettävät tiedostosi etäpalvelimelle käsiteltäväksi. Tämä työkalu käsittelee kaiken paikallisesti selaimessasi selainpuolen JavaScriptillä. Tiedostojasi ei koskaan lähetetä mihinkään palvelimelle, joten asiakirjojesi sisältö pysyy kokonaan sinun hallinnassasi.
Lähetetäänkö PDF-tiedostoni palvelimelle?
Ei. Tiedostosi luetaan suoraan selaimessasi. Mitään ei lähetetä verkon yli. Työkalu toimii kokonaan avaamassasi selainvälilehdessä.
Voinko varmistaa, ettei tiedostoja lähetetä?
Kyllä. Avaa selaimesi kehittäjätyökalut (F12), siirry Network-välilehdelle ja tarkkaile lähteviä pyyntöjä työkalua käyttäessäsi. Et näe minkään tiedostodatan poistuvan selaimestasi. Kaikki toiminnot suoritetaan ilman verkkoliikennettä.
Toimiiko tämä työkalu offline-tilassa?
Kyllä, kun sivu on kerran latautunut, työkalu toimii kokonaan selaimessasi ilman verkkoyhteyttä. Voit katkaista internetyhteyden ja jatkaa sen käyttöä.
Mitä tapahtuu, kun päivitän sivun?
Koska mitään ei tallenneta palvelimelle, sivun päivittäminen tyhjentää nykyisen istuntosi. Mahdolliset valitsemasi tiedostot on valittava uudelleen.
Tallentaako tämä työkalu tiedostoni?
Ei. Tiedostot säilyvät selaimen muistissa vain niin kauan kuin sivu on auki. Sivun sulkeminen tai päivittäminen hävittää ne. Työkalu ei kirjoita mitään levylle, eikä mitään lähetetä palvelimelle.
Voiko tämä työkalu avata salasanalla suojattuja PDF-tiedostoja?
Ei. Tämä työkalu ei yritä poistaa tai ohittaa PDF-tiedoston salasanasuojausta. Jos tiedät salasanan, tämän sivuston Avaa PDF -työkalu voi poistaa sen paikallisesti; sen jälkeen tämä työkalu voi käsitellä tiedoston.
Mitä tekniikoita tämä työkalu käyttää?
Tämä työkalu käyttää pdf.js:ää sivujen renderöintiin ja WebAssemblyksi käännettyä Tesseract OCR -moottoria (tesseract.js), joka toimii samaan alkuperään kuuluvassa Web Workerissa – palvelinta ei käytetä.
Käyttääkö tämä työkalu WebAssemblya?
Kyllä – tämä on yksi harvoista täällä olevista työkaluista, jotka käyttävät sitä. Tesseract OCR -moottori on C++:aa, joka on käännetty WebAssemblyksi ja toimii selaimessasi; .wasm-binääri tarjotaan tältä sivustolta eikä mitään lähetetä mihinkään.
Miksi ensimmäinen suorituskerta on hitaampi kuin seuraavat?
Ensimmäisellä käyttökerralla selaimesi lataa OCR-moottorin ja kielimallin tältä sivustolta (muutama megatavu) ja kääntää ne. Ne tallennetaan välimuistiin sen jälkeen, joten myöhemmät suorituskerrat alkavat paljon nopeammin.