Tee OCR skannatulle PDF:lle yksityisesti – tunnista teksti selaimessasi
Valitse skannattu PDF ja kieli; jokainen sivu renderöidään ja tunnistetaan paikallisesti Tesseractilla (käännetty WebAssemblyksi), ja tunnistettu teksti näytetään ja on ladattavissa .txt-tiedostona.
How it works
- Valitse skannattu PDF laitteeltasi ja valitse asiakirjan kieli.
- Tiedosto luetaan selaimen muistiin – mitään dataa ei poistu selaimestasi.
- pdf.js renderöi jokaisen sivun kuvaksi Web Workerissa.
- Tesseract OCR – käännetty WebAssemblyksi ja tarjottu tältä sivustolta – tunnistaa kunkin sivun tekstin paikallisesti; kielimalli ladataan myös tältä sivustolta, ei kolmannen osapuolen CDN:stä.
- Tunnistettu teksti näytetään sivukohtaisesti ja tarjotaan .txt-latauksena.
Frequently asked questions
- Miten tämä eroaa muista online-PDF-työkaluista?
- Useimmat online-PDF-työkalut lähettävät tiedostosi etäpalvelimelle käsiteltäväksi. Tämä työkalu käsittelee kaiken paikallisesti selaimessasi selainpuolen JavaScriptillä. Tiedostojasi ei koskaan lähetetä mihinkään palvelimelle, joten asiakirjojesi sisältö pysyy kokonaan sinun hallinnassasi.
- Lähetetäänkö PDF-tiedostoni palvelimelle?
- Ei. Tiedostosi luetaan suoraan selaimessasi. Mitään ei lähetetä verkon yli. Työkalu toimii kokonaan avaamassasi selainvälilehdessä.
- Voinko varmistaa, ettei tiedostoja lähetetä?
- Kyllä. Avaa selaimesi kehittäjätyökalut (F12), siirry Network-välilehdelle ja tarkkaile lähteviä pyyntöjä työkalua käyttäessäsi. Et näe minkään tiedostodatan poistuvan selaimestasi. Kaikki toiminnot suoritetaan ilman verkkoliikennettä.
- Toimiiko tämä työkalu offline-tilassa?
- Kyllä, kun sivu on kerran latautunut, työkalu toimii kokonaan selaimessasi ilman verkkoyhteyttä. Voit katkaista internetyhteyden ja jatkaa sen käyttöä.
- Mitä tapahtuu, kun päivitän sivun?
- Koska mitään ei tallenneta palvelimelle, sivun päivittäminen tyhjentää nykyisen istuntosi. Mahdolliset valitsemasi tiedostot on valittava uudelleen.
- Tallentaako tämä työkalu tiedostoni?
- Ei. Tiedostot säilyvät selaimen muistissa vain niin kauan kuin sivu on auki. Sivun sulkeminen tai päivittäminen hävittää ne. Työkalu ei kirjoita mitään levylle, eikä mitään lähetetä palvelimelle.
- Voiko tämä työkalu avata salasanalla suojattuja PDF-tiedostoja?
- Ei. Tämä työkalu ei yritä poistaa tai ohittaa PDF-tiedoston salasanasuojausta. Jos tiedät salasanan, tämän sivuston Avaa PDF -työkalu voi poistaa sen paikallisesti; sen jälkeen tämä työkalu voi käsitellä tiedoston.
- Mitä tekniikoita tämä työkalu käyttää?
- Tämä työkalu käyttää pdf.js:ää sivujen renderöintiin ja WebAssemblyksi käännettyä Tesseract OCR -moottoria (tesseract.js), joka toimii samaan alkuperään kuuluvassa Web Workerissa – palvelinta ei käytetä.
- Käyttääkö tämä työkalu WebAssemblya?
- Kyllä – tämä on yksi harvoista täällä olevista työkaluista, jotka käyttävät sitä. Tesseract OCR -moottori on C++:aa, joka on käännetty WebAssemblyksi ja toimii selaimessasi; .wasm-binääri tarjotaan tältä sivustolta eikä mitään lähetetä mihinkään.
- Miksi ensimmäinen suorituskerta on hitaampi kuin seuraavat?
- Ensimmäisellä käyttökerralla selaimesi lataa OCR-moottorin ja kielimallin tältä sivustolta (muutama megatavu) ja kääntää ne. Ne tallennetaan välimuistiin sen jälkeen, joten myöhemmät suorituskerrat alkavat paljon nopeammin.