Aplică OCR unui PDF scanat în mod privat — recunoaște textul în browserul tău

Selectează un PDF scanat și o limbă; fiecare pagină este redată și recunoscută local de Tesseract (compilat în WebAssembly), iar textul recunoscut este afișat și descărcabil ca fișier .txt.

How it works

  1. Selectează un PDF scanat de pe dispozitivul tău și alege limba documentului.
  2. Fișierul este citit în memoria browserului — niciun fel de date nu părăsesc browserul.
  3. pdf.js redă fiecare pagină ca imagine într-un Web Worker.
  4. Tesseract OCR — compilat în WebAssembly și servit de pe acest site — recunoaște local textul fiecărei pagini; modelul de limbă este, de asemenea, încărcat de pe acest site, nu de pe un CDN terț.
  5. Textul recunoscut este afișat pentru fiecare pagină și oferit ca descărcare .txt.

Frequently asked questions

Prin ce se deosebește de alte instrumente PDF online?
Majoritatea instrumentelor PDF online trimit fișierele tale către un server la distanță pentru prelucrare. Acest instrument prelucrează totul local, în browserul tău, folosind JavaScript pe partea de client. Fișierele tale nu sunt transmise către niciun server, ceea ce înseamnă că conținutul documentului rămâne sub controlul tău.
Fișierele mele PDF sunt încărcate undeva?
Nu. Fișierele tale sunt citite direct de browser. Nimic nu este transmis prin rețea. Instrumentul funcționează integral în fila de browser pe care o ai deschisă.
Pot verifica faptul că fișierele nu sunt încărcate?
Da. Deschide instrumentele pentru dezvoltatori din browser (F12), accesează fila Network și urmărește dacă apar cereri de ieșire în timp ce folosești instrumentul. Vei vedea că niciun fișier nu părăsește browserul. Toate operațiunile se finalizează fără activitate de rețea.
Funcționează acest instrument offline?
Da, odată ce pagina s-a încărcat, instrumentul rulează integral în browser, fără nicio conexiune la rețea. Te poți deconecta de la internet și poți continua să îl folosești.
Ce se întâmplă când reîncarc pagina?
Deoarece nimic nu este stocat pe un server, reîncărcarea paginii îți șterge sesiunea curentă. Va trebui să selectezi din nou fișierele pe care le aveai alese.
Acest instrument îmi stochează fișierele?
Nu. Fișierele sunt păstrate în memoria browserului doar cât timp pagina este deschisă. Închiderea sau reîncărcarea paginii le elimină. Instrumentul nu scrie nimic pe disc și nu trimite nimic către un server.
Poate acest instrument să deblocheze PDF-uri protejate prin parolă?
Nu. Acest instrument nu încearcă să elimine sau să ocolească protecția prin parolă a PDF-ului. Dacă știi parola, instrumentul Unlock PDF de pe acest site o poate elimina local, iar apoi acest instrument poate prelucra fișierul.
Ce tehnologii folosește acest instrument?
Acest instrument folosește pdf.js pentru a reda paginile și motorul OCR Tesseract compilat în WebAssembly (tesseract.js), care rulează într-un Web Worker de aceeași origine — niciun server nu este implicat.
Folosește acest instrument WebAssembly?
Da — este unul dintre puținele instrumente de aici care îl folosește. Motorul OCR Tesseract este cod C++ compilat în WebAssembly și rulează în interiorul browserului tău; binarul .wasm este servit de pe acest site și nimic nu este trimis nicăieri.
De ce prima rulare este mai lentă decât cele următoare?
La prima utilizare, browserul tău descarcă de pe acest site motorul OCR și modelul de limbă (câțiva megabytes) și le compilează. Ulterior sunt păstrate în cache, astfel încât rulările următoare pornesc mult mai rapid.