Esegui l'OCR di un PDF scansionato in privato: riconosci il testo nel browser

Seleziona un PDF scansionato e una lingua; ogni pagina viene renderizzata e riconosciuta in locale da Tesseract (compilato in WebAssembly) e il testo riconosciuto viene mostrato e scaricabile come file .txt.

How it works

  1. Seleziona un PDF scansionato dal tuo dispositivo e scegli la lingua del documento.
  2. Il file viene letto nella memoria del browser: nessun dato lascia il browser.
  3. pdf.js renderizza ogni pagina come immagine in un Web Worker.
  4. Tesseract OCR — compilato in WebAssembly e servito da questo sito — riconosce in locale il testo di ogni pagina; anche il modello linguistico viene caricato da questo sito, non da una CDN di terze parti.
  5. Il testo riconosciuto viene mostrato pagina per pagina e proposto come download .txt.

Frequently asked questions

In cosa si differenzia dagli altri strumenti PDF online?
La maggior parte degli strumenti PDF online invia i tuoi file a un server remoto per l'elaborazione. Questo strumento elabora tutto in locale nel browser tramite JavaScript lato client. I tuoi file non vengono trasmessi ad alcun server, quindi il contenuto dei documenti resta interamente sotto il tuo controllo.
I miei file PDF vengono caricati su un server?
No. I tuoi file vengono letti direttamente dal browser. Nulla viene trasmesso in rete. Lo strumento funziona interamente all'interno della scheda del browser che hai aperto.
Posso verificare che i file non vengano caricati?
Sì. Apri gli strumenti per sviluppatori del browser (F12), vai alla scheda Rete e osserva se ci sono richieste in uscita mentre usi lo strumento. Vedrai che nessun dato dei file lascia il browser. Tutte le operazioni si completano senza attività di rete.
Questo strumento funziona offline?
Sì: una volta caricata la pagina, lo strumento funziona interamente nel browser senza alcuna connessione di rete. Puoi disconnetterti da internet e continuare a usarlo.
Cosa succede se aggiorno la pagina?
Poiché nulla viene salvato su un server, aggiornando la pagina la sessione corrente si azzera. Dovrai selezionare di nuovo gli eventuali file che avevi scelto.
Questo strumento conserva i miei file?
No. I file restano nella memoria del browser solo finché la pagina è aperta. Chiudendo o aggiornando la pagina vengono eliminati. Lo strumento non scrive nulla su disco e non invia nulla a un server.
Questo strumento può sbloccare i PDF protetti da password?
No. Questo strumento non tenta di rimuovere né di aggirare la protezione con password dei PDF. Se conosci la password, lo strumento Sblocca PDF di questo sito può rimuoverla in locale; dopodiché questo strumento potrà elaborare il file.
Quali tecnologie utilizza questo strumento?
Questo strumento utilizza pdf.js per renderizzare le pagine e il motore OCR Tesseract compilato in WebAssembly (tesseract.js) in esecuzione in un Web Worker della stessa origine: nessun server è coinvolto.
Questo strumento usa WebAssembly?
Sì: questo è uno dei pochi strumenti qui che lo fa. Il motore OCR Tesseract è C++ compilato in WebAssembly e funziona all'interno del browser; il binario .wasm viene servito da questo sito e nulla viene inviato altrove.
Perché la prima esecuzione è più lenta di quelle successive?
Al primo utilizzo il browser scarica da questo sito il motore OCR e il modello linguistico (alcuni megabyte) e li compila. Successivamente vengono memorizzati nella cache, quindi le esecuzioni successive partono molto più velocemente.