Esegui l'OCR di un PDF scansionato in privato: riconosci il testo nel browser
Seleziona un PDF scansionato e una lingua; ogni pagina viene renderizzata e riconosciuta in locale da Tesseract (compilato in WebAssembly) e il testo riconosciuto viene mostrato e scaricabile come file .txt.
How it works
- Seleziona un PDF scansionato dal tuo dispositivo e scegli la lingua del documento.
- Il file viene letto nella memoria del browser: nessun dato lascia il browser.
- pdf.js renderizza ogni pagina come immagine in un Web Worker.
- Tesseract OCR — compilato in WebAssembly e servito da questo sito — riconosce in locale il testo di ogni pagina; anche il modello linguistico viene caricato da questo sito, non da una CDN di terze parti.
- Il testo riconosciuto viene mostrato pagina per pagina e proposto come download .txt.
Frequently asked questions
- In cosa si differenzia dagli altri strumenti PDF online?
- La maggior parte degli strumenti PDF online invia i tuoi file a un server remoto per l'elaborazione. Questo strumento elabora tutto in locale nel browser tramite JavaScript lato client. I tuoi file non vengono trasmessi ad alcun server, quindi il contenuto dei documenti resta interamente sotto il tuo controllo.
- I miei file PDF vengono caricati su un server?
- No. I tuoi file vengono letti direttamente dal browser. Nulla viene trasmesso in rete. Lo strumento funziona interamente all'interno della scheda del browser che hai aperto.
- Posso verificare che i file non vengano caricati?
- Sì. Apri gli strumenti per sviluppatori del browser (F12), vai alla scheda Rete e osserva se ci sono richieste in uscita mentre usi lo strumento. Vedrai che nessun dato dei file lascia il browser. Tutte le operazioni si completano senza attività di rete.
- Questo strumento funziona offline?
- Sì: una volta caricata la pagina, lo strumento funziona interamente nel browser senza alcuna connessione di rete. Puoi disconnetterti da internet e continuare a usarlo.
- Cosa succede se aggiorno la pagina?
- Poiché nulla viene salvato su un server, aggiornando la pagina la sessione corrente si azzera. Dovrai selezionare di nuovo gli eventuali file che avevi scelto.
- Questo strumento conserva i miei file?
- No. I file restano nella memoria del browser solo finché la pagina è aperta. Chiudendo o aggiornando la pagina vengono eliminati. Lo strumento non scrive nulla su disco e non invia nulla a un server.
- Questo strumento può sbloccare i PDF protetti da password?
- No. Questo strumento non tenta di rimuovere né di aggirare la protezione con password dei PDF. Se conosci la password, lo strumento Sblocca PDF di questo sito può rimuoverla in locale; dopodiché questo strumento potrà elaborare il file.
- Quali tecnologie utilizza questo strumento?
- Questo strumento utilizza pdf.js per renderizzare le pagine e il motore OCR Tesseract compilato in WebAssembly (tesseract.js) in esecuzione in un Web Worker della stessa origine: nessun server è coinvolto.
- Questo strumento usa WebAssembly?
- Sì: questo è uno dei pochi strumenti qui che lo fa. Il motore OCR Tesseract è C++ compilato in WebAssembly e funziona all'interno del browser; il binario .wasm viene servito da questo sito e nulla viene inviato altrove.
- Perché la prima esecuzione è più lenta di quelle successive?
- Al primo utilizzo il browser scarica da questo sito il motore OCR e il modello linguistico (alcuni megabyte) e li compila. Successivamente vengono memorizzati nella cache, quindi le esecuzioni successive partono molto più velocemente.