Fazer OCR de um PDF Digitalizado de Forma Privada — Reconhecer Texto no Seu Navegador
Selecione um PDF digitalizado e uma língua; cada página é renderizada e reconhecida localmente pelo Tesseract (compilado para WebAssembly), e o texto reconhecido é apresentado e pode ser descarregado como ficheiro .txt.
How it works
- Selecione um PDF digitalizado do seu dispositivo e escolha a língua do documento.
- O ficheiro é lido para a memória do navegador — nenhum dado sai do navegador.
- O pdf.js renderiza cada página para uma imagem num Web Worker.
- O OCR Tesseract — compilado para WebAssembly e fornecido a partir deste site — reconhece o texto de cada página localmente; o modelo de língua também é carregado a partir deste site, e não de uma CDN de terceiros.
- O texto reconhecido é apresentado por página e disponibilizado como descarregamento .txt.
Frequently asked questions
- Em que é diferente de outras ferramentas de PDF online?
- A maioria das ferramentas de PDF online envia os seus ficheiros para um servidor remoto para processamento. Esta ferramenta processa tudo localmente no seu navegador, usando JavaScript do lado do cliente. Os seus ficheiros não são transmitidos para nenhum servidor, o que significa que o conteúdo dos seus documentos permanece sob o seu controlo.
- Os meus ficheiros PDF são carregados para algum servidor?
- Não. Os seus ficheiros são lidos diretamente pelo navegador. Nada é transmitido pela rede. A ferramenta funciona inteiramente dentro do separador do navegador que tem aberto.
- Posso confirmar que os ficheiros não são carregados?
- Sim. Abra as ferramentas de programador do navegador (F12), vá ao separador Rede (Network) e observe os pedidos de saída enquanto utiliza a ferramenta. Não verá quaisquer dados de ficheiros a sair do navegador. Todas as operações terminam sem atividade de rede.
- Esta ferramenta funciona sem ligação à Internet?
- Sim. Depois de a página carregar, a ferramenta funciona inteiramente no navegador, sem qualquer ligação de rede. Pode desligar-se da Internet e continuar a utilizá-la.
- O que acontece quando atualizo a página?
- Como nada é guardado num servidor, atualizar a página limpa a sessão atual. Os ficheiros que tinha selecionado terão de ser selecionados novamente.
- Esta ferramenta guarda os meus ficheiros?
- Não. Os ficheiros são mantidos na memória do navegador apenas enquanto a página estiver aberta. Fechar ou atualizar a página descarta-os. A ferramenta não grava nada no disco e nada é enviado para um servidor.
- Esta ferramenta consegue desbloquear PDFs protegidos por palavra-passe?
- Não. Esta ferramenta não tenta remover nem contornar a proteção por palavra-passe dos PDF. Se souber a palavra-passe, a ferramenta Desbloquear PDF deste site pode removê-la localmente; depois disso, esta ferramenta consegue processar o ficheiro.
- Que tecnologias utiliza esta ferramenta?
- Esta ferramenta usa o pdf.js para renderizar as páginas e o motor de OCR Tesseract compilado para WebAssembly (tesseract.js) a correr num Web Worker da mesma origem — não há qualquer servidor envolvido.
- Esta ferramenta utiliza WebAssembly?
- Sim — é uma das poucas ferramentas aqui que o faz. O motor de OCR Tesseract é C++ compilado para WebAssembly e corre dentro do navegador; o binário .wasm é fornecido a partir deste site e nada é enviado para fora.
- Porque é que a primeira utilização é mais lenta do que as seguintes?
- Na primeira utilização, o navegador transfere o motor de OCR e o modelo de língua a partir deste site (alguns megabytes) e compila-os. Ficam em cache depois disso, pelo que as utilizações seguintes começam muito mais depressa.