Extrair Texto de um PDF de Forma Privada — Corre Inteiramente no Seu Navegador

Selecione um PDF e a camada de texto de cada página é extraída localmente no navegador e disponibilizada como ficheiro de texto para descarregar — sem carregamento.

How it works

  1. Selecione um ficheiro PDF do seu dispositivo através do seletor de ficheiros.
  2. O ficheiro é lido para a memória do navegador — nenhum dado sai do navegador.
  3. O pdf.js carrega o documento num Web Worker e chama getTextContent() para cada página, de modo a obter a camada de texto incorporada.
  4. O texto extraído de todas as páginas é combinado por ordem e disponibilizado como ficheiro .txt para descarregar.
  5. Todos os dados temporários são libertados da memória assim que o descarregamento termina.

Frequently asked questions

Em que é diferente de outras ferramentas de PDF online?
A maioria das ferramentas de PDF online envia os seus ficheiros para um servidor remoto para processamento. Esta ferramenta processa tudo localmente no seu navegador, usando JavaScript do lado do cliente. Os seus ficheiros não são transmitidos para nenhum servidor, o que significa que o conteúdo dos seus documentos permanece sob o seu controlo.
Os meus ficheiros PDF são carregados para algum servidor?
Não. Os seus ficheiros são lidos diretamente pelo navegador. Nada é transmitido pela rede. A ferramenta funciona inteiramente dentro do separador do navegador que tem aberto.
Posso confirmar que os ficheiros não são carregados?
Sim. Abra as ferramentas de programador do navegador (F12), vá ao separador Rede (Network) e observe os pedidos de saída enquanto utiliza a ferramenta. Não verá quaisquer dados de ficheiros a sair do navegador. Todas as operações terminam sem atividade de rede.
Esta ferramenta funciona sem ligação à Internet?
Sim. Depois de a página carregar, a ferramenta funciona inteiramente no navegador, sem qualquer ligação de rede. Pode desligar-se da Internet e continuar a utilizá-la.
O que acontece quando atualizo a página?
Como nada é guardado num servidor, atualizar a página limpa a sessão atual. Os ficheiros que tinha selecionado terão de ser selecionados novamente.
Esta ferramenta guarda os meus ficheiros?
Não. Os ficheiros são mantidos na memória do navegador apenas enquanto a página estiver aberta. Fechar ou atualizar a página descarta-os. A ferramenta não grava nada no disco e nada é enviado para um servidor.
Esta ferramenta consegue desbloquear PDFs protegidos por palavra-passe?
Não. Esta ferramenta não tenta remover nem contornar a proteção por palavra-passe dos PDF. Se souber a palavra-passe, a ferramenta Desbloquear PDF deste site pode removê-la localmente; depois disso, esta ferramenta consegue processar o ficheiro.
Que tecnologias utiliza esta ferramenta?
Esta ferramenta usa o pdf.js (o motor de PDF do lado do cliente da Mozilla) num Web Worker para ler a camada de texto incorporada de cada página do PDF, dentro do navegador. Não há qualquer servidor envolvido.
Esta ferramenta utiliza WebAssembly?
Não. O pdf.js é uma biblioteca de JavaScript puro — não usa WebAssembly. Toda a extração de texto do PDF acontece em JavaScript do lado do cliente, dentro do navegador.