Kör OCR på en skannad PDF privat – känn igen text i din webbläsare

Välj en skannad PDF och ett språk; varje sida renderas och känns igen lokalt av Tesseract (kompilerad till WebAssembly), och den igenkända texten visas och kan laddas ner som en .txt-fil.

How it works

  1. Välj en skannad PDF från din enhet och välj dokumentets språk.
  2. Filen läses in i webbläsarens minne – ingen data lämnar din webbläsare.
  3. pdf.js renderar varje sida till en bild i en Web Worker.
  4. Tesseract OCR – kompilerad till WebAssembly och levererad från den här webbplatsen – känner igen texten på varje sida lokalt; språkmodellen laddas också från den här webbplatsen, inte från ett tredjeparts-CDN.
  5. Den igenkända texten visas per sida och erbjuds som en .txt-nedladdning.

Frequently asked questions

Hur skiljer sig det här från andra PDF-verktyg online?
De flesta PDF-verktyg online skickar dina filer till en fjärrserver för bearbetning. Det här verktyget bearbetar allt lokalt i din webbläsare med JavaScript på klientsidan. Dina filer överförs inte till någon server, vilket innebär att innehållet i dina dokument förblir under din kontroll.
Laddas mina PDF-filer upp?
Nej. Dina filer läses direkt av din webbläsare. Ingenting överförs via nätverket. Verktyget fungerar helt och hållet inuti den webbläsarflik du har öppen.
Kan jag kontrollera att filerna inte laddas upp?
Ja. Öppna webbläsarens utvecklarverktyg (F12), gå till fliken Nätverk (Network) och håll utkik efter utgående anrop medan du använder verktyget. Du kommer inte att se någon fildata lämna din webbläsare. Alla åtgärder slutförs utan nätverksaktivitet.
Fungerar verktyget offline?
Ja, när sidan väl har laddats körs verktyget helt i din webbläsare utan någon nätverksanslutning. Du kan koppla bort dig från internet och fortsätta att använda det.
Vad händer när jag laddar om sidan?
Eftersom ingenting lagras på en server rensas din nuvarande session när sidan laddas om. De filer du hade valt måste väljas på nytt.
Lagrar verktyget mina filer?
Nej. Filerna hålls bara i webbläsarens minne så länge sidan är öppen. När du stänger eller laddar om sidan kasseras de. Verktyget skriver ingenting till disk och skickar ingenting till en server.
Kan det här verktyget låsa upp lösenordsskyddade PDF-filer?
Nej. Det här verktyget försöker inte ta bort eller kringgå lösenordsskyddet i en PDF. Om du kan lösenordet kan verktyget Lås upp PDF på den här webbplatsen ta bort det lokalt; därefter kan det här verktyget bearbeta filen.
Vilken teknik använder verktyget?
Det här verktyget använder pdf.js för att rendera sidor och Tesseract OCR-motorn kompilerad till WebAssembly (tesseract.js) som körs i en Web Worker på samma ursprung – ingen server är inblandad.
Använder verktyget WebAssembly?
Ja – det här är ett av de få verktygen här som gör det. Tesseract OCR-motorn är C++ kompilerad till WebAssembly och körs inuti din webbläsare; .wasm-binären levereras från den här webbplatsen och ingenting skickas någonstans.
Varför är den första körningen långsammare än de följande?
Vid första användningen laddar din webbläsare ner OCR-motorn och språkmodellen från den här webbplatsen (några megabyte) och kompilerar dem. De cachas sedan, så senare körningar startar mycket snabbare.