Kør OCR på en scannet PDF privat — genkend tekst i din browser

Vælg en scannet PDF og et sprog; hver side gengives og genkendes lokalt af Tesseract (kompileret til WebAssembly), og den genkendte tekst vises og kan hentes som en .txt-fil.

How it works

  1. Vælg en scannet PDF fra din enhed, og vælg dokumentets sprog.
  2. Filen læses ind i browserens hukommelse — ingen data forlader din browser.
  3. pdf.js gengiver hver side til et billede i en Web Worker.
  4. Tesseract OCR — kompileret til WebAssembly og leveret fra dette websted — genkender teksten på hver side lokalt; sprogmodellen indlæses også fra dette websted, ikke et tredjeparts-CDN.
  5. Den genkendte tekst vises per side og tilbydes som en .txt-download.

Frequently asked questions

Hvordan adskiller dette sig fra andre online PDF-værktøjer?
De fleste online PDF-værktøjer sender dine filer til en ekstern server for at behandle dem. Dette værktøj behandler alt lokalt i din browser med JavaScript på klientsiden. Dine filer sendes ikke til nogen server, så indholdet af dine dokumenter forbliver under din kontrol.
Bliver mine PDF-filer uploadet?
Nej. Dine filer læses direkte af din browser. Intet sendes over netværket. Værktøjet arbejder udelukkende i den browserfane, du har åben.
Kan jeg kontrollere, at filerne ikke uploades?
Ja. Åbn din browsers udviklerværktøjer (F12), gå til fanen Netværk, og hold øje med eventuelle udgående anmodninger, mens du bruger værktøjet. Du vil ikke se nogen fildata forlade din browser. Alle handlinger fuldføres uden netværksaktivitet.
Virker værktøjet offline?
Ja. Når siden først er indlæst, kører værktøjet helt i din browser uden nogen netværksforbindelse. Du kan koble dig fra internettet og fortsætte med at bruge det.
Hvad sker der, når jeg genindlæser siden?
Da intet gemmes på en server, rydder en genindlæsning af siden din aktuelle session. Filer, du havde valgt, skal vælges igen.
Gemmer værktøjet mine filer?
Nej. Filerne ligger kun i browserens hukommelse, så længe siden er åben. Når du lukker eller genindlæser siden, kasseres de. Værktøjet skriver intet til disken, og intet sendes til en server.
Kan dette værktøj låse adgangskodebeskyttede PDF-filer op?
Nej. Dette værktøj forsøger ikke at fjerne eller omgå adgangskodebeskyttelse i PDF-filer. Hvis du kender adgangskoden, kan værktøjet Lås PDF op her på siden fjerne den lokalt, hvorefter dette værktøj kan behandle filen.
Hvilke teknologier bruger værktøjet?
Dette værktøj bruger pdf.js til at gengive sider og Tesseract OCR-motoren kompileret til WebAssembly (tesseract.js), der kører i en Web Worker med samme oprindelse — der er ingen server involveret.
Bruger værktøjet WebAssembly?
Ja — dette er et af de få værktøjer her, der gør. Tesseract OCR-motoren er C++ kompileret til WebAssembly og kører inde i din browser; .wasm-binærfilen leveres fra dette websted, og intet sendes nogen steder hen.
Hvorfor er den første kørsel langsommere end de efterfølgende?
Ved første brug downloader din browser OCR-motoren og sprogmodellen fra dette websted (nogle få megabyte) og kompilerer dem. De caches bagefter, så senere kørsler starter meget hurtigere.