OCR zeskanowanego PDF z poszanowaniem prywatności — rozpoznawaj tekst w przeglądarce

Wybierz zeskanowany plik PDF i język; każda strona jest renderowana i rozpoznawana lokalnie przez Tesseract (skompilowany do WebAssembly), a rozpoznany tekst jest wyświetlany i można go pobrać jako plik .txt.

How it works

  1. Wybierz zeskanowany plik PDF z urządzenia i wybierz język dokumentu.
  2. Plik jest wczytywany do pamięci przeglądarki — żadne dane nie opuszczają przeglądarki.
  3. pdf.js renderuje każdą stronę do obrazu w Web Workerze.
  4. Tesseract OCR — skompilowany do WebAssembly i udostępniany z tej witryny — rozpoznaje tekst każdej strony lokalnie; model językowy również jest wczytywany z tej witryny, a nie z zewnętrznego CDN.
  5. Rozpoznany tekst jest wyświetlany dla każdej strony i udostępniany do pobrania jako plik .txt.

Frequently asked questions

Czym ten serwis różni się od innych narzędzi PDF online?
Większość internetowych narzędzi PDF wysyła Twoje pliki na zdalny serwer w celu przetworzenia. To narzędzie przetwarza wszystko lokalnie w Twojej przeglądarce, korzystając z JavaScriptu działającego po stronie klienta. Twoje pliki nie są przesyłane na żaden serwer, więc zawartość dokumentów pozostaje całkowicie pod Twoją kontrolą.
Czy moje pliki PDF są wysyłane na serwer?
Nie. Twoje pliki są odczytywane bezpośrednio przez przeglądarkę. Nic nie jest przesyłane przez sieć. Narzędzie działa w całości w otwartej karcie przeglądarki.
Czy mogę sprawdzić, że pliki nie są wysyłane?
Tak. Otwórz narzędzia deweloperskie przeglądarki (F12), przejdź do zakładki Sieć (Network) i obserwuj wychodzące żądania podczas korzystania z narzędzia. Zobaczysz, że żadne dane plików nie opuszczają przeglądarki. Wszystkie operacje kończą się bez aktywności sieciowej.
Czy narzędzie działa offline?
Tak. Po wczytaniu strony narzędzie działa w całości w przeglądarce, bez połączenia z siecią. Możesz odłączyć się od internetu i nadal z niego korzystać.
Co się stanie, gdy odświeżę stronę?
Ponieważ nic nie jest zapisywane na serwerze, odświeżenie strony kończy bieżącą sesję. Wybrane wcześniej pliki trzeba będzie wybrać ponownie.
Czy narzędzie przechowuje moje pliki?
Nie. Pliki znajdują się w pamięci przeglądarki tylko tak długo, jak długo strona jest otwarta. Zamknięcie lub odświeżenie strony je usuwa. Narzędzie nie zapisuje niczego na dysku ani nie wysyła niczego na serwer.
Czy to narzędzie może odblokować pliki PDF chronione hasłem?
Nie. To narzędzie nie usuwa ani nie omija ochrony hasłem w plikach PDF. Jeśli znasz hasło, narzędzie Odblokuj PDF na tej stronie może je usunąć lokalnie, a wtedy to narzędzie przetworzy plik.
Z jakich technologii korzysta to narzędzie?
To narzędzie korzysta z pdf.js do renderowania stron oraz z silnika Tesseract OCR skompilowanego do WebAssembly (tesseract.js) działającego w Web Workerze tego samego pochodzenia (same-origin) — nie korzysta z żadnego serwera.
Czy narzędzie korzysta z WebAssembly?
Tak — to jedno z nielicznych narzędzi tutaj, które tego używa. Silnik Tesseract OCR to kod C++ skompilowany do WebAssembly i działający w Twojej przeglądarce; plik binarny .wasm jest udostępniany z tej witryny i nic nie jest nigdzie wysyłane.
Dlaczego pierwsze uruchomienie jest wolniejsze niż kolejne?
Przy pierwszym użyciu przeglądarka pobiera z tej witryny silnik OCR i model językowy (kilka megabajtów) oraz je kompiluje. Są one potem zapisywane w pamięci podręcznej, więc kolejne uruchomienia startują znacznie szybciej.