OCR zeskanowanego PDF z poszanowaniem prywatności — rozpoznawaj tekst w przeglądarce
Wybierz zeskanowany plik PDF i język; każda strona jest renderowana i rozpoznawana lokalnie przez Tesseract (skompilowany do WebAssembly), a rozpoznany tekst jest wyświetlany i można go pobrać jako plik .txt.
How it works
- Wybierz zeskanowany plik PDF z urządzenia i wybierz język dokumentu.
- Plik jest wczytywany do pamięci przeglądarki — żadne dane nie opuszczają przeglądarki.
- pdf.js renderuje każdą stronę do obrazu w Web Workerze.
- Tesseract OCR — skompilowany do WebAssembly i udostępniany z tej witryny — rozpoznaje tekst każdej strony lokalnie; model językowy również jest wczytywany z tej witryny, a nie z zewnętrznego CDN.
- Rozpoznany tekst jest wyświetlany dla każdej strony i udostępniany do pobrania jako plik .txt.
Frequently asked questions
- Czym ten serwis różni się od innych narzędzi PDF online?
- Większość internetowych narzędzi PDF wysyła Twoje pliki na zdalny serwer w celu przetworzenia. To narzędzie przetwarza wszystko lokalnie w Twojej przeglądarce, korzystając z JavaScriptu działającego po stronie klienta. Twoje pliki nie są przesyłane na żaden serwer, więc zawartość dokumentów pozostaje całkowicie pod Twoją kontrolą.
- Czy moje pliki PDF są wysyłane na serwer?
- Nie. Twoje pliki są odczytywane bezpośrednio przez przeglądarkę. Nic nie jest przesyłane przez sieć. Narzędzie działa w całości w otwartej karcie przeglądarki.
- Czy mogę sprawdzić, że pliki nie są wysyłane?
- Tak. Otwórz narzędzia deweloperskie przeglądarki (F12), przejdź do zakładki Sieć (Network) i obserwuj wychodzące żądania podczas korzystania z narzędzia. Zobaczysz, że żadne dane plików nie opuszczają przeglądarki. Wszystkie operacje kończą się bez aktywności sieciowej.
- Czy narzędzie działa offline?
- Tak. Po wczytaniu strony narzędzie działa w całości w przeglądarce, bez połączenia z siecią. Możesz odłączyć się od internetu i nadal z niego korzystać.
- Co się stanie, gdy odświeżę stronę?
- Ponieważ nic nie jest zapisywane na serwerze, odświeżenie strony kończy bieżącą sesję. Wybrane wcześniej pliki trzeba będzie wybrać ponownie.
- Czy narzędzie przechowuje moje pliki?
- Nie. Pliki znajdują się w pamięci przeglądarki tylko tak długo, jak długo strona jest otwarta. Zamknięcie lub odświeżenie strony je usuwa. Narzędzie nie zapisuje niczego na dysku ani nie wysyła niczego na serwer.
- Czy to narzędzie może odblokować pliki PDF chronione hasłem?
- Nie. To narzędzie nie usuwa ani nie omija ochrony hasłem w plikach PDF. Jeśli znasz hasło, narzędzie Odblokuj PDF na tej stronie może je usunąć lokalnie, a wtedy to narzędzie przetworzy plik.
- Z jakich technologii korzysta to narzędzie?
- To narzędzie korzysta z pdf.js do renderowania stron oraz z silnika Tesseract OCR skompilowanego do WebAssembly (tesseract.js) działającego w Web Workerze tego samego pochodzenia (same-origin) — nie korzysta z żadnego serwera.
- Czy narzędzie korzysta z WebAssembly?
- Tak — to jedno z nielicznych narzędzi tutaj, które tego używa. Silnik Tesseract OCR to kod C++ skompilowany do WebAssembly i działający w Twojej przeglądarce; plik binarny .wasm jest udostępniany z tej witryny i nic nie jest nigdzie wysyłane.
- Dlaczego pierwsze uruchomienie jest wolniejsze niż kolejne?
- Przy pierwszym użyciu przeglądarka pobiera z tej witryny silnik OCR i model językowy (kilka megabajtów) oraz je kompiluje. Są one potem zapisywane w pamięci podręcznej, więc kolejne uruchomienia startują znacznie szybciej.