Taranmış Bir PDF'e Gizlilikle OCR Uygula — Metni Tarayıcınızda Tanı

Taranmış bir PDF ve bir dil seçin; her sayfa, Tesseract (WebAssembly'ye derlenmiş) tarafından yerel olarak işlenip tanınır ve tanınan metin gösterilip .txt dosyası olarak indirilebilir.

How it works

  1. Cihazınızdan taranmış bir PDF seçin ve belge dilini belirleyin.
  2. Dosya tarayıcı belleğine okunur — hiçbir veri tarayıcınızdan çıkmaz.
  3. pdf.js her sayfayı bir Web Worker içinde bir görüntüye işler.
  4. WebAssembly'ye derlenmiş ve bu siteden sunulan Tesseract OCR, her sayfanın metnini yerel olarak tanır; dil modeli de üçüncü taraf bir CDN'den değil, bu siteden yüklenir.
  5. Tanınan metin sayfa sayfa gösterilir ve bir .txt indirmesi olarak sunulur.

Frequently asked questions

Diğer çevrimiçi PDF araçlarından farkı nedir?
Çoğu çevrimiçi PDF aracı, dosyalarınızı işlemek için uzak bir sunucuya gönderir. Bu araç ise her şeyi istemci tarafı JavaScript ile tarayıcınızın içinde, yerel olarak işler. Dosyalarınız hiçbir sunucuya iletilmez; böylece belge içeriğiniz tamamen sizin denetiminizde kalır.
PDF dosyalarım sunucuya yükleniyor mu?
Hayır. Dosyalarınız doğrudan tarayıcınız tarafından okunur. Ağ üzerinden hiçbir veri iletilmez. Araç, tamamen açık olan tarayıcı sekmesinin içinde çalışır.
Dosyaların yüklenmediğini kendim doğrulayabilir miyim?
Evet. Tarayıcınızın geliştirici araçlarını (F12) açın, Network (Ağ) sekmesine geçin ve aracı kullanırken giden istekleri izleyin. Hiçbir dosya verisinin tarayıcınızdan çıkmadığını görürsünüz. Tüm işlemler ağ etkinliği olmadan tamamlanır.
Bu araç çevrimdışı çalışır mı?
Evet, sayfa bir kez yüklendikten sonra araç hiçbir ağ bağlantısı gerektirmeden tamamen tarayıcınızda çalışır. İnternet bağlantınızı kesip kullanmaya devam edebilirsiniz.
Sayfayı yenilediğimde ne olur?
Sunucuda hiçbir şey saklanmadığı için sayfayı yenilemek geçerli oturumunuzu temizler. Seçtiğiniz dosyaları yeniden seçmeniz gerekir.
Bu araç dosyalarımı saklıyor mu?
Hayır. Dosyalar yalnızca sayfa açık kaldığı sürece tarayıcı belleğinde tutulur. Sayfayı kapatmak veya yenilemek bunları siler. Araç diske hiçbir şey yazmaz ve sunucuya hiçbir şey göndermez.
Bu araç parola korumalı PDF'lerin kilidini açabilir mi?
Hayır. Bu araç PDF parola korumasını kaldırmaya veya aşmaya çalışmaz. Parolayı biliyorsanız, bu sitedeki Kilit Açma (Unlock PDF) aracı parolayı yerel olarak kaldırabilir; ardından bu araç dosyayı işleyebilir.
Bu araç hangi teknolojileri kullanıyor?
Bu araç, sayfaları işlemek için pdf.js ve aynı kaynaklı bir Web Worker içinde çalışan, WebAssembly'ye derlenmiş Tesseract OCR motorunu (tesseract.js) kullanır — hiçbir sunucu kullanılmaz.
Bu araç WebAssembly kullanıyor mu?
Evet — bunu yapan az sayıdaki araçtan biri budur. Tesseract OCR motoru, WebAssembly'ye derlenmiş C++ kodudur ve tarayıcınızın içinde çalışır; .wasm ikili dosyası bu siteden sunulur ve hiçbir şey hiçbir yere gönderilmez.
İlk çalıştırma neden sonrakilerden daha yavaş?
İlk kullanımda tarayıcınız OCR motorunu ve dil modelini bu siteden (birkaç megabayt) indirir ve derler. Bunlar sonrasında önbelleğe alınır; bu yüzden sonraki çalıştırmalar çok daha hızlı başlar.