OCR PDF yang Diimbas Secara Peribadi — Cam Teks dalam Pelayar Anda
Pilih PDF yang diimbas dan satu bahasa; setiap halaman dipaparkan dan dicam secara setempat oleh Tesseract (dikompil kepada WebAssembly), dan teks yang dicam ditunjukkan serta boleh dimuat turun sebagai fail .txt.
How it works
- Pilih PDF yang diimbas daripada peranti anda dan pilih bahasa dokumen.
- Fail dibaca ke dalam memori pelayar — tiada data keluar daripada pelayar anda.
- pdf.js memaparkan setiap halaman ke imej dalam Web Worker.
- OCR Tesseract — dikompil kepada WebAssembly dan disajikan daripada laman ini — mencam teks setiap halaman secara setempat; model bahasa juga dimuatkan daripada laman ini, bukan CDN pihak ketiga.
- Teks yang dicam ditunjukkan bagi setiap halaman dan ditawarkan sebagai muat turun .txt.
Frequently asked questions
- Apa bezanya alat ini dengan alat PDF dalam talian yang lain?
- Kebanyakan alat PDF dalam talian menghantar fail anda ke pelayan jauh untuk diproses. Alat ini memproses segala-galanya secara setempat dalam pelayar anda menggunakan JavaScript sisi pelanggan. Fail anda tidak pernah dihantar ke mana-mana pelayan, jadi kandungan dokumen anda kekal sepenuhnya di bawah kawalan anda.
- Adakah fail PDF saya dimuat naik?
- Tidak. Fail anda dibaca terus oleh pelayar anda. Tiada apa-apa dihantar melalui rangkaian. Alat ini berfungsi sepenuhnya dalam tab pelayar yang anda buka.
- Bolehkah saya sahkan bahawa fail tidak dimuat naik?
- Boleh. Buka alat pembangun pelayar anda (F12), pergi ke tab Network, dan perhatikan jika ada sebarang permintaan keluar semasa menggunakan alat ini. Anda akan dapati tiada data fail keluar daripada pelayar anda. Semua operasi selesai tanpa sebarang aktiviti rangkaian.
- Adakah alat ini berfungsi secara luar talian?
- Ya. Sebaik sahaja halaman selesai dimuatkan, alat ini berjalan sepenuhnya dalam pelayar anda tanpa sebarang sambungan rangkaian. Anda boleh memutuskan sambungan internet dan terus menggunakannya.
- Apa yang berlaku apabila saya muat semula halaman?
- Oleh sebab tiada apa-apa disimpan pada pelayan, memuat semula halaman akan mengosongkan sesi semasa anda. Fail yang telah anda pilih perlu dipilih semula.
- Adakah alat ini menyimpan fail saya?
- Tidak. Fail disimpan dalam memori pelayar hanya selagi halaman dibuka. Menutup atau memuat semula halaman akan membuangnya. Alat ini tidak menulis apa-apa ke cakera, dan tiada apa-apa dihantar ke pelayan.
- Bolehkah alat ini membuka kunci PDF yang dilindungi kata laluan?
- Tidak. Alat ini tidak cuba membuang atau memintas perlindungan kata laluan PDF. Jika anda tahu kata laluannya, alat Buka Kunci PDF di laman ini boleh membuangnya secara setempat; selepas itu alat ini boleh memproses fail tersebut.
- Teknologi apa yang digunakan oleh alat ini?
- Alat ini menggunakan pdf.js untuk memaparkan halaman dan enjin OCR Tesseract yang dikompil kepada WebAssembly (tesseract.js) yang berjalan dalam Web Worker asal-sama — tiada pelayan terlibat.
- Adakah alat ini menggunakan WebAssembly?
- Ya — ini ialah salah satu daripada beberapa alat di sini yang menggunakannya. Enjin OCR Tesseract ialah kod C++ yang dikompil kepada WebAssembly dan berjalan di dalam pelayar anda; binari .wasm disajikan daripada laman ini dan tiada apa-apa dihantar ke mana-mana.
- Mengapa larian pertama lebih perlahan berbanding larian seterusnya?
- Pada penggunaan pertama, pelayar anda memuat turun enjin OCR dan model bahasa daripada laman ini (beberapa megabait) dan mengkompilnya. Selepas itu ia disimpan dalam cache, jadi larian seterusnya bermula jauh lebih pantas.