OCR một PDF được quét riêng tư — nhận dạng văn bản trong trình duyệt

Chọn một PDF được quét và một ngôn ngữ; mỗi trang được kết xuất và nhận dạng cục bộ bằng Tesseract (biên dịch sang WebAssembly), và văn bản nhận dạng được được hiển thị và có thể tải về dưới dạng tệp .txt.

How it works

  1. Chọn một PDF được quét từ thiết bị của bạn và chọn ngôn ngữ tài liệu.
  2. Tệp được đọc vào bộ nhớ trình duyệt — không có dữ liệu nào rời khỏi trình duyệt của bạn.
  3. pdf.js kết xuất từng trang thành ảnh trong một Web Worker.
  4. Tesseract OCR — được biên dịch sang WebAssembly và phục vụ từ chính trang này — nhận dạng văn bản của từng trang cục bộ; mô hình ngôn ngữ cũng được tải từ chính trang này, không phải từ CDN bên thứ ba.
  5. Văn bản nhận dạng được hiển thị theo từng trang và đưa ra để tải về dưới dạng tệp .txt.

Frequently asked questions

Công cụ này khác gì so với các công cụ PDF trực tuyến khác?
Phần lớn các công cụ PDF trực tuyến gửi tệp của bạn lên máy chủ từ xa để xử lý. Công cụ này xử lý mọi thứ ngay trong trình duyệt của bạn bằng JavaScript phía máy khách. Tệp của bạn không được gửi tới bất kỳ máy chủ nào, nghĩa là nội dung tài liệu hoàn toàn nằm trong tầm kiểm soát của bạn.
Tệp PDF của tôi có bị tải lên không?
Không. Tệp được trình duyệt của bạn đọc trực tiếp. Không có gì được gửi qua mạng. Công cụ hoạt động hoàn toàn trong thẻ trình duyệt mà bạn đang mở.
Tôi có thể kiểm chứng rằng tệp không bị tải lên không?
Có. Mở công cụ dành cho nhà phát triển của trình duyệt (F12), chuyển sang tab Network và theo dõi các yêu cầu gửi đi trong khi dùng công cụ. Bạn sẽ thấy không có dữ liệu tệp nào rời khỏi trình duyệt. Mọi thao tác hoàn tất mà không có hoạt động mạng.
Công cụ này có hoạt động ngoại tuyến không?
Có. Sau khi trang đã tải xong, công cụ chạy hoàn toàn trong trình duyệt mà không cần kết nối mạng. Bạn có thể ngắt kết nối internet và tiếp tục sử dụng.
Điều gì xảy ra khi tôi tải lại trang?
Vì không có gì được lưu trên máy chủ, việc tải lại trang sẽ xóa phiên làm việc hiện tại. Bạn sẽ cần chọn lại bất kỳ tệp nào đã chọn trước đó.
Công cụ này có lưu trữ tệp của tôi không?
Không. Tệp chỉ được giữ trong bộ nhớ trình duyệt trong thời gian trang còn mở. Đóng hoặc tải lại trang sẽ xóa chúng. Công cụ không ghi gì ra ổ đĩa và không gửi gì lên máy chủ.
Công cụ này có mở khóa được PDF bảo vệ bằng mật khẩu không?
Không. Công cụ này không cố gỡ bỏ hay vượt qua bảo vệ mật khẩu của PDF. Nếu bạn biết mật khẩu, công cụ Unlock PDF trên trang này có thể gỡ mật khẩu cục bộ; sau đó công cụ này mới xử lý được tệp.
Công cụ này dùng những công nghệ gì?
Công cụ này dùng pdf.js để kết xuất các trang và bộ máy Tesseract OCR được biên dịch sang WebAssembly (tesseract.js) chạy trong một Web Worker cùng nguồn gốc — không có máy chủ nào tham gia.
Công cụ này có dùng WebAssembly không?
Có — đây là một trong số ít công cụ ở đây có dùng. Bộ máy Tesseract OCR là mã C++ được biên dịch sang WebAssembly và chạy bên trong trình duyệt của bạn; tệp .wasm được phục vụ từ chính trang này và không có gì được gửi đi đâu cả.
Tại sao lần chạy đầu tiên chậm hơn các lần sau?
Trong lần dùng đầu tiên, trình duyệt của bạn tải bộ máy OCR và mô hình ngôn ngữ từ chính trang này (vài megabyte) và biên dịch chúng. Sau đó chúng được lưu vào bộ nhớ đệm, nên các lần chạy sau khởi động nhanh hơn nhiều.