私密对扫描版 PDF 进行 OCR——在浏览器中识别文字

选择一个扫描版 PDF 和一种语言;每一页都在本地由 Tesseract(编译为 WebAssembly)渲染并识别,识别出的文字会显示出来,并可下载为 .txt 文件。

How it works

  1. 从你的设备中选取一个扫描版 PDF 并选择文档语言。
  2. 文件读入浏览器内存——没有数据离开你的浏览器。
  3. pdf.js 在 Web Worker 中将每一页渲染为图片。
  4. Tesseract OCR——编译为 WebAssembly 并由本站提供——在本地识别每一页的文字;语言模型同样从本站加载,而非第三方 CDN。
  5. 识别出的文字会逐页显示,并以 .txt 形式提供下载。

Frequently asked questions

它与其他在线 PDF 工具有什么不同?
多数在线 PDF 工具会把你的文件上传到远程服务器进行处理。本工具采用客户端 JavaScript,所有处理都在你的浏览器本地完成。文件不会被传输到任何服务器,因此文档内容始终掌握在你自己手中。
我的 PDF 文件会被上传吗?
不会。文件由浏览器直接读取,不会通过网络传输。整个工具仅在你打开的这个浏览器标签页内运行。
我能验证文件没有被上传吗?
可以。打开浏览器的开发者工具(F12),切换到 Network(网络)面板,在使用工具时留意是否有外发请求。你会发现没有任何文件数据离开浏览器,所有操作都在没有网络活动的情况下完成。
这个工具能离线使用吗?
可以。页面加载完成后,工具完全在浏览器中运行,无需网络连接。你可以断开网络后继续使用。
刷新页面后会怎样?
由于服务器上没有保存任何内容,刷新页面会清空当前会话。之前选择的文件需要重新选择。
这个工具会保存我的文件吗?
不会。文件仅在页面打开期间保存在浏览器内存中。关闭或刷新页面后即被丢弃。工具不会向磁盘写入任何内容,也不会发送到服务器。
这个工具能解锁有密码保护的 PDF 吗?
不会。本工具不会尝试移除或绕过 PDF 的密码保护。如果你知道密码,可以先用本站的 Unlock PDF 工具在本地移除密码,然后再用本工具处理文件。
这个工具使用了哪些技术?
本工具使用 pdf.js 渲染页面,并使用编译为 WebAssembly 的 Tesseract OCR 引擎(tesseract.js)在同源的 Web Worker 中运行——不涉及任何服务器。
这个工具使用 WebAssembly 吗?
是的——这是本站为数不多确实使用 WebAssembly 的工具之一。Tesseract OCR 引擎是由 C++ 编译为 WebAssembly 的,运行在你的浏览器内;.wasm 二进制文件由本站提供,任何内容都不会被发送到别处。
为什么首次运行比之后的运行更慢?
首次使用时,你的浏览器会从本站下载 OCR 引擎和语言模型(数 MB)并进行编译。之后它们会被缓存,因此后续运行启动会快得多。