スキャンしたPDFを安全にOCR — ブラウザ内で文字を認識
スキャンしたPDFと言語を選ぶと、各ページが描画され、Tesseract(WebAssemblyにコンパイル)によってローカルで認識され、認識されたテキストが表示されて .txt ファイルとしてダウンロードできます。
How it works
- 端末からスキャンしたPDFを選び、文書の言語を選びます。
- ファイルはブラウザのメモリに読み込まれます。データがブラウザの外へ出ることはありません。
- pdf.jsがWeb Worker内で各ページを画像に描画します。
- WebAssemblyにコンパイルされ本サイトから配信されるTesseract OCRが、各ページの文字をローカルで認識します。言語モデルも第三者のCDNではなく本サイトから読み込まれます。
- 認識されたテキストがページごとに表示され、.txt ファイルとしてダウンロードできます。
Frequently asked questions
- ほかのオンラインPDFツールと何が違いますか?
- 多くのオンラインPDFツールは、処理のためにファイルをリモートサーバーへ送信します。本ツールはクライアントサイドのJavaScriptを使い、すべての処理をブラウザ内で完結させます。ファイルがサーバーに送信されることはなく、書類の内容は手元から離れません。
- PDFファイルはアップロードされますか?
- いいえ。ファイルはブラウザが直接読み込みます。ネットワーク経由で送信されることはありません。本ツールは開いているブラウザのタブ内だけで動作します。
- ファイルがアップロードされていないことを自分で確認できますか?
- はい。ブラウザの開発者ツール(F12)を開いてネットワークタブを表示し、ツールの使用中に外部への通信が発生しないかを確認できます。ファイルのデータがブラウザの外へ出ていかないことが分かります。すべての処理は通信なしで完了します。
- オフラインでも使えますか?
- はい。ページの読み込みが終われば、ネットワーク接続がなくてもブラウザ内だけで動作します。インターネットを切断したまま使い続けられます。
- ページを再読み込みするとどうなりますか?
- サーバーには何も保存されないため、ページを再読み込みすると現在の作業内容はリセットされます。選択していたファイルは選び直す必要があります。
- このツールはファイルを保存しますか?
- いいえ。ファイルはページを開いている間だけブラウザのメモリ上に保持されます。ページを閉じたり再読み込みしたりすると破棄されます。ツールがディスクに書き込むことはなく、サーバーへ送信されることもありません。
- パスワード付きPDFのロックを解除できますか?
- いいえ。本ツールはPDFのパスワード保護を解除したり回避したりはしません。パスワードが分かっている場合は、本サイトの「PDFのパスワード解除」ツールでローカルにパスワードを取り除いてから、本ツールで処理できます。
- このツールはどんな技術を使っていますか?
- 本ツールは、pdf.jsでページを描画し、WebAssemblyにコンパイルされたTesseract OCRエンジン(tesseract.js)を同一オリジンのWeb Worker内で動かします。サーバーは介在しません。
- このツールはWebAssemblyを使っていますか?
- はい。本サイトでWebAssemblyを使う数少ないツールのひとつです。Tesseract OCRエンジンはWebAssemblyにコンパイルされたC++で、ブラウザ内で動作します。.wasmバイナリは本サイトから配信され、データがどこかへ送信されることはありません。
- 最初の実行が次回以降より遅いのはなぜですか?
- 初回利用時に、ブラウザがOCRエンジンと言語モデル(数メガバイト)を本サイトから読み込み、コンパイルします。その後はキャッシュされるため、次回以降の起動はずっと速くなります。