ทำ OCR กับ PDF ที่สแกนอย่างเป็นส่วนตัว — รู้จำข้อความในเบราว์เซอร์ของคุณ

เลือก PDF ที่สแกนและภาษา แต่ละหน้าจะถูกเรนเดอร์และรู้จำในเครื่องโดย Tesseract (คอมไพล์เป็น WebAssembly) และข้อความที่รู้จำได้จะถูกแสดงและดาวน์โหลดเป็นไฟล์ .txt ได้

How it works

  1. เลือก PDF ที่สแกนจากอุปกรณ์ของคุณและเลือกภาษาของเอกสาร
  2. ไฟล์จะถูกอ่านเข้าหน่วยความจำของเบราว์เซอร์ — ไม่มีข้อมูลออกจากเบราว์เซอร์ของคุณ
  3. pdf.js จะเรนเดอร์แต่ละหน้าเป็นรูปภาพใน Web Worker
  4. Tesseract OCR — คอมไพล์เป็น WebAssembly และเสิร์ฟจากเว็บไซต์นี้ — จะรู้จำข้อความของแต่ละหน้าในเครื่อง โมเดลภาษาก็โหลดจากเว็บไซต์นี้เช่นกัน ไม่ใช่ CDN ของบุคคลที่สาม
  5. ข้อความที่รู้จำได้จะถูกแสดงทีละหน้าและเสนอเป็นไฟล์ .txt ให้ดาวน์โหลด

Frequently asked questions

เครื่องมือนี้ต่างจากเครื่องมือ PDF ออนไลน์อื่นอย่างไร
เครื่องมือ PDF ออนไลน์ส่วนใหญ่จะส่งไฟล์ของคุณไปประมวลผลที่เซิร์ฟเวอร์ระยะไกล แต่เครื่องมือนี้ประมวลผลทุกอย่างในเบราว์เซอร์ของคุณด้วย JavaScript ที่ทำงานฝั่งไคลเอนต์ ไฟล์ของคุณจะไม่ถูกส่งไปยังเซิร์ฟเวอร์ใด ๆ ซึ่งหมายความว่าเนื้อหาเอกสารยังคงอยู่ในการควบคุมของคุณทั้งหมด
ไฟล์ PDF ของฉันถูกอัปโหลดไหม
ไม่ เบราว์เซอร์ของคุณอ่านไฟล์โดยตรง ไม่มีการส่งข้อมูลผ่านเครือข่าย เครื่องมือนี้ทำงานภายในแท็บเบราว์เซอร์ที่คุณเปิดอยู่ทั้งหมด
ฉันตรวจสอบได้ไหมว่าไฟล์ไม่ได้ถูกอัปโหลด
ได้ เปิดเครื่องมือสำหรับนักพัฒนาในเบราว์เซอร์ (F12) ไปที่แท็บ Network แล้วเฝ้าดูคำขอที่ส่งออกใด ๆ ระหว่างที่ใช้งานเครื่องมือ คุณจะเห็นว่าไม่มีข้อมูลไฟล์ออกจากเบราว์เซอร์ การทำงานทั้งหมดเสร็จสิ้นโดยไม่มีกิจกรรมบนเครือข่าย
เครื่องมือนี้ใช้งานแบบออฟไลน์ได้ไหม
ได้ เมื่อหน้าเว็บโหลดเสร็จแล้ว เครื่องมือจะทำงานในเบราว์เซอร์ของคุณทั้งหมดโดยไม่ต้องเชื่อมต่อเครือข่าย คุณสามารถตัดการเชื่อมต่ออินเทอร์เน็ตแล้วใช้งานต่อได้
เกิดอะไรขึ้นเมื่อฉันรีเฟรชหน้าเว็บ
เนื่องจากไม่มีการเก็บข้อมูลไว้บนเซิร์ฟเวอร์ การรีเฟรชหน้าเว็บจะล้างเซสชันปัจจุบันของคุณ ไฟล์ที่คุณเลือกไว้จะต้องเลือกใหม่อีกครั้ง
เครื่องมือนี้เก็บไฟล์ของฉันไว้ไหม
ไม่ ไฟล์จะถูกเก็บอยู่ในหน่วยความจำของเบราว์เซอร์เฉพาะตราบเท่าที่หน้าเว็บยังเปิดอยู่ การปิดหรือรีเฟรชหน้าจะลบไฟล์เหล่านั้นทิ้ง เครื่องมือไม่ได้เขียนอะไรลงดิสก์ และไม่มีการส่งสิ่งใดไปยังเซิร์ฟเวอร์
เครื่องมือนี้ปลดล็อกไฟล์ PDF ที่มีรหัสผ่านได้ไหม
ไม่ เครื่องมือนี้ไม่พยายามลบหรือข้ามการป้องกันด้วยรหัสผ่านของ PDF หากคุณทราบรหัสผ่าน เครื่องมือ Unlock PDF บนเว็บไซต์นี้สามารถลบรหัสผ่านได้ในเครื่องของคุณ จากนั้นเครื่องมือนี้จึงจะประมวลผลไฟล์ได้
เครื่องมือนี้ใช้เทคโนโลยีอะไร
เครื่องมือนี้ใช้ pdf.js เพื่อเรนเดอร์หน้า และเอนจิน Tesseract OCR ที่คอมไพล์เป็น WebAssembly (tesseract.js) ทำงานใน Web Worker แบบ same-origin — ไม่มีการใช้เซิร์ฟเวอร์
เครื่องมือนี้ใช้ WebAssembly ไหม
ใช่ — นี่เป็นหนึ่งในไม่กี่เครื่องมือที่นี่ที่ใช้ เอนจิน Tesseract OCR เป็น C++ ที่คอมไพล์เป็น WebAssembly และทำงานภายในเบราว์เซอร์ของคุณ ไฟล์ไบนารี .wasm เสิร์ฟจากเว็บไซต์นี้และไม่มีการส่งสิ่งใดไปที่ใด
ทำไมการใช้งานครั้งแรกจึงช้ากว่าครั้งต่อ ๆ ไป
ในการใช้งานครั้งแรก เบราว์เซอร์ของคุณจะดาวน์โหลดเอนจิน OCR และโมเดลภาษาจากเว็บไซต์นี้ (ไม่กี่เมกะไบต์) และคอมไพล์ จากนั้นจะถูกแคชไว้ ครั้งต่อ ๆ ไปจึงเริ่มทำงานเร็วขึ้นมาก