ทำ OCR กับ PDF ที่สแกนอย่างเป็นส่วนตัว — รู้จำข้อความในเบราว์เซอร์ของคุณ
เลือก PDF ที่สแกนและภาษา แต่ละหน้าจะถูกเรนเดอร์และรู้จำในเครื่องโดย Tesseract (คอมไพล์เป็น WebAssembly) และข้อความที่รู้จำได้จะถูกแสดงและดาวน์โหลดเป็นไฟล์ .txt ได้
How it works
- เลือก PDF ที่สแกนจากอุปกรณ์ของคุณและเลือกภาษาของเอกสาร
- ไฟล์จะถูกอ่านเข้าหน่วยความจำของเบราว์เซอร์ — ไม่มีข้อมูลออกจากเบราว์เซอร์ของคุณ
- pdf.js จะเรนเดอร์แต่ละหน้าเป็นรูปภาพใน Web Worker
- Tesseract OCR — คอมไพล์เป็น WebAssembly และเสิร์ฟจากเว็บไซต์นี้ — จะรู้จำข้อความของแต่ละหน้าในเครื่อง โมเดลภาษาก็โหลดจากเว็บไซต์นี้เช่นกัน ไม่ใช่ CDN ของบุคคลที่สาม
- ข้อความที่รู้จำได้จะถูกแสดงทีละหน้าและเสนอเป็นไฟล์ .txt ให้ดาวน์โหลด
Frequently asked questions
- เครื่องมือนี้ต่างจากเครื่องมือ PDF ออนไลน์อื่นอย่างไร
- เครื่องมือ PDF ออนไลน์ส่วนใหญ่จะส่งไฟล์ของคุณไปประมวลผลที่เซิร์ฟเวอร์ระยะไกล แต่เครื่องมือนี้ประมวลผลทุกอย่างในเบราว์เซอร์ของคุณด้วย JavaScript ที่ทำงานฝั่งไคลเอนต์ ไฟล์ของคุณจะไม่ถูกส่งไปยังเซิร์ฟเวอร์ใด ๆ ซึ่งหมายความว่าเนื้อหาเอกสารยังคงอยู่ในการควบคุมของคุณทั้งหมด
- ไฟล์ PDF ของฉันถูกอัปโหลดไหม
- ไม่ เบราว์เซอร์ของคุณอ่านไฟล์โดยตรง ไม่มีการส่งข้อมูลผ่านเครือข่าย เครื่องมือนี้ทำงานภายในแท็บเบราว์เซอร์ที่คุณเปิดอยู่ทั้งหมด
- ฉันตรวจสอบได้ไหมว่าไฟล์ไม่ได้ถูกอัปโหลด
- ได้ เปิดเครื่องมือสำหรับนักพัฒนาในเบราว์เซอร์ (F12) ไปที่แท็บ Network แล้วเฝ้าดูคำขอที่ส่งออกใด ๆ ระหว่างที่ใช้งานเครื่องมือ คุณจะเห็นว่าไม่มีข้อมูลไฟล์ออกจากเบราว์เซอร์ การทำงานทั้งหมดเสร็จสิ้นโดยไม่มีกิจกรรมบนเครือข่าย
- เครื่องมือนี้ใช้งานแบบออฟไลน์ได้ไหม
- ได้ เมื่อหน้าเว็บโหลดเสร็จแล้ว เครื่องมือจะทำงานในเบราว์เซอร์ของคุณทั้งหมดโดยไม่ต้องเชื่อมต่อเครือข่าย คุณสามารถตัดการเชื่อมต่ออินเทอร์เน็ตแล้วใช้งานต่อได้
- เกิดอะไรขึ้นเมื่อฉันรีเฟรชหน้าเว็บ
- เนื่องจากไม่มีการเก็บข้อมูลไว้บนเซิร์ฟเวอร์ การรีเฟรชหน้าเว็บจะล้างเซสชันปัจจุบันของคุณ ไฟล์ที่คุณเลือกไว้จะต้องเลือกใหม่อีกครั้ง
- เครื่องมือนี้เก็บไฟล์ของฉันไว้ไหม
- ไม่ ไฟล์จะถูกเก็บอยู่ในหน่วยความจำของเบราว์เซอร์เฉพาะตราบเท่าที่หน้าเว็บยังเปิดอยู่ การปิดหรือรีเฟรชหน้าจะลบไฟล์เหล่านั้นทิ้ง เครื่องมือไม่ได้เขียนอะไรลงดิสก์ และไม่มีการส่งสิ่งใดไปยังเซิร์ฟเวอร์
- เครื่องมือนี้ปลดล็อกไฟล์ PDF ที่มีรหัสผ่านได้ไหม
- ไม่ เครื่องมือนี้ไม่พยายามลบหรือข้ามการป้องกันด้วยรหัสผ่านของ PDF หากคุณทราบรหัสผ่าน เครื่องมือ Unlock PDF บนเว็บไซต์นี้สามารถลบรหัสผ่านได้ในเครื่องของคุณ จากนั้นเครื่องมือนี้จึงจะประมวลผลไฟล์ได้
- เครื่องมือนี้ใช้เทคโนโลยีอะไร
- เครื่องมือนี้ใช้ pdf.js เพื่อเรนเดอร์หน้า และเอนจิน Tesseract OCR ที่คอมไพล์เป็น WebAssembly (tesseract.js) ทำงานใน Web Worker แบบ same-origin — ไม่มีการใช้เซิร์ฟเวอร์
- เครื่องมือนี้ใช้ WebAssembly ไหม
- ใช่ — นี่เป็นหนึ่งในไม่กี่เครื่องมือที่นี่ที่ใช้ เอนจิน Tesseract OCR เป็น C++ ที่คอมไพล์เป็น WebAssembly และทำงานภายในเบราว์เซอร์ของคุณ ไฟล์ไบนารี .wasm เสิร์ฟจากเว็บไซต์นี้และไม่มีการส่งสิ่งใดไปที่ใด
- ทำไมการใช้งานครั้งแรกจึงช้ากว่าครั้งต่อ ๆ ไป
- ในการใช้งานครั้งแรก เบราว์เซอร์ของคุณจะดาวน์โหลดเอนจิน OCR และโมเดลภาษาจากเว็บไซต์นี้ (ไม่กี่เมกะไบต์) และคอมไพล์ จากนั้นจะถูกแคชไว้ ครั้งต่อ ๆ ไปจึงเริ่มทำงานเร็วขึ้นมาก