OCR сканованого PDF приватно — розпізнавайте текст у браузері

Виберіть сканований PDF і мову; кожна сторінка відмальовується й розпізнається локально за допомогою Tesseract (скомпільованого у WebAssembly), а розпізнаний текст показується й доступний для завантаження як файл .txt.

How it works

  1. Виберіть на пристрої сканований PDF і виберіть мову документа.
  2. Файл зчитується в пам'ять браузера — жодні дані не залишають ваш браузер.
  3. pdf.js відмальовує кожну сторінку як зображення у Web Worker.
  4. Tesseract OCR — скомпільований у WebAssembly й поданий із цього сайту — розпізнає текст кожної сторінки локально; мовна модель також завантажується з цього сайту, а не зі стороннього CDN.
  5. Розпізнаний текст показується посторінково й пропонується для завантаження як файл .txt.

Frequently asked questions

Чим це відрізняється від інших онлайн-сервісів для PDF?
Більшість онлайн-сервісів для роботи з PDF надсилають ваші файли на віддалений сервер для обробки. Цей інструмент виконує всі дії локально у вашому браузері за допомогою JavaScript на боці клієнта. Ваші файли не передаються на жоден сервер, тож вміст ваших документів залишається повністю під вашим контролем.
Чи завантажуються мої PDF-файли на сервер?
Ні. Ваші файли зчитуються безпосередньо браузером. Нічого не передається мережею. Інструмент працює повністю у відкритій вкладці браузера.
Чи можу я переконатися, що файли не завантажуються?
Так. Відкрийте інструменти розробника у браузері (F12), перейдіть на вкладку Network (Мережа) і простежте за вихідними запитами під час роботи з інструментом. Ви побачите, що жодні дані файлів не залишають ваш браузер. Усі операції виконуються без мережевої активності.
Чи працює цей інструмент офлайн?
Так. Щойно сторінка завантажилася, інструмент працює повністю у браузері без підключення до мережі. Ви можете від'єднатися від інтернету й продовжувати ним користуватися.
Що станеться, якщо я оновлю сторінку?
Оскільки на сервері нічого не зберігається, оновлення сторінки очищає поточний сеанс. Файли, які ви вибрали, доведеться вибрати знову.
Чи зберігає цей інструмент мої файли?
Ні. Файли зберігаються в пам'яті браузера лише доти, доки відкрита сторінка. Закриття чи оновлення сторінки видаляє їх. Інструмент нічого не записує на диск і нічого не надсилає на сервер.
Чи може цей інструмент знімати пароль із захищених PDF?
Ні. Цей інструмент не намагається зняти чи обійти захист PDF паролем. Якщо ви знаєте пароль, інструмент Зняти пароль з PDF на цьому сайті може видалити його локально, після чого цей інструмент зможе обробити файл.
Які технології використовує цей інструмент?
Інструмент використовує pdf.js для відмальовування сторінок та рушій OCR Tesseract, скомпільований у WebAssembly (tesseract.js), що працює в Web Worker того самого джерела — сервер не задіяний.
Чи використовує цей інструмент WebAssembly?
Так — це один із небагатьох інструментів тут, які його використовують. Рушій OCR Tesseract — це C++, скомпільований у WebAssembly, що працює у вашому браузері; двійковий файл .wasm подається з цього сайту, і нічого нікуди не надсилається.
Чому перший запуск повільніший за наступні?
Під час першого використання браузер завантажує рушій OCR і мовну модель із цього сайту (кілька мегабайтів) і компілює їх. Згодом вони кешуються, тож наступні запуски стартують значно швидше.