OCR сканованого PDF приватно — розпізнавайте текст у браузері
Виберіть сканований PDF і мову; кожна сторінка відмальовується й розпізнається локально за допомогою Tesseract (скомпільованого у WebAssembly), а розпізнаний текст показується й доступний для завантаження як файл .txt.
How it works
- Виберіть на пристрої сканований PDF і виберіть мову документа.
- Файл зчитується в пам'ять браузера — жодні дані не залишають ваш браузер.
- pdf.js відмальовує кожну сторінку як зображення у Web Worker.
- Tesseract OCR — скомпільований у WebAssembly й поданий із цього сайту — розпізнає текст кожної сторінки локально; мовна модель також завантажується з цього сайту, а не зі стороннього CDN.
- Розпізнаний текст показується посторінково й пропонується для завантаження як файл .txt.
Frequently asked questions
- Чим це відрізняється від інших онлайн-сервісів для PDF?
- Більшість онлайн-сервісів для роботи з PDF надсилають ваші файли на віддалений сервер для обробки. Цей інструмент виконує всі дії локально у вашому браузері за допомогою JavaScript на боці клієнта. Ваші файли не передаються на жоден сервер, тож вміст ваших документів залишається повністю під вашим контролем.
- Чи завантажуються мої PDF-файли на сервер?
- Ні. Ваші файли зчитуються безпосередньо браузером. Нічого не передається мережею. Інструмент працює повністю у відкритій вкладці браузера.
- Чи можу я переконатися, що файли не завантажуються?
- Так. Відкрийте інструменти розробника у браузері (F12), перейдіть на вкладку Network (Мережа) і простежте за вихідними запитами під час роботи з інструментом. Ви побачите, що жодні дані файлів не залишають ваш браузер. Усі операції виконуються без мережевої активності.
- Чи працює цей інструмент офлайн?
- Так. Щойно сторінка завантажилася, інструмент працює повністю у браузері без підключення до мережі. Ви можете від'єднатися від інтернету й продовжувати ним користуватися.
- Що станеться, якщо я оновлю сторінку?
- Оскільки на сервері нічого не зберігається, оновлення сторінки очищає поточний сеанс. Файли, які ви вибрали, доведеться вибрати знову.
- Чи зберігає цей інструмент мої файли?
- Ні. Файли зберігаються в пам'яті браузера лише доти, доки відкрита сторінка. Закриття чи оновлення сторінки видаляє їх. Інструмент нічого не записує на диск і нічого не надсилає на сервер.
- Чи може цей інструмент знімати пароль із захищених PDF?
- Ні. Цей інструмент не намагається зняти чи обійти захист PDF паролем. Якщо ви знаєте пароль, інструмент Зняти пароль з PDF на цьому сайті може видалити його локально, після чого цей інструмент зможе обробити файл.
- Які технології використовує цей інструмент?
- Інструмент використовує pdf.js для відмальовування сторінок та рушій OCR Tesseract, скомпільований у WebAssembly (tesseract.js), що працює в Web Worker того самого джерела — сервер не задіяний.
- Чи використовує цей інструмент WebAssembly?
- Так — це один із небагатьох інструментів тут, які його використовують. Рушій OCR Tesseract — це C++, скомпільований у WebAssembly, що працює у вашому браузері; двійковий файл .wasm подається з цього сайту, і нічого нікуди не надсилається.
- Чому перший запуск повільніший за наступні?
- Під час першого використання браузер завантажує рушій OCR і мовну модель із цього сайту (кілька мегабайтів) і компілює їх. Згодом вони кешуються, тож наступні запуски стартують значно швидше.