OCR на сканиран PDF поверително — разпознаване на текст в браузъра ви

Изберете сканиран PDF и език; всяка страница се визуализира и разпознава локално от Tesseract (компилиран до WebAssembly), а разпознатият текст се показва и може да се изтегли като .txt файл.

How it works

  1. Изберете сканиран PDF от устройството си и изберете езика на документа.
  2. Файлът се чете в паметта на браузъра — никакви данни не напускат браузъра ви.
  3. pdf.js визуализира всяка страница като изображение в Web Worker.
  4. Tesseract OCR — компилиран до WebAssembly и обслужван от този сайт — разпознава текста на всяка страница локално; езиковият модел също се зарежда от този сайт, а не от CDN на трета страна.
  5. Разпознатият текст се показва за всяка страница и се предлага като .txt за изтегляне.

Frequently asked questions

С какво това се различава от другите онлайн PDF инструменти?
Повечето онлайн PDF инструменти изпращат файловете ви към отдалечен сървър за обработка. Този инструмент обработва всичко локално в браузъра ви чрез JavaScript от страна на клиента. Файловете ви не се предават към никакъв сървър, което означава, че съдържанието на документа остава изцяло под ваш контрол.
Файловете ми PDF качват ли се някъде?
Не. Файловете ви се четат директно от браузъра. Нищо не се предава по мрежата. Инструментът работи изцяло в рамките на отворения от вас раздел на браузъра.
Мога ли да проверя, че файловете не се качват?
Да. Отворете инструментите за разработчици на браузъра (F12), отидете в раздела Network и следете за изходящи заявки, докато използвате инструмента. Няма да видите данни от файла да напускат браузъра ви. Всички операции приключват без мрежова активност.
Работи ли този инструмент офлайн?
Да, след като страницата се зареди, инструментът работи изцяло в браузъра ви без никаква мрежова връзка. Може да изключите интернет и да продължите да го използвате.
Какво се случва, когато презаредя страницата?
Тъй като нищо не се съхранява на сървър, презареждането на страницата изчиства текущата ви сесия. Всички файлове, които сте избрали, ще трябва да бъдат избрани отново.
Този инструмент съхранява ли файловете ми?
Не. Файловете се пазят в паметта на браузъра само докато страницата е отворена. Затварянето или презареждането на страницата ги премахва. Инструментът не записва нищо на диска и не изпраща нищо към сървър.
Може ли този инструмент да отключва защитени с парола PDF файлове?
Не. Този инструмент не се опитва да премахне или заобиколи защитата с парола на PDF. Ако знаете паролата, инструментът Отключване на PDF на този сайт може да я премахне локално; след това този инструмент може да обработи файла.
Какви технологии използва този инструмент?
Този инструмент използва pdf.js, за да визуализира страниците, и OCR механизма Tesseract, компилиран до WebAssembly (tesseract.js), който работи в Web Worker от същия източник (same-origin) — не участва сървър.
Този инструмент използва ли WebAssembly?
Да — това е един от малкото инструменти тук, които използват. OCR механизмът Tesseract е C++, компилиран до WebAssembly, и работи вътре в браузъра ви; .wasm двоичният файл се обслужва от този сайт и нищо не се изпраща никъде.
Защо първото изпълнение е по-бавно от следващите?
При първа употреба браузърът ви изтегля OCR механизма и езиковия модел от този сайт (няколко мегабайта) и ги компилира. След това те се кешират, така че по-късните изпълнения започват много по-бързо.