OCR на сканиран PDF поверително — разпознаване на текст в браузъра ви
Изберете сканиран PDF и език; всяка страница се визуализира и разпознава локално от Tesseract (компилиран до WebAssembly), а разпознатият текст се показва и може да се изтегли като .txt файл.
How it works
- Изберете сканиран PDF от устройството си и изберете езика на документа.
- Файлът се чете в паметта на браузъра — никакви данни не напускат браузъра ви.
- pdf.js визуализира всяка страница като изображение в Web Worker.
- Tesseract OCR — компилиран до WebAssembly и обслужван от този сайт — разпознава текста на всяка страница локално; езиковият модел също се зарежда от този сайт, а не от CDN на трета страна.
- Разпознатият текст се показва за всяка страница и се предлага като .txt за изтегляне.
Frequently asked questions
- С какво това се различава от другите онлайн PDF инструменти?
- Повечето онлайн PDF инструменти изпращат файловете ви към отдалечен сървър за обработка. Този инструмент обработва всичко локално в браузъра ви чрез JavaScript от страна на клиента. Файловете ви не се предават към никакъв сървър, което означава, че съдържанието на документа остава изцяло под ваш контрол.
- Файловете ми PDF качват ли се някъде?
- Не. Файловете ви се четат директно от браузъра. Нищо не се предава по мрежата. Инструментът работи изцяло в рамките на отворения от вас раздел на браузъра.
- Мога ли да проверя, че файловете не се качват?
- Да. Отворете инструментите за разработчици на браузъра (F12), отидете в раздела Network и следете за изходящи заявки, докато използвате инструмента. Няма да видите данни от файла да напускат браузъра ви. Всички операции приключват без мрежова активност.
- Работи ли този инструмент офлайн?
- Да, след като страницата се зареди, инструментът работи изцяло в браузъра ви без никаква мрежова връзка. Може да изключите интернет и да продължите да го използвате.
- Какво се случва, когато презаредя страницата?
- Тъй като нищо не се съхранява на сървър, презареждането на страницата изчиства текущата ви сесия. Всички файлове, които сте избрали, ще трябва да бъдат избрани отново.
- Този инструмент съхранява ли файловете ми?
- Не. Файловете се пазят в паметта на браузъра само докато страницата е отворена. Затварянето или презареждането на страницата ги премахва. Инструментът не записва нищо на диска и не изпраща нищо към сървър.
- Може ли този инструмент да отключва защитени с парола PDF файлове?
- Не. Този инструмент не се опитва да премахне или заобиколи защитата с парола на PDF. Ако знаете паролата, инструментът Отключване на PDF на този сайт може да я премахне локално; след това този инструмент може да обработи файла.
- Какви технологии използва този инструмент?
- Този инструмент използва pdf.js, за да визуализира страниците, и OCR механизма Tesseract, компилиран до WebAssembly (tesseract.js), който работи в Web Worker от същия източник (same-origin) — не участва сървър.
- Този инструмент използва ли WebAssembly?
- Да — това е един от малкото инструменти тук, които използват. OCR механизмът Tesseract е C++, компилиран до WebAssembly, и работи вътре в браузъра ви; .wasm двоичният файл се обслужва от този сайт и нищо не се изпраща никъде.
- Защо първото изпълнение е по-бавно от следващите?
- При първа употреба браузърът ви изтегля OCR механизма и езиковия модел от този сайт (няколко мегабайта) и ги компилира. След това те се кешират, така че по-късните изпълнения започват много по-бързо.