OCR отсканированного PDF без передачи данных — распознавайте текст в браузере

Выберите отсканированный PDF и язык; каждая страница рендерится и распознаётся локально движком Tesseract (скомпилированным в WebAssembly), а распознанный текст показывается и доступен для скачивания в виде файла .txt.

How it works

  1. Выберите на устройстве отсканированный PDF и выберите язык документа.
  2. Файл считывается в память браузера — данные не покидают браузер.
  3. pdf.js рендерит каждую страницу в изображение в Web Worker.
  4. Движок Tesseract OCR — скомпилированный в WebAssembly и обслуживаемый с этого сайта — распознаёт текст каждой страницы локально; языковая модель также загружается с этого сайта, а не из стороннего CDN.
  5. Распознанный текст показывается постранично и предлагается для скачивания в виде файла .txt.

Frequently asked questions

Чем это отличается от других онлайн-сервисов для работы с PDF?
Большинство онлайн-сервисов для PDF отправляют ваши файлы на удалённый сервер для обработки. Этот инструмент выполняет все операции локально, в вашем браузере, с помощью клиентского JavaScript. Ваши файлы не передаются ни на какой сервер, поэтому содержимое документа остаётся полностью под вашим контролем.
Загружаются ли мои PDF-файлы куда-либо?
Нет. Ваши файлы читаются непосредственно браузером. По сети ничего не передаётся. Инструмент работает целиком в открытой вкладке браузера.
Могу ли я убедиться, что файлы не загружаются?
Да. Откройте инструменты разработчика в браузере (F12), перейдите на вкладку Network (Сеть) и следите за исходящими запросами во время работы. Вы увидите, что данные файла не покидают браузер. Все операции выполняются без сетевой активности.
Работает ли инструмент офлайн?
Да: после загрузки страницы инструмент работает полностью в браузере без подключения к сети. Можно отключиться от интернета и продолжать пользоваться им.
Что произойдёт, если обновить страницу?
Поскольку на сервере ничего не хранится, обновление страницы сбрасывает текущую сессию. Выбранные файлы придётся выбрать заново.
Хранит ли инструмент мои файлы?
Нет. Файлы находятся в памяти браузера только пока открыта страница. При закрытии или обновлении страницы они удаляются. Инструмент ничего не записывает на диск и ничего не отправляет на сервер.
Может ли этот инструмент снять защиту с PDF, защищённого паролем?
Нет. Этот инструмент не пытается снять или обойти парольную защиту PDF. Если вы знаете пароль, инструмент «Снять пароль» на этом сайте может удалить его локально; после этого данный инструмент сможет обработать файл.
Какие технологии использует инструмент?
Этот инструмент использует pdf.js, чтобы рендерить страницы, и движок Tesseract OCR, скомпилированный в WebAssembly (tesseract.js), работающий в Web Worker того же источника — сервер не задействован.
Использует ли инструмент WebAssembly?
Да — это один из немногих инструментов здесь, который его использует. Движок Tesseract OCR — это код на C++, скомпилированный в WebAssembly, и работает он внутри вашего браузера; бинарный файл .wasm обслуживается с этого сайта, и никуда ничего не отправляется.
Почему первый запуск медленнее последующих?
При первом использовании браузер загружает движок OCR и языковую модель с этого сайта (несколько мегабайт) и компилирует их. Затем они кешируются, поэтому последующие запуски стартуют гораздо быстрее.