Aplicar OCR a un PDF escaneado de forma privada: reconoce texto en tu navegador

Selecciona un PDF escaneado y un idioma; cada página se representa y se reconoce localmente con Tesseract (compilado a WebAssembly), y el texto reconocido se muestra y se puede descargar como archivo .txt.

How it works

  1. Selecciona un PDF escaneado de tu dispositivo y elige el idioma del documento.
  2. El archivo se lee en la memoria del navegador: ningún dato sale de tu navegador.
  3. pdf.js representa cada página como imagen en un Web Worker.
  4. Tesseract OCR —compilado a WebAssembly y servido desde este sitio— reconoce el texto de cada página localmente; el modelo de idioma también se carga desde este sitio, no desde una CDN de terceros.
  5. El texto reconocido se muestra por página y se ofrece para descargar como archivo .txt.

Frequently asked questions

¿En qué se diferencia de otras herramientas PDF online?
La mayoría de las herramientas PDF online envían tus archivos a un servidor remoto para procesarlos. Esta herramienta procesa todo localmente en tu navegador mediante JavaScript del lado del cliente. Tus archivos no se transmiten a ningún servidor, de modo que el contenido de tus documentos permanece bajo tu control.
¿Se suben mis archivos PDF?
No. Tu navegador lee los archivos directamente. No se transmite nada por la red. La herramienta funciona por completo dentro de la pestaña del navegador que tienes abierta.
¿Puedo comprobar que los archivos no se suben?
Sí. Abre las herramientas de desarrollo de tu navegador (F12), ve a la pestaña Red (Network) y observa si hay alguna solicitud saliente mientras usas la herramienta. No verás salir ningún dato de archivo de tu navegador. Todas las operaciones se completan sin actividad de red.
¿Funciona esta herramienta sin conexión?
Sí. Una vez cargada la página, la herramienta se ejecuta por completo en tu navegador sin necesidad de conexión. Puedes desconectarte de internet y seguir usándola.
¿Qué ocurre cuando actualizo la página?
Como no se almacena nada en un servidor, al actualizar la página se borra la sesión actual. Tendrás que volver a seleccionar los archivos que tuvieras elegidos.
¿Guarda esta herramienta mis archivos?
No. Los archivos se mantienen en la memoria del navegador solo mientras la página está abierta. Al cerrarla o actualizarla se descartan. La herramienta no escribe nada en disco ni envía nada a un servidor.
¿Puede esta herramienta desbloquear PDF protegidos con contraseña?
No. Esta herramienta no intenta eliminar ni eludir la protección con contraseña de un PDF. Si conoces la contraseña, la herramienta Desbloquear PDF de este sitio puede quitarla localmente; después, esta herramienta podrá procesar el archivo.
¿Qué tecnologías utiliza esta herramienta?
Esta herramienta utiliza pdf.js para representar las páginas y el motor de OCR Tesseract compilado a WebAssembly (tesseract.js) ejecutándose en un Web Worker del mismo origen. No interviene ningún servidor.
¿Usa esta herramienta WebAssembly?
Sí: esta es una de las pocas herramientas aquí que lo usa. El motor de OCR Tesseract es código C++ compilado a WebAssembly y se ejecuta dentro de tu navegador; el binario .wasm se sirve desde este sitio y no se envía nada a ningún sitio.
¿Por qué la primera ejecución es más lenta que las siguientes?
En el primer uso, tu navegador descarga el motor de OCR y el modelo de idioma desde este sitio (unos pocos megabytes) y los compila. Después quedan en caché, por lo que las ejecuciones posteriores empiezan mucho más rápido.