Aplicar OCR a un PDF escaneado de forma privada: reconoce texto en tu navegador
Selecciona un PDF escaneado y un idioma; cada página se representa y se reconoce localmente con Tesseract (compilado a WebAssembly), y el texto reconocido se muestra y se puede descargar como archivo .txt.
How it works
- Selecciona un PDF escaneado de tu dispositivo y elige el idioma del documento.
- El archivo se lee en la memoria del navegador: ningún dato sale de tu navegador.
- pdf.js representa cada página como imagen en un Web Worker.
- Tesseract OCR —compilado a WebAssembly y servido desde este sitio— reconoce el texto de cada página localmente; el modelo de idioma también se carga desde este sitio, no desde una CDN de terceros.
- El texto reconocido se muestra por página y se ofrece para descargar como archivo .txt.
Frequently asked questions
- ¿En qué se diferencia de otras herramientas PDF online?
- La mayoría de las herramientas PDF online envían tus archivos a un servidor remoto para procesarlos. Esta herramienta procesa todo localmente en tu navegador mediante JavaScript del lado del cliente. Tus archivos no se transmiten a ningún servidor, de modo que el contenido de tus documentos permanece bajo tu control.
- ¿Se suben mis archivos PDF?
- No. Tu navegador lee los archivos directamente. No se transmite nada por la red. La herramienta funciona por completo dentro de la pestaña del navegador que tienes abierta.
- ¿Puedo comprobar que los archivos no se suben?
- Sí. Abre las herramientas de desarrollo de tu navegador (F12), ve a la pestaña Red (Network) y observa si hay alguna solicitud saliente mientras usas la herramienta. No verás salir ningún dato de archivo de tu navegador. Todas las operaciones se completan sin actividad de red.
- ¿Funciona esta herramienta sin conexión?
- Sí. Una vez cargada la página, la herramienta se ejecuta por completo en tu navegador sin necesidad de conexión. Puedes desconectarte de internet y seguir usándola.
- ¿Qué ocurre cuando actualizo la página?
- Como no se almacena nada en un servidor, al actualizar la página se borra la sesión actual. Tendrás que volver a seleccionar los archivos que tuvieras elegidos.
- ¿Guarda esta herramienta mis archivos?
- No. Los archivos se mantienen en la memoria del navegador solo mientras la página está abierta. Al cerrarla o actualizarla se descartan. La herramienta no escribe nada en disco ni envía nada a un servidor.
- ¿Puede esta herramienta desbloquear PDF protegidos con contraseña?
- No. Esta herramienta no intenta eliminar ni eludir la protección con contraseña de un PDF. Si conoces la contraseña, la herramienta Desbloquear PDF de este sitio puede quitarla localmente; después, esta herramienta podrá procesar el archivo.
- ¿Qué tecnologías utiliza esta herramienta?
- Esta herramienta utiliza pdf.js para representar las páginas y el motor de OCR Tesseract compilado a WebAssembly (tesseract.js) ejecutándose en un Web Worker del mismo origen. No interviene ningún servidor.
- ¿Usa esta herramienta WebAssembly?
- Sí: esta es una de las pocas herramientas aquí que lo usa. El motor de OCR Tesseract es código C++ compilado a WebAssembly y se ejecuta dentro de tu navegador; el binario .wasm se sirve desde este sitio y no se envía nada a ningún sitio.
- ¿Por qué la primera ejecución es más lenta que las siguientes?
- En el primer uso, tu navegador descarga el motor de OCR y el modelo de idioma desde este sitio (unos pocos megabytes) y los compila. Después quedan en caché, por lo que las ejecuciones posteriores empiezan mucho más rápido.