OCR σε σαρωμένο PDF με προστασία απορρήτου — Αναγνωρίστε κείμενο στο πρόγραμμα περιήγησής σας
Επιλέξτε ένα σαρωμένο PDF και μια γλώσσα· κάθε σελίδα αποδίδεται και αναγνωρίζεται τοπικά από το Tesseract (μεταγλωττισμένο σε WebAssembly), και το αναγνωρισμένο κείμενο εμφανίζεται και μπορεί να κατέβει ως αρχείο .txt.
How it works
- Επιλέξτε ένα σαρωμένο PDF από τη συσκευή σας και διαλέξτε τη γλώσσα του εγγράφου.
- Το αρχείο διαβάζεται στη μνήμη του προγράμματος περιήγησης — κανένα δεδομένο δεν φεύγει από το πρόγραμμα περιήγησής σας.
- Το pdf.js αποδίδει κάθε σελίδα σε μια εικόνα μέσα σε ένα Web Worker.
- Το Tesseract OCR — μεταγλωττισμένο σε WebAssembly και διανεμημένο από αυτόν τον ιστότοπο — αναγνωρίζει το κείμενο κάθε σελίδας τοπικά· το γλωσσικό μοντέλο φορτώνεται επίσης από αυτόν τον ιστότοπο, όχι από CDN τρίτου.
- Το αναγνωρισμένο κείμενο εμφανίζεται ανά σελίδα και προσφέρεται ως λήψη .txt.
Frequently asked questions
- Σε τι διαφέρει από άλλα online εργαλεία PDF;
- Τα περισσότερα online εργαλεία PDF στέλνουν τα αρχεία σας σε απομακρυσμένο διακομιστή για επεξεργασία. Αυτό το εργαλείο επεξεργάζεται τα πάντα τοπικά στο πρόγραμμα περιήγησής σας με JavaScript στην πλευρά του πελάτη. Τα αρχεία σας δεν μεταδίδονται σε κανέναν διακομιστή, που σημαίνει ότι το περιεχόμενο των εγγράφων σας παραμένει εξ ολοκλήρου υπό τον έλεγχό σας.
- Ανεβαίνουν τα αρχεία PDF μου;
- Όχι. Τα αρχεία σας διαβάζονται απευθείας από το πρόγραμμα περιήγησής σας. Τίποτα δεν μεταδίδεται μέσω δικτύου. Το εργαλείο λειτουργεί εξ ολοκλήρου μέσα στην καρτέλα του προγράμματος περιήγησης που έχετε ανοιχτή.
- Μπορώ να επαληθεύσω ότι τα αρχεία δεν ανεβαίνουν;
- Ναι. Ανοίξτε τα εργαλεία προγραμματιστή του προγράμματος περιήγησής σας (F12), μεταβείτε στην καρτέλα Network (Δίκτυο) και παρακολουθήστε για τυχόν εξερχόμενα αιτήματα ενόσω χρησιμοποιείτε το εργαλείο. Δεν θα δείτε δεδομένα αρχείων να φεύγουν από το πρόγραμμα περιήγησής σας. Όλες οι λειτουργίες ολοκληρώνονται χωρίς δραστηριότητα δικτύου.
- Λειτουργεί το εργαλείο εκτός σύνδεσης;
- Ναι, μόλις φορτωθεί η σελίδα το εργαλείο εκτελείται εξ ολοκλήρου στο πρόγραμμα περιήγησής σας χωρίς καμία σύνδεση δικτύου. Μπορείτε να αποσυνδεθείτε από το διαδίκτυο και να συνεχίσετε να το χρησιμοποιείτε.
- Τι συμβαίνει όταν ανανεώσω τη σελίδα;
- Επειδή τίποτα δεν αποθηκεύεται σε διακομιστή, η ανανέωση της σελίδας εκκαθαρίζει την τρέχουσα συνεδρία σας. Όποια αρχεία είχατε επιλέξει θα χρειαστεί να τα επιλέξετε ξανά.
- Αποθηκεύει το εργαλείο τα αρχεία μου;
- Όχι. Τα αρχεία διατηρούνται στη μνήμη του προγράμματος περιήγησης μόνο για όσο διάστημα η σελίδα είναι ανοιχτή. Το κλείσιμο ή η ανανέωση της σελίδας τα απορρίπτει. Τίποτα δεν γράφεται στον δίσκο από το εργαλείο και τίποτα δεν αποστέλλεται σε διακομιστή.
- Μπορεί αυτό το εργαλείο να ξεκλειδώσει PDF που προστατεύονται με κωδικό;
- Όχι. Αυτό το εργαλείο δεν επιχειρεί να αφαιρέσει ή να παρακάμψει την προστασία με κωδικό του PDF. Αν γνωρίζετε τον κωδικό, το εργαλείο Ξεκλειδώματος PDF αυτού του ιστότοπου μπορεί να τον αφαιρέσει τοπικά· στη συνέχεια αυτό το εργαλείο μπορεί να επεξεργαστεί το αρχείο.
- Ποιες τεχνολογίες χρησιμοποιεί αυτό το εργαλείο;
- Αυτό το εργαλείο χρησιμοποιεί το pdf.js για να αποδώσει τις σελίδες και τη μηχανή Tesseract OCR μεταγλωττισμένη σε WebAssembly (tesseract.js) που τρέχει σε ένα Web Worker ίδιας προέλευσης — δεν εμπλέκεται διακομιστής.
- Χρησιμοποιεί αυτό το εργαλείο WebAssembly;
- Ναι — αυτό είναι ένα από τα λίγα εργαλεία εδώ που το κάνει. Η μηχανή Tesseract OCR είναι C++ μεταγλωττισμένη σε WebAssembly και τρέχει μέσα στο πρόγραμμα περιήγησής σας· το δυαδικό αρχείο .wasm διανέμεται από αυτόν τον ιστότοπο και τίποτα δεν αποστέλλεται οπουδήποτε.
- Γιατί η πρώτη εκτέλεση είναι πιο αργή από τις επόμενες;
- Στην πρώτη χρήση το πρόγραμμα περιήγησής σας κατεβάζει τη μηχανή OCR και το γλωσσικό μοντέλο από αυτόν τον ιστότοπο (μερικά megabyte) και τα μεταγλωττίζει. Στη συνέχεια αποθηκεύονται στην προσωρινή μνήμη, οπότε οι επόμενες εκτελέσεις ξεκινούν πολύ ταχύτερα.