Άνοιγμα κυρίως μενού

OrthodoxWiki β

Αλλαγές

Χρήστης:Papyrus/Ευρετήριο

1.715 bytes προστέθηκαν, 14:04, 3 Φεβρουαρίου 2010
μ
καμία σύνοψη επεξεργασίας
Ακόμα και στην περίπτωση μιας μικρής προσωπικής βιβλιοθήκης που διαθέτει από 200 έως 500 βιβλία, από κάποιο σημείο και μετά η αναζήτηση των πληροφοριών γίνεται δύσκολη. Έχοντας διαβάσει το κάθε βιβλίο, τη στιγμή που αναζητούμε μια πληροφορία θυμόμαστε ότι ''"κάπου"'' την είχαμε δει, αλλά όσο ο αριθμός των βιβλίων μεγαλώνει, τόσο πιο δύσκολο είναι να θυμηθούμε το ''"πού ακριβώς"''.
Θα ήταν λοιπόν χρήσιμο να δημιουργηθεί μια γενική άποψη του περιεχομένου του κάθε βιβλίου, γρήγορα και εύκολα προσβάσιμη. Θα ονομάσω Μπορούμε να ονομάσουμε αυτή την "γενική άποψη" ως '''"Γνωστικό περίγραμμα"''' του βιβλίου.
Στην εργασία αυτή καλούμαστε να δείξουμε την υπομονή και επιμονή, να πραγματοποιήσουμε για κάθε βιβλίο περίπου 10-20 σαρώσεις με το scanner μας, ώστε να αποθηκεύσουμε στον Η/Υ μας τα καίρια στοιχεία αναζήτησης που περιέχει το κάθε βιβλίο και αποτελούνται από:
'''2.''' Λογισμικό για την ψηφιοποίηση κειμένου (δηλ. για ''αναγνώριση χαρακτήρων'' ή αλλιώς OCR)<br>
:Ένα τέτοιο πρόγραμμα, μπορεί να αναγνωρίσει μέσα σε μια εικόνα, τυπωμένους χαρακτήρες όπως γράμματα, σημεία στίξης κ.λπ. και να τα μετατρέψει σε επεξεργάσιμο κείμενο, σαν να το είχαμε γράψει στον επεξεργαστή κειμένου. Η τεχνολογία αυτή, στην περίπτωσή μας, προσφέρει την εξαιρετική δυνατότητα της εύρεσης λέξεων ή φράσεων μέσα στο κείμενο που έχει περάσει από OCR. Προγράμματα που να αναγνωρίζουν χαρακτήρες υπάρχουν αρκετά. Όμως, κατά την προσωπική μου άποψη η επιλογή ειδικά για αναγνώριση μονοτονικού κειμένου είναι '''μόνο μία''' και λέγεται [http://finereader.abbyy.com Finereader]. Επίσης, αν και δεν υποστηρίζει αναγνώριση πολυτονικού, δίνει πολύ καλά αποτελέσματα, επιστρέφοντας βέβαια κάποια γνωστά προβλήματα. Π.χ. (πολυτ.) ''όταν'' = δταν, (πολυτ.) ''είναι'' = έ'ιναι κ.ά. Οι διορθώσεις όμως που απαιτούνται μετά την αναγνώριση ενός καλοτυπωμένου κειμένου είναι λίγες. Για την αναγνώριση πολυτονικού κειμένου υπάρχει μια λύση ελληνικής μάλιστα κατασκευής, το πρόγραμμα [http://www.ideatech-online.com/index.php?option=com_remository&Itemid=34&func=fileinfo&id=4 Αναγνώστης]. Έχει πολύ καλά αποτελέσματα, όμως η τιμή του είναι αρκετά υψηλή. Προκειμένου για το Finereader, αν και η έκδοση 910.0 είναι η νεώτερη, εντούτοις αν κάποιος δεν χρειάζεται τα επιπλέον χαρακτηριστικάή αν διαθέτει Η/Υ χαμηλών επιδόσεων, θα μπορούσε να προτιμήσει την [http://www.software-magazine.gr/default.asp?id=4&mnu=4&ACT=5&content=202 έκδοση 8.0] καθώς , η οποία είναι αρκετά πιο "ελαφριά" σε απαιτήσεις πόρων του συστήματος. Η Επιπλέον, η έκδοση 8.0, δίνει πολύ καλά αποτελέσματα αναγνώρισης αν οι εικόνες που θα εισάγουμε είναι καλής ποιότητας. Το ''Finereader'', από την έκδοση 9.0 είναι εμφανίζεται αρκετά βελτιωμένη βελτιωμένο σε OCR από εικόνες ψηφιακής φωτογραφικής μηχανής καθώς αυτόματα αμβλύνει τα χρωματικά και άλλα προβλήματα που εμφανίζονται, ενώ έχει βελτιωμένη απόδοση σε εξαιρετικά κακοτυπωμένο κείμενο (κακές φωτοτυπίες, κακοτυπωμένα βιβλία). Βεβαίως η ταχύτητα του προγράμματος υστερεί σημαντικάκατά την προσπάθεια να αναγνωρίσει μια κακή εικόνα. Σε όλες τις άλλες περιπτώσεις κειμένου, οι διαφορές ανάμεσα στα αποτελέσματα των εκδόσεων 8.0, 9.0 και 910.0 είναι σχεδόν ανύπαρκτες ενώ η ταχύτητα της έκδοσης 8.0 είναι σημαντικά υψηλότερη. Η Από την έκδοση 9.0 και εξής, είναι επίσης βελτιωμένη και στην η ανατύπωση πολύπλοκης φόρμας (π.χ. μια φόρμα τιμολογίου ή μια διαφημιστική μπροσούρα). Εδώ θα πρέπει να προσθέσουμε ότι σε περίπτωση που ο Η/Υ μας είναι εφοδιασμένος π.χ. με τους νεότερους τετραπύρηνους επεξεργαστές (''Intel Core 2 Quad''), το ''Finereader'' από την έκδοση 9.0 παρουσιάζει το πλεονέκτημα της πολυεπεξεργασίας. Αυτό σημαίνει ότι κάθε εργασία που επιτελεί το πρόγραμμα ολοκληρώνεται σαν να λειτουργούν τέσσερις διαφορετικοί επεξεργαστές και έχει ως αποτέλεσμα την ταχύτατη ολοκλήρωση του έργου. Αν για παράδειγμα δώσουμε ένα PDF αρχείο προς αναγνώριση, οι σελίδες θα αναγνωρίζονται ανά τέσσερις και πολύ γρήγορα και όχι ανά μία όπως με τους απλούς επεξεργαστές.
==Δημιουργία ψηφιακού ευρετηρίου βιβλιοθήκης==
Οι σελίδες αυτές σαρώνονται με ρύθμιση:
::* Άσπρο-Μαύρο (αγγλ. στα αγγλικά θα αναφέρει «''Black & White ''» ή «''B&W''» ή «''OCR''»)<br>
::* Ανάλυση στα 300 dpi<br>
'''Σκοπός: αποθήκευση ως ασπρόμαυρη εικόνα & πέρασμα από OCR'''
Συνήθως Τις περισσότερες φορές, οι σελίδες αυτές έχουν επάνω φέρουν τον τίτλο ''"Περιεχόμενα" '' και ο αριθμός τους κυμαίνεται. Συνήθως Συχνά αποτελούνται από 2 έως 5 σελίδες, αλλά μπορεί να είναι και περισσότερες. Οι σελίδες αυτές συνήθως περιέχουν τους τίτλους των κεφαλαίων και των ενοτήτων και δίπλα ακριβώς, τον αριθμό της σελίδας που θα τα βρούμε.
Οι σελίδες αυτές σαρώνονται επίσης με ρύθμιση:
::* Άσπρο-Μαύρο (αγγλ. στα αγγλικά θα αναφέρει «''Black & White ''» ή «''B&W''» ή «''OCR''»)<br>
::* Ανάλυση στα 300 dpi<br>
:Κατόπιν, και οι σελίδες αυτές πρέπει να "διαβαστούν" με το πρόγραμμα OCR και να αποθηκευτούν ως αρχείο .doc ή .rtf ή .txt<br><br>
Είναι οι σελίδες που βλέπουμε συνήθως προς το τέλος του βιβλίου και περιέχουν λίστες με σημαντικές λέξεις, ονόματα, χωρία κειμένων κ.ά. και δίπλα τον αριθμό (ή τους αριθμούς) σελίδας που τα βρίσκουμε. Σχεδόν πάντα έχουν επάνω τον τίτλο ''Ευρετήριο''.
Ομοίως, οι σελίδες αυτές σαρώνονται με ρύθμισητου scanner:
::* Άσπρο-Μαύρο (αγγλ. στα αγγλικά θα αναφέρει «''Black & White ''» ή «''B&W''» ή «''OCR''»)<br>
::* Ανάλυση στα 300 dpi<br>
:Οι σελίδες αυτές, και πάλι, θα πρέπει να "διαβαστούν" με το πρόγραμμα OCR και να αποθηκευτούν ως αρχείο .doc ή .rtf ή .txt<br>
 
===5. Η Βιβλιογραφία===
Όπως και παραπάνω, οι σελίδες αυτές σαρώνονται με ρύθμιση:
::* Άσπρο-Μαύρο (αγγλ. στα αγγλικά θα αναφέρει «''Black & White ''» ή «''B&W''» ή «''OCR''»)<br>
::* Ανάλυση στα 300 dpi<br>
4.720
επεξεργασίες