a15c215f9e2251ae3c43f195164ba733.ppt
- Количество слайдов: 37
Πρότυπα Κωδικοποίησης II Μ. Γεργατσούλης- Χ. Παπαθεοδώρου Τμήμα Αρχειονομίας – Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο
Κωδικοποίηση Χαρακτήρων 2
Το πρόβλημα (1/2) n n n Ένας από τους κύριους λόγους ανάπτυξης προτύπων είναι η επιθυμία για κοινό τρόπο αντιμετώπισης προβλημάτων. Η ύπαρξη των προτύπων έχει βελτιώσει βασικούς τομείς συνεργασίας των βιβλιοθηκών και των αρχείων όπως η περιγραφή τεκμηρίων και εγγράφων, η ανταλλαγή εγγραφών και εγγραφών καθιερωμένων τύπων, διαδανεισμού κ. λπ. Ωστόσο η ύπαρξη πολλών προτύπων δημιουργεί νέο πρόβλημα διαλειτουργικότητας των συστημάτων. 3
Το πρόβλημα (2/2) n n n Η απαίτηση για υποστήριξη χαρακτήρων διαφορετικών αλφαβήτων σε μια βιβλιογραφική εγγραφή ή ένα τεκμήριο. Οι διαφορετικές κωδικοποιήσεις των ίδιων αλφαβήτων. Αποτελούν σοβαρά προβλήματα περιγραφής και ανταλλαγής τεκμηρίων και εγγραφών. 4
Ορισμοί n n n Κωδικός χαρακτήρα: μια ένα προς ένα αντιστοίχηση ενός συνόλου χαρακτήρων στο σύνολο των θετικών ακεραίων αριθμών. Δηλ. είναι η ανάθεση μιας θέσης κωδικού σε ένα χαρακτήρα. Κωδικοποίηση χαρακτήρων: Μια μέθοδος αναπαράστασης χαρακτήρων στον υπολογιστή που αντιστοιχεί κωδικούς χαρακτήρων σε σειρές από bytes (οκτάδες από bits. Παράδειγμα: Σε ένα byte μπορούν να αντιστοιχηθούν 256 χαρακτήρες με κωδικούς 0 -255. 5
ASCII American Standard Code for Information Interchange 0 @ P ` ! 1 A Q a " 2 B R b # 3 C S c $ 4 D T d % 5 E U e & 6 F V f ' 7 G W g ( 8 H X h ) 9 I Y i * : J Z j + ; K [ k , < L l = M ] m . > N ^ n / ? O _ o p q r s t u v w x y z { | } ~ n Οι χαρακτήρες του κώδικα ASCII κώδικoποιούνται από 7 -bit. n n n Σύνολο χαρακτήρων 27=128 Εύρος κωδικών 0 -127 Οι κωδικοί 0 -31 και 127 αντιστοιχούν σε control χαρακτήρες 6
Εθνικές παραλλαγές του ASCII n n n Η αρχική έκδοση του ASCII ονομάστηκε ANSI X 3. 41986 πρότυπο. ISO 646: παρόμοια κωδικοποίηση με ASCII εκτός των χαρακτήρων @[]{|} που αντιστοιχούν σε κωδικούς εθνικής χρήσης. Υπάρχει ελευθερία στην αντιστοίχηση των χαρακτήρων #$^`~. Παράδειγμα: κωδικός χαρακτήρας παραλλαγή 35 # £ Ù 64 @ É § Ä à ³ 91 [ Ä Æ ° â ¡ ÿ é 7
Η οικογένεια προτύπων ISO 8859 n n n ° À Ð à ð 8 -bit αναπαράσταση κωδικών χαρακτήρων n πλήθος χαρακτήρων 256 n κωδικοί 0 -255 Από 0 -127 δίνονται οι κωδικοί σύμφωνα με τον ASCII και υπάρχει δυνατότητα αναπαράστασης άλλων αλφάβητων Παράδειγμα: ISO 8859 -1 (Latin 1) κωδικοί 128 -159, control χαρακτήρες, κωδικοί 160 -255: ¡ ± Á Ñ á ñ ¢ ² Ò â ò £ ³ Ã Ó ã ó ¤ ´ Ä Ô ä ô ¥ µ Å Õ å õ ¦ ¶ Æ Ö æ ö § · Ç × ç ÷ ¨ ¸ È Ø è ø © ¹ É Ù é ù ª º Ê Ú ê ú « » Ë Û ë û ¬ ¼ Ì Ü ì ü ½ Í Ý í ý ® ¾ Î Þ î þ ¯ ¿ Ï ß ï ÿ 8
Τα μέρη του ISO 8859 (1/2) ISO 8859 -1 Latin alphabet No. 1 "Western", "West European» ISO 8859 -2 Latin alphabet No. 2 "Central European", "East European" ISO 8859 -3 Esperanto" Latin alphabet No. 3 “South European"; "Maltese & ISO 8859 -4 Latin alphabet No. 4"North European" ISO 8859 -5 Latin/Cyrillic alphabet (for Slavic languages) ISO 8859 -6 Latin/Arabic alphabet (for the Arabic language) ISO 8859 -7 Latin/Greek alphabet (for modern Greek ΕΛΟΤ-928) ISO 8859 -8 Latin/Hebrew alphabet (for Hebrew and Yiddish) ISO 8859 -9 Latin alphabet No. 5 "Turkish" 9
Τα μέρη του ISO 8859 (2/2) ISO 8859 -10 Latin alphabet No. 6 "Nordic" (Sámi, Inuit, Icelandic) ISO 8859 -11 Latin/Thai alphabet (for the Thai language) (Part 12 has not been defined. ) ISO 8859 -13 Latin alphabet No. 7 Baltic Rim ISO 8859 -14 Latin alphabet No. 8 Celtic ISO 8859 -15 Latin alphabet No. 9 "euro" ISO 8859 -16 Latin alphabet No. 10 Albanian, Croatian, English, Finnish, French, German, Hungarian, Irish Gaelic (new orthography), Italian, Latin, Polish, Romanian, and Slovenian. 10
ISO 8859 -7 11
Κωδικοσελίδες DOS, Windows n n Το λειτουργικό σύστημα MS DOS χρησιμοποίησε διαφορετικούς κωδικούς χαρακτήρων με 8 -bit κωδικοποίηση που ονομάζονται code pages. Στο code page 437 περιλαμβάνονται μαθηματικά σύμβολα και ελληνικοί χαρακτήρες. Στο code page 850 περιλαμβάνονται σχεδόν όλοι οι χαρακτήρες του Latin 1 αλφαβήτου αλλά σε διαφορετικές θέσεις κωδικών από το ISO 8859 -1. Τα Windows χρησιμοποιούν άλλους κωδικούς (π. χ. cp -1252 για Latin 1, cp-1253 για ελληνικά). 12
ISO 10646 n n Το ISO 10646 καθορίζει το Universal Character Set, που είναι ένα μεγάλο σύνολο χαρακτήρων (καλύπτει πολλά αλφάβητα) με ενιαία κωδικοποίηση. Προέκυψε από: n n την πληθώρα των 8 -bit κωδικοσελίδων η οποία παρουσίαζε ασυμφωνίες στους κωδικούς ίδιων χαρακτήρων την ανάγκη κωδικοποίησης πολλών χαρακτήρων σε μια κωδικοσελίδα Προτείνει 32 -bit κωδικοποίηση (UCS-4) αλλά χρησιμοποιείται η 16 -bit κωδικοποίηση (UCS-2), ορίζοντας το Basic Multilingual Plane (BMP). Τα πρώτα δύο bytes θεωρούνται 0 0. Το Unicode προτείνει 16 -bit κωδικοποίηση και αποδίδει ένα μοναδικό αριθμό για κάθε χαρακτήρα, καλύπτοντας 13 περισσότερους από 65. 000 χαρακτήρες.
Unicode n n n 49. 194 χαρακτήρες αλφαβήτων και γραφών από την Ευρώπη, τη Μέση Ανατολή (συμπεριλαμβανομένων γραφών από δεξιά προς τα αριστερά) και την Ασία (π. χ. το Han subset περιέχει 27. 484 ιδεογράμματα από την Κίνα, την Ιαπωνία, την Κορέα, το Βιετνάμ, την Ταϊβάν και τη Σιγκαπούρη). Σημεία στίξης, μαθηματικά και τεχνικά σύμβολα, γεωμετρικά σχήματα. Στη Version 3. 0 προστέθηκαν και άλλα αλφάβητα όπως Ethiopic, Canadian Aboriginal Syllabics, Cherokee, Sinhala, Syriac, Myanmar, Khmer, Mongolian, Braille και άλλα ιδεογράμματα. Κρατά 6. 400 ιδιωτικής χρήσης κωδικούς ενώ υπάρχουν ακόμα 7. 827 αχρησιμοποίητοι κωδικοί για μελλοντική επέκταση. 2. 048 (16 -bit) κωδικοί για τους οποίους επιτρέπει το συνδυασμό τους σε ζεύγη (pair codes) αποδίδοντας επιπλέον 1. 048. 544 χαρακτήρες (για ειδικά σύμβολα με τόνους και αρχαίες γραφές). Συμβολισμός χαρακτήρων: U+nnnn, nnnn δεκαεξαδικός αριθμός 14 (π. χ. U+0020=space).
Unicode Transformation Format n UTF-16 n n n Κάθε χαρακτήρας κωδικοποιείται από 2 bytes (16 bits) Αντιοικονομική κωδικοποίηση ειδικά για χαρακτήρες που ανήκουν στον ASCII. UTF-7 (Δε συνιστάται η χρήση του) n n n Κάθε χαρακτήρας κωδικοποιείται από ένα ή περισσότερα bytes. Οι χαρακτήρες ανάλογα με τον κωδικό τους οργανώνονται σε σύνολα πλήθπυς 127 Οι πρώτοι 127 χαρακτήρες συμφωνούν με τον ASCII και κωδικοποιούνται από ένα byte Για τους υπόλοιπους προηγούνται και έπονται bytes διαφυγής που παραπέμπουν σε άλλα σύνολα από 127 χαρακτήρες. 15
UTF-8 n n n Κωδικοποίηση μεταβλητού μήκους (για λόγους οικονομίας στη μνήμη). Οι χαρακτήρες του ASCII (1 -127) έχουν το πρώτο bit 0 και κωδικοποιούνται ως ένα byte. Οι υπόλοιποι από 2 -6 bytes με κωδικούς 128 -255. Το πλήθος των άσσων του πρώτου byte από τους μη ASCII χαρακτήρες δηλώνει το πλήθος των bytes που κωδικοποιούν τον χαρακτήρα. Μετά τους άσσους ακολουθεί 0 και κατόπιν τα πρώτα bits που κωδικοποιούν τον κωδικό του χαρακτήρα σε δυαδική μορφή. Κάθε byte που ακολουθεί έχει αρχικά bits τα 10. Ουσιαστικά καλύπτονται σχεδόν όλα τα αλφάβητα 16 και οι συνδυασμοί τους
Παραδείγματα U-0000 - U-0000007 F: 0 xxxxxxx U-00000080 - U-000007 FF: 110 xxxxxx U-00000800 - U-0000 FFFF: 1110 xxxxxx U-00010000 - U-001 FFFFF: 11110 xxxxxx 10 xxxxxx U-00200000 - U-03 FFFFFF: 111110 xxxxxx 10 xxxxxx U-04000000 - U-7 FFFFFFF: 1111110 x 10 xxxxxx 10 xxxxxx n Copyright sign (©) U+00 A 9: 11000010 10101001 n Not equal to ( ) U+2260: 1110001001 10100000 17
Γραμματοσειρές (fonts) n Η γραμματοσειρά είναι μια σχηματική αναπαράσταση ενός συνόλου χαρακτήρων. Οι γραμματοσειρές δεν συγχέονται με τους χαρακτήρες, αλλά θεωρούνται διαφορετικές σχηματικές απεικονίσεις του ίδιου κωδικού. n Παραδείγματα: n n τα Z, Z, Ζ, Z είναι απεικονίσεις του ίδιου χαρακτήρα το λατινικό και το ελληνικό «Α» , έχουν την ίδια μορφή αλλά διαφορετικούς κωδικούς Στο Unicode, χαρακτήρες με την ίδια μορφή, αλλά με διαφορετικό νόημα, έχουν διαφορετικούς κωδικούς (π. χ. το γράμμα «Ν» και το σύνολο των φυσικών αριθμών Ν θεωρούνται άλλοι χαρακτήρες). 18
Control χαρακτήρες n Μη ορατοί χαρακτήρες που χρησιμοποιούνται για έλεγχο συσκευών (devices) και διεργασιών (processes). n n Οδηγίες που αλλάζουν την κωδικοποίηση των χαρακτήρων (κωδικοσελίδα). Π. χ. ένας control χαρακτήρας δίνει τον έλεγχο στην ελληνική κωδικοσελίδα. Οι χρησιμοποιούμενες κωδικοσελίδες αναφέρονται σε κάθε εφαρμογή που διαχειρίζονται χαρακτήρες n n ASCII (3) σταματά την τρέχουσα διεργασία ASCII (13) carriage return, ASCII (9) tab HTML: <meta content="text/html; charset=utf-8"/meta> Το ISO 2022 ορίζει τη χρήση διαφορετικών 8 -bit χαρακτήρων σε ένα κείμενο. 19
Χαρακτήρες και UNIMARC (1/2) n n To UNIMARC προβλέπει διαπραγμάτευση προτύπου χαρακτήρων, αλλά ως επί το πλείστον χρησιμοποιεί την 8 -bit κωδικοποίηση. Οι 256 χαρακτήρες χωρίζονται σε δύο πίνακες των 128 θέσεων που ονομάζονται χαμηλή (κωδικοί 0 -127) και υψηλή σελίδα (128 -255). Οι δύο πρώτες στήλες (32 χαρακτήρες) της κάθε σελίδας περιέχουν χαρακτήρες ελέγχου και έχουν κωδικούς G 0 και G 1 (graphic characters 0 and 1). Το πρότυπο ορίζει μια σειρά από σελίδες των 128 χαρακτήρων με μοναδικό κωδικό (01: ISO 646 βασικά λατινικά, 03: ANSEL εκτεταμένα λατινικά, 05: ISO 5428 -1984 ελληνικά, 04: κυριλλικά) n Για τα Ελληνικά το πρότυπο ISO 5428 -1984 βασίζεται στο πρότυπο ISO 2022, το οποίο χρησιμοποιεί δύο bytes για τους τονούμενους χαρακτήρες. 20
Χαρακτήρες και UNIMARC (2/2) n n Το πρότυπο επιτρέπει τη χρήση μέχρι τεσσάρων σελίδων σε μια εγγραφή αλλά μόνο δύο από αυτές είναι ενεργές. Όπως σε κάθε άλλη περίπτωση (π. χ. HTML), στο πεδίο 100 κάθε εγγραφής ορίζονται οι κωδικοί και η σειρά των σελίδων χαρακτήρων που χρησιμοποιούνται. n n n Παράδειγμα: Οι τιμές « 010305 » στο πεδίο 100 δηλώνουν ότι θα χρησιμοποιηθούν οι σελίδες με κωδικούς 01, 03 και 05 δηλ. βασικά λατινικά, εκτεταμένα λατινικά και ελληνικά αντίστοιχα (τα κενά στο τέλος δηλώνουν ότι δεν υπάρχει τέταρτη σελίδα χαρακτήρων) Οι σελίδες μετακινούνται σε ενεργές θέσεις με τη χρήση κατάλληλων οδηγιών που υλοποιούνται από control χαρακτήρες. Με αυτόν τον τρόπο το UNIMARC εξασφαλίζει τη συνύπαρξη και διαχείριση διαφορετικών συνόλων χαρακτήρων, ανεξάρτητα αν ο υπολογιστής μπορεί να τους προβάλει. 21
Γιατί δεν εμφανίζονται οι χαρακτήρες n n Το πρόγραμμα δεν έχει πληροφορηθεί για τον τρόπο κωδικοποίησης των χαρακτήρων ή Από κατασκευής δεν υποστηρίζει τη χρησιμοποιούμενη κωδικοποίηση ή Δεν διαθέτει γραμματοσειρές για την απεικόνισή των χαρακτήρων. Αποτέλεσμα αυτών είναι να εμφανίζονται είτε συγκεκριμένα σημάδια αντί των χαρακτήρων που δεν απεικονίζονται (π. χ. «? » ), είτε χαρακτήρες που αντιστοιχούν στις ίδιες θέσεις της χρησιμοποιούμενης κωδικοσελίδας, είτε τίποτε. 22
Text Encoding Initiative 23
Ορισμοί n n n Κωδικοποίηση κειμένου (text markup, encoding) = Διαδικασία διάκρισης δομικών ή σημασιολογικών (semantic) χαρακτηριστικών κειμένου με βάση κάποιους κανόνες. Text encoding initiative: SGML-DTD Στόχος του είναι να δημιουργήσει ένα περιβάλλον για την κωδικοποίηση κειμένων ακαδημαϊκού ενδιαφέροντος, έτσι ώστε να μπορούν να μεταγράφονται και να διατηρούνται ανεξάρτητα από την εκάστοτε τεχνολογία. 24
Ανασκόπηση n n Δε σχετίζεται με τη μορφοποίηση και τον τρόπο εμφάνισης του κειμένου. Παράδειγμα: n n There are very few risqué passages in Paradise Lost Html: There are very few <i>risqué</i> passages in <i>Paradise Lost</i> TEI: There are very few <foreign>risqué</foreign> passages in <title>Paradise Lost</title> Καλύπτει: n n n Δομή (παράγραφοι, σελίδες, διάλογοι, υποσημειώσεις, σύνδεσμοι) Γλωσσική επεξεργασία (διάλεκτοι, ονόματα, προτάσεις, λέξεις, εκφράσεις, στοιχεία μετάφρασης) Μεταδεδομένα (βιβλιογραφικά στοιχεία, εκδοτικό ιστορικό κ. λπ. ) 25
Βασική δομή <? xml version="1. 0"? > <!DOCTYPE TEI. 2 SYSTEM "http: //faculty-web. at. northwestern. edu/ english/mmueller/Tei. XBaby. dtd"> <!ELEMENT TEI. 2 (tei. Header, text)> <!ELEMENT text (front? , body, back? )> <TEI. 2> <tei. Header> [ TEI Header information ] </tei. Header> <text> <front> [ front matter. . . ] </front> <body> [ body of text. . . ] </body> <back> [ back matter. . . ] </back> </text> </TEI. 2> 26
Συλλογή από κείμενα n TEI corpus <tei. Corpus> <tei. Header> [header information for the corpus]</tei. Header> <TEI. 2> <tei. Header>[header information for first text]</tei. Header> <text> [first text in corpus] </text> </TEI. 2> <tei. Header>[header information for second text]</tei. Header> <text> [second text in corpus] </text> </TEI. 2> </tei. Corpus> 27
Βασικά στοιχεία n <tei. Header> Δεν αποτελεί μέρος του υπο κωδικοποίηση κειμένου, αλλά παρέχει πληροφορίες (μεταδεδομένα) για αυτό. 1. Στοιχεία του tei. Header element: file. Desc, profile. Desc, revision. Desc, lang. Usage language 2. Στοιχεία του file. Desc: title. Stmt, publication. Stmt, source. Desc 1. <front> Περιέχει προκαταρκτικό περιεχόμενο (επικεφαλίδες, σελίδες τίτλων, πρόλογοι κ. λπ. ) που βρίσκονται πριν την αρχή του κανονικού κειμένου n <back> Περιέχει παραρτήματα κ. λπ. που ακολουθούν το κυρίως κείμενο n <body> Περιέχει το σώμα ενός μοναδικού κειμένου εκτός του front και back περιεχομένου 28
Στοιχεία του <body> 1. 2. 3. 4. 5. 6. 7. Βασικά δομικά στοιχεία: div head Στοιχεία παραγράφων p cit q l lg sp Λίστες, πίνακες και σχήματα: list item table row cell figure fig. Desc Στοιχεία φράσεων: date emph foreign hi name num so. Called term title Στοιχεία χωρισμού σελίδων και γραμμών: milestone pb lb Στοιχεία για σύνδεση στοιχείων: ref rs ptr xref xptr Βιβλιογραφικά στοιχεία: bibl author editor publisher resp. Stmt resp pub. Place 29
Κανόνες δόμησης 1. 2. 3. Το body ενός κειμένου χωρίζεται από <div> elements Τα <div> elements χωρίζονται σε <p> (παράγραφος), <q> (εδάφιο με εισαγωγικά), <l> (γραμμή), <lg> (ομάδα γραμμών), <sp> (λόγος) και <speaker> (ομιλητής) Τα <p> και παρόμοια στοιχεία περιλαμβάνουν κείμενο (#PCDATA), το οποίο κωδικοποιείται από στοιχεία φράσεων 30
Στοιχεία δομής div: υποδιαίρεση μέχρι 7 επίπεδα, εφαρμόζεται και στα front, back. Γνωρίσματα: n n n type: ‘Book’, ‘Chapter’, ‘Part’, κ. λπ. id: μοναδικός κωδικός υποδιαίρεσης n: όνομα ή αριθμός υποδιαίρεσης head: ο τίτλος της υποδιαίρεσης, <!ELEMENT head #PCDATA> p: σημείο παραγράφου <!ELEMENT p #PCDATA> <div 1 id="UGT 1" n="Winter" type="Part"> <div 2 id="UGT 11" n="1" type="Chapter"> <head>Mellstock-Lane</head> <p>I fully appreciate Gen. Pope's splendid… </p> 31
Γνωρίσματα Στο TEI-DTD υπάρχουν τα ακόλουθα γνωρίσματα που εφαρμόζονται γενικά στα στοιχεία: <!ATTLIST element id ID #IMPLIED n CDATA #IMPLIED lang IDREF #IMPLIED (γλώσσα) rend CDATA #IMPLIED (τυπογραφική αναπαράσταση π. χ. <q lang=“FR” rend=“italics” > n 32
Παράδειγμα <div 1 type ="Act" n="I"> <head>ACT I</head> <div 2 type ="Scene" n="1"> <head>SCENE I</head> <stage rend="italic"> Enter Barnardo and Francisco, two Sentinels, at several doors</stage> <sp><speaker>Barn</speaker> <l part="Y">Who's there? </l></sp> <sp><speaker>Fran</speaker> <lg type="stanza" part="I"> <l>But why drives on that ship so fast</l> <l>Withouten wave or wind? </l> </lg> </sp> <sp><speaker>Barn</speaker><l part="i">Long live the King!</l></sp> <sp><speaker>Fran</speaker><l part="m">Barnardo? </l></sp> <sp><speaker>Barn</speaker><l part="f">He. </l></sp> <p> I went to the store to buy<list><item>bread, </item> <item>milk, </item> <item>and bananas</item></p> 33
Στοιχεία Φράσεων (1/2) n n <emph> έμφαση φράσης για γλωσσικό ή ρητορικό σκοπό <foreign> φράση ή λέξη που ανήκει σε άλλη γλώσσα από το τριγύρω κείμενο <term> τεχνικός όρος <title> τίτλος με γνωρίσματα: level m βιβλία, συλλογές, έργα ενός τόμου ή πολύτομα, s σειρές, j περιοδικό, u μη δημοσιευμένο υλικό, a αναλυτικός τίτλος που ανήκει σε κάποιο άλλο τεκμήριο (άρθρο, ποίημα κ. λπ. type abbreviated, main, subordinate (υπότιτλοι και τίτλοι μερών), parallel (παράλληλοι). n n 34
Στοιχεία Φράσεων (2/2) n <name>, <date>, <time>, <num> n n n <name type="person"> Walter de la Mare</name> was born at <name type="place">Charlton</name>, in <name type="county">Kent</name>, in <date value="1873 -0221">21 Feb 1980</date> <l>specially when it's nine below zero</l> <l>and <time value="15: 00">three o'clock in the afternoon</time></l> <num value="33">xxxiii</num> <num type="cardinal" value="21">twenty-one</num> <num type="percentage" value="10">ten percent</num> <num type="percentage" value="10">10%</num> <num type="ordinal" value="5">5 th</num> 35
Γραμμές και σελίδες n Γραμμές <p><lb n="25"/> Fie, that you'll say so! He plays o' th' <lb n="26"/> viol-de-gamboys, and speaks three or four languages <lb n="27"/> word for word without book, and hath all the good <lb n="28"/> gifts of nature. </p> n Σελίδες <p>I wrote to Moor House and to Cambridge immediately, to say what I had done: fully explaining also why I had thus acted. Diana and <pb ed="ED 1" n="475"/> Mary approved the step unreservedly. Diana announced that she would <pb ed="ED 2" n="485"/>just give me time to get over the honeymoon, and then she would come and see me. </p> 36
Αναφορές 37
a15c215f9e2251ae3c43f195164ba733.ppt