5_Codes.ppt
- Количество слайдов: 8
Кодировка (Набор символов, character set, charset) - это определённая таблица кодирования конечного множества символов. Кодовая страница (code page) - это множество символов, кодировку которого можно выполнить с помощью 1 байта (0 -255). Набор символов может включать как одну, так и несколько кодовых страниц.
Основная кодировка ASCII (American Standard Code for Information Interchange) - это 7 -битная (128 символов) кодировка для представления латинского алфавита, десятичных цифр, некоторых специальных символов (знаков препинания, знаков арифметических операций и управляющих символов). Основная кодировка ASCII занимает нижнюю половину кодовой страницы, а верхнюю половину кодовой страницы можно использовать для доопределения расширенной кодировки ASCII (8 бит, 256 символов) Как правило, в верхнюю половину кодовой страницы включают символы национальных алфавитов, псевдографику и дополнительные часто используемые спецсимволы.
0 1 2 3 4 5 6 7 8 9 A B C D E F HT LF VT 0 NUL SOH STX EOT ENQ ACK BEL BS FF CR SO SI 1 DLE DC 1 DC 2 DC 3 DC 4 NAK SYN ETB CAN EM SUB ESC FS GS RS US 2 SP ! " # $ % & ' ( ) * + , . / 3 0 1 2 3 4 5 6 7 8 9 : ; < = > ? 4 @ A B C D E F G H I J K L M N O 5 P Q R S T U V W X Y Z [ ] ^ _ 6 ` a b c d e f g h i j k l m n o 7 p q r s t u v w x y z { | } ~ DEL
Кодировка Windows-1251 (cp 1251) является стандартной 8 -битной кодировкой для всех русских версий Windows. Первая часть таблицы кодировки (латиница) полностью соответствует кодировке ASCII. Вторая часть приведена в таблице на следующем слайде (под символами указаны шестнадцатеричные коды Unicode):
0 1 2 3 4 5 6 7 8 9 A B C D E F 8 Ђ Ѓ ‚ ѓ „ … † ‡ € ‰ Љ ‹ Њ Ќ Ћ Џ 0402 0403 201 A 0453 201 E 2026 2020 2021 20 AC 2030 0409 2039 040 A 040 C 040 B 040 F 9 ђ ‘ ’ “ ” • – — 0452 2018 2019 201 C 201 D 2022 2013 2014 ™ љ › њ ќ ћ џ 2122 0459 203 A 045 C 045 B 045 F Ў ў Ј ¤ Ґ ¦ § Ё © Є « ¬ ® Ї 00 A A 00 A 0 040 E 045 E 0408 00 A 4 0490 00 A 6 00 A 7 0401 00 A 9 0404 00 AB 00 AC 00 AE 0407 D B ° ± І і ґ µ ¶ · ё № є » ј Ѕ ѕ ї 00 B 0 00 B 1 0406 0456 0491 00 B 5 00 B 6 00 B 7 0451 2116 0454 00 BB 0458 0405 0457 C А Б В Г Д Е Ж З И Й К Л М Н О П 0410 0411 0412 0413 0414 0415 0416 0417 0418 0419 041 A 041 B 041 C 041 D 041 E 041 F D Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я 0420 0421 0422 0423 0424 0425 0426 0427 0428 0429 042 A 042 B 042 C 042 D 042 E 042 F E а б в г д е ж з и й к л м н о п 0430 0431 0432 0433 0434 0435 0436 0437 0438 0439 043 A 043 B 043 C 043 D 043 E 043 F F р с т у ф х ц ч ш щ ъ ы ь э ю я 0440 0441 0442 0443 0444 0445 0446 0447 0448 0449 044 A 044 B 044 C 044 D 044 E 044 F
Стандартом для русской кириллицы в UNIX-подобных операционных системах является кодировка КОИ-8 (код обмена информацией, 8 битов), или KOI 8. Существует несколько вариантов кодировки КОИ-8 для различных кириллических алфавитов. Русский алфавит описывается в кодировке KOI 8 R, украинский — в KOI 8 -U, существуют также кодировки KOI 8 -RU (русскобелорусско-украинская), KOI 8 -T (таджикская) и т. д. Разработчики КОИ-8 разместили символы русского алфавита таким образом, что если в тексте, написанном в КОИ-8, убирать восьмой бит каждого символа, то получается понятный текст, хотя он и написан латинскими символами. На следующем слайде показана вторая часть кодировки KOI 8 -R (русская), под символами указаны шестнадцатеричные коды Unicode:
0 1 2 3 4 5 6 7 8 9 A B C D E F 8 ─ │ ┌ ┐ └ ┘ ├ ┤ ┬ ┴ ┼ ▀ ▄ █ ▌ ▐ 2500 2502 250 C 2510 2514 2518 251 C 2524 252 C 2534 253 C 2580 2584 2588 258 C 2590 9 ░ ▒ ▓ ⌠ ■ ∙ √ ≈ ≤ ≥ ⌡ ° ² · ÷ 2591 2592 2593 2320 25 A 0 2219 221 A 2248 2264 2265 00 A 0 2321 00 B 0 00 B 2 00 B 7 00 F 7 A ═ ║ ╒ ё ╓ ╔ ╕ ╖ ╗ ╘ ╙ ╚ ╛ ╜ ╝ ╞ 2550 2551 2552 0451 2553 2554 2555 2556 2557 2558 2559 255 A 255 B 255 C 255 D 255 E B ╟ ╠ ╡ Ё ╢ ╣ ╤ ╥ ╦ ╧ ╨ ╩ ╪ ╫ ╬ © 255 F 2560 2561 0401 2562 2563 2564 2565 2566 2567 2568 2569 256 A 256 B 256 C 00 A 9 C ю а б ц д е ф г х и й к л м н о 044 E 0430 0431 0446 0434 0435 0444 0433 0445 0438 0439 043 A 043 B 043 C 043 D 043 E D п я р с т у ж в ь ы з ш э щ ч ъ 043 F 0440 0441 0442 0443 0436 0432 044 C 044 B 0437 0448 044 D 0449 0447 044 A C Ю А Б Ц Д Е Ф Г Х И Й К Л М Н О 042 E 0410 0411 0426 0414 0415 0424 0413 0425 0418 0419 041 A 041 B 041 C 041 D 041 E D П Я Р С Т У Ж В Ь Ы З Ш Э Щ Ч Ъ 041 F 0420 0421 0422 0423 0416 0412 042 C 042 B 0417 0428 042 D 0429 0427 042 A
Юникод (Unicode) - это стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Чаще всего для обозначения символов Unicode используется запись вида "U+xxxx" (для кодов 0. . . FFFF), где xxxх - шестнадцатеричные цифры. Первая версия Юникода представляла собой кодировку с фиксированным размером символа в 16 бит, то есть общее число кодов было 216 (65536). Отсюда и происходит практика обозначения символов четырьмя шестнадцатеричными цифрами (например, U+0410). Коды в стандарте Unicode разделены на несколько областей, например: Область от U+0000 до U+007 F содержит символы основного набора ASCII. Область от U+0400 до U+052 F содержит символы кириллицы, где символы до U+045 F - это собственно кириллица, а далее располагаются исторические буквы и дополнительные буквы для разных языков, использующих кириллицу.
5_Codes.ppt