Кодирование текстовой информации

advertisement
Кодирование текстовой
информации
В традиционных кодировках для кодирования
одного символа используется 8 бит. Легко
подсчитать , что такой 8-разрядный код
позволяет закодировать 256 различных
символов.
Присвоение символу определенного
числового кода – это вопрос соглашения.
В качестве международного стандарта
принята кодовая таблица ASCII (American
Standard Code for Information Interchange),
кодирующая первую половину символов с
числовыми кодами от 0 до 127 (коды от 0 до
32 отведены не символам, а
функциональным клавишам).
Кодовая таблица ASCII
Во второй половине содержатся коды
национальных алфавитов, символы
псевдографики и некоторые
математические знаки. К сожалению, в
настоящее время существуют пять
различных кодировок кириллицы (КОИ8-Р,
Windows, MS-DOS, Macintosh и ISO), что
вызывает дополнительные трудности при
работе с русскоязычными документами.
Хронологически одним из первых стандартов
кодирования русских букв на компьютерах
был КОИ8 .
Эта кодировка применялась еще в 70-ые годы
на компьютерах серии ЕС ЭВМ, а с
середины 80-х стала использоваться в
первых русифицированных версиях
операционной системы UNIX.
КОИ8 («Код обмена информацией,
8-битный»)
Наиболее распространенной в настоящее время
является кодировка Microsoft Windows,
обозначаемая сокращением CP1251 ("CP" означает
"Code Page", "кодовая страница").
От начала 90-ых годов, времени
господства операционной системы
MS DOS, остается кодировка CP866.
Компьютеры фирмы Apple, работающие под
управлением операционной системы Mac OS,
используют свою собственную кодировку Mac.
Международная организация по стандартизации
(International Standards Organization, ISO) утвердила
в качестве стандарта для русского языка еще одну
кодировку под названием ISO 8859-5.
Unicode
В конце 90-ых годов появился новый
международный стандарт Unicode, который
отводит под один символ не один байт, а два,
и поэтому с его помощью можно закодировать не
256, а 65536 различных символов. Полная
спецификация стандарта Unicode включает в себя
все существующие, вымершие и искусственно
созданные алфавиты мира, а также множество
математических, музыкальных, химических и
прочих символов.
Пример
Представьте в форме шестнадцатеричного
кода слово «ЭВМ».
 CP1251: 221 194 204
 CP866: 157 130 140 .
В 16 с/с
 CP1251: DD C2 CC
 CP866: 9D 82 8C
Задания
1.
Закодируйте с помощью кодировочной
таблицы ASCII следующие тексты:
Password; б) Windows.
a)
2.
Декодируйте с помощью кодировочной
таблицы ASCII следующие тексты:
а) 54 6F 72 6Е 61 64 6F;
б) 49 20 6С 6F 76 65 20 79 6F 75.
Download