К текстовой информации ОДИРОВАНИЕ

advertisement
КОДИРОВАНИЕ
текстовой
информации


Одну и ту же информацию можно
представить и передать по-разному.
Например, сообщить об опасности:
- Крикнуть «Караул!» или “Help me!”;
- Передать сигнал SOS с помощью
азбуки Морзе: “    ”;
- Опасность поражения электрическим
током выразить рисунком;
- Для глухонемых людей — показать
жестом.
Во всех этих случаях для представления
информации используется определенный
язык.
Язык

Язык может быть естественным
(разговорным) или формальным (кодом
или языком программирования)
Язык (код) — определенная система
знаков для представления информации.
Алфавит


Каждый язык (код) может быть
представлен своим алфавитом.
Алфавит — набор используемых в
языке символов.
Алфавит

Существует множество алфавитов,
используемых для представления
информации:
 Алфавит кириллических букв;
 Алфавит латинских букв;
 Алфавит азбуки Морзе;
 Алфавит дорожных знаков.
Кодирование

Часто мы передаем или храним
информацию не в той форме, в
которой она существует, а
преобразовываем ее — кодируем. Если
вдуматься, то кодирование
информации вокруг нас происходит
постоянно:
- Уровень знаний по предмету кодируется
соответствующим числом: 5,4,3,2,1;
-Предупреждающие сигналы на дороге
закодированы с помощью дорожных знаков;
Кодирование
- Информация о протекании химической
реакции кодируется с помощью записи
уравнения химической реакции;
- При передаче информации по
телефону сигналы кодируются для
передачи и декодируются, чтобы их
можно было воспринимать.
Кодирование  декодирование

Музыкальная композиция может быть
сыграна на инструменте (закодирована и
передана с помощью звуков), записана с
помощью нот (кодами являются ноты) или
записана на магнитный диск (коды —
электромагнитные сигналы).
Кодирование — преобразование
информации в форму, удобную для
передачи, хранения или обработки.
Декодирование — преобразование
информации в форму, удобную для
восприятия.
Информация в ПК

Компьютер с точки зрения пользователя
работает с информацией разных видов и
представлений: числовой, графический,
звуковой, текстовой, видео. Но по сути вся
информация представлена в виде сигналов
всего двух видов: намагничено/размагничено —
для магнитного диска, отражает/не отражает —
для лазерного диска, есть электрический
сигнал/нет сигнала — для полупроводниковых
приборов. Технические устройства для
обработки двоичных сигналов устойчиво
работают и получаются значительно более
простыми.
Информация в ПК

Таким образом, вся информация — звуки,
изображения, показания приборов, для
обработки на компьютере должна быть
преобразована в числовую форму, т. е.
закодирована. Для кодирования
информации используется двоичный код,
алфавит которого состоит из двух цифр:
нуля и единицы.
Кодирование текстовой
информации


В настоящее время большая часть
персональных компьютеров в мире
занята обработкой текстовой
информации.
Для кодирования одного символа
используется 1 байт.
Кодирование текстовой
информации


С помощью одного байта можно
закодировать 256 различных
символов — все символы клавиатуры.
Кодирование заключается в том, что
все символы в таблице пронумерованы
и каждому символу ставится в
соответствие уникальный двоичный
код от 00000000 до 11111111.
Кодовые таблицы



Присвоение символу конкретного
кода — это вопрос соглашения, которое
фиксируется в кодовой таблице.
Кодовая таблица, содержащая 256
символов, состоит из двух частей, двух
таблиц кодирования — базовой и
расширенной.
В базовой таблице определены
значения кодов с 0 по 127, а в
расширенной — со 128 по 255.
США, институт
стандартизации (АSCII)
Таблица АSCII разделена на 2 части
I.
-стандартная(содержит коды от 0 до
127)
II. - расширенная (содержит символы с
кодами от 128 до 255)
14
Кодовые таблицы


Первая половина кодовой таблицы —
базовая таблица — принята в качестве
международного стандарта и
называется кодировкой ASCII
(American Standard Code for
Information Interchange —
Американский стандартный код для
обмена информацией).
Кодовая таблица ASCII содержит 128
символов — коды с 0 по 127.
Кодовая таблица ASCII
Кодовая таблица ASCII


В базовой таблице за кодами с 0 по 32
закреплены специальные функции:
нажатие клавиши Enter, Bs, управление
курсором, ввод пробела и т.д.
Коды с 33 по 127 соответствуют
символам: !, #, $, цифрам, знакам
арифметических операций, знакам
препинания и символам латинского
алфавита.
Расширение таблицы ASCII

Вторая половина кодовой таблицы не
определена американским
стандартом, предназначена для
кодирования национальных
алфавитов и назавается расширением
таблицы ASCII.
Кодовые таблицы

В настоящее время существует
пять различных 8-битных
кодовых таблиц для русских букв:
 КОИ-8;
 СР-1251;
 СР-866;
 Мас;
 ISO.
Кодовые таблицы
 КОИ-8;
 СР-1251;
 СР-866;
 Мас;
 ISO.

В каждой кодовой таблице первая
половина таблицы (коды с 0 по 127)
представляет собой кодировку ASCII.
КОИ-8

Хронологически одним из первых
стандартов кодирования русских букв
на компьютерах был код КОИ-8 —
Код обмена информацией, 8-битный.
Эта кодировка стала фактическим
стандартом в Интернете, используется
в операционной системе UNIX, чаще
всего применяется для обмена почтой
и новостями.
Кодовая таблица КОИ-8
Кодировка СР-866

Для операционной системы MSDOS была создана альтернативная
кодировка CP-866. (CP — code page).
Кодировка СР-1251

После появления ОС Windows
фирмой Microsoft была создана
кодировка Windows — CP-1251.
Другие кодировки


Компьютеры фирмы Apple, работающие
под управлением операционной
системы Mac OS, используют свою
собственную кодировку Mac.
Международная организация по
стандартизации (International Standards
Organization, ISO) утвердила в качестве
стандарта для русского языка еще одну
кодировку под названием ISO 8859-5,
которая большого распространения не
получила.
Unicode

В конце 90-ых годов появился новый
международный стандарт Unicode,
который отводит под кодирование
одного символа не один байт, а два, и
поэтому с его помощью можно
закодировать не 256, а 65536
различных символов — все
существующие созданные алфавиты
мира, а также множество
специализированных символов:
математических, музыкальных,
химических и прочих символов.
Unicode

Кодировка Unicode с 1997 года
используется в пакете Microsoft
Office. Главный недостаток этой
кодировки — информационный вес
текста увеличивается в два раза.
Программы-конверторы


В связи с тем, что коды одних и тех же
символов в различных кодовых
таблицах не совпадают, тексты,
созданные в одной кодировке, не будут
правильно отображаться в другой.
Для того чтобы стало возможным
чтение и редактирование текста,
набранного в другой кодировке, для
перекодирования текста используются
специальные программы-конверторы.
Alt-ввод


Если вам известен код символа, то
символ можно получить, набрав его
код на малой цифровой клавиатуре
при включенном индикаторе Num Lock
и прижатой клавише Alt.
Каждому символу соответствует свой
код:







128 — русская буква А;
160 — русская буква а;
33 — восклицательный знак;
32 — пробел;
045 — дефис;
0151 — тире;
0150 — минус.
Задание : определите
символ по числовому коду.






Запустите программу БЛОКНОТ
Нажмите ALT и 0224 (на дополнительной
цифровой клавиатуре).
Появится символ а.
Повторите эту операцию для числовых кодов
от 0225 до 0233.
Появятся символы в кодировке (CP 1251
Windows).
Запишите их в тетрадь.
30
Задание 2: определите
символ по числовому коду.






Запустите программу БЛОКНОТ
Нажмите ALT и 161 (на дополнительной
цифровой клавиатуре).
Появится символ.
Повторите эту операцию для числовых кодов
160, 169, 226.
Появятся символы в кодировке (CP 866 MSDOS).
Запишите их в тетрадь.
31
Download