Исчисление количества информации

advertisement
Министерство образования Российской Федерации
Федеральное государственное автономное образовательное учреждение высшего образования
«СЕВАСТОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕ»
Кафедра информатики и управления в технических системах
ИСЧИСЛЕНИЕ КОЛИЧЕСТВА ИНФОРМАЦИИ
Методические указания к лабораторным работам по дисциплине
«Теория информация и кодирования»
Севастополь
2015
УДК 519.7
Исчисление количества информации: Методические указания к лабораторным
работам / Сост.: В.В. Альчаков. ‒ Севастополь.: СГТУ, 2015. ‒ 16с.
Рассмотрены основные методы исчисления количества информации. Даны
общие рекомендации по решения практических задач. Приведены скрипты для
автоматизации вычислений количественных характеристик информации
Методические указания предназначены для студентов специальности
27.03.04 ‒ «Управление в технических системах».
Методические указания рассмотрены на заседании кафедры информатики и
управления в технических системах СевГУ Протокол № ___ от « ____ »
_____________________ 2015 г. Одобрено учебно-методической комиссией
института информационных технологий и управления в технических системах.
Рецензенты:
В.А. Крамарь, докт. техн. наук, проф. каф. ИУТС СевГУ
В.А. Карапетьян, канд. техн. наук, доц. каф. ИУТС СевГУ
Составитель:
В.В. Альчаков, канд. техн. наук, доц. каф. ИУТС СевГУ
© СевГУ, 2015
2
Методические указания составлены в соответствии с рабочей
программой дисциплины «Теория информации и кодирования»
учебного плана специальности 27.03.04 ‒ «Управление в технических
системах».
Цель работы – Изучить основные методы и средства исчисления
количества информации. Научиться применять пакет Matlab для
расчета количественных характеристик.
1 ОБЩИЕ ПОЛОЖЕНИЯ
Общее количество неповторяющихся сообщений, которое может
быть составлено из алфавита m путем комбинирования по n символов
в сообщении, определяется соотношением
N  mn .
(1.1)
Неопределенность, приходящаяся на символ первичного
(кодируемого) алфавита, составленного из равновероятных и
вазимонезависимых символов равна
H  log m .
(1.2)
При этом основание логарифма влияет лишь на удобство
вычисления. Так для случая вычисления энтропии имеем:
а) в двоичных единицах
H  log 2 m бит / символ ,
б) в десятичных единицах
H  lg m дит / символ,
где log 2 m  3,32 lg m , 1бит  0,3дит ;
в) в натуральных единицах
H  ln m нат / символ,
где log 2 m  1,443ln m , 1бит  0,693нат .
3
Так как информация есть неопределенность, снимаемая при
получении сообщения, то количество информации может быть
представлено как произведение общего числа сообщений k на
среднюю энтропию H , приходящуюся на одно сообщение
I  kH бит .
(1.3)
Для случаев равновероятных и взаимонезависимых символов
первичного алфавита количество информации в k сообщениях
алфавита m равно
I  k log 2 m бит .
Для неравновероятных алфавитов энтропия на символ алфавита
m
m
1
H   pi log 2
  pi log 2 pi бит / символ .
p
i 1
i 1
i
(1.4)
а количество информации в сообщении, составленном из
неравномерных символов,
k
m
I  k  pi log 2 pi бит .
(1.5)
i 1
При решении задач, в которых энтропия вычисляется как сумма
произведений вероятностей на их логарифм, вероятности всегда
должны представлять группу полных событий, независимо от того,
являются ли они безусловными pai  , условными pai b j  или
вероятностями совместных событий pai , b j .
Количество
информации
определяется
исключительно
характеристиками первичного алфавита, объем – характеристиками
вторичного алфавита. Объем информации
Q  klср ,
(1.6)
где lср – средняя длина кодовых слов вторичного алфавита. Для
равномерных кодов (все комбинации кода содержат одинаковое
количество разрядов)
4
Q  kn ,
где n – длина кода (число элементарных посылок в коде). Согласно
(1.3), объем равен количеству информации, если lср  H , т.е. в случае
максимальной информационной нагрузки на символ сообщения. Во
всех остальных случаях I  Q .
Например, если кодировать в коде Бодо
равновероятный алфавит, состоящий из 32 символов, то
некоторый
I  kH  k log 2 m  k log 2 32  k  5 бит ;
Q  klср  k  5 .
Если кодировать в коде Бодо русский 32-буквенный алфавит, то
без учета корреляции между буквами количество информации
I  kH  k  4,358 бит ; Q  k  5 ; I  Q ,
т.е. если в коде существует избыточность и H  H max , то объем в битах
всегда больше количества информации в тех же единицах.
2 ЗАДАНИЕ НА РАБОТУ
Определить количество информации в сообщении и энтропию
сообщения на русском языке, содержащем фамилию, имя, отчество,
год, месяц и день рождения студента для следующих случаев:
1) для равновероятных символов алфавита;
2) для неравновероятных символов алфавита;
3) для случая двубуквенных сочетаний;
4) для случая трехбуквенных сочетаний;
5) проанализировать полученные значения и сделать выводы.
Вероятность символов появления букв алфавита выбрать в
соответствии с Приложением 1.
5
3 ХОД РАБОТЫ
При выполнении работы необходимо выделить две группы
символов: отдельно буквы и отдельно цифры. Это связано с тем, что
появление цифр в тексте носит равновероятный характер.
3.1 Вычисление количества информации и энтропии
сообщения для случая равновероятных символов алфавита
Для вычисления количества информации при равновероятном
появлении символов необходимо воспользоваться формулой Хартли
I  log 2 N ,
(3.1)
где N ‒ общее число букв в алфавите.
В рассматриваемом случае весь алфавит для передачи буквенных
сообщений на русском языке представлен 32 символами, а алфавит для
передачи численных сообщений ‒ 10 символами.
Тогда, количество информации, которое приходится на одну
букву текстового алфавита определяется из соотношения
I1б  log 2 32  5 бит .
Аналогично количество информации на один символ цифрового
сообщения информацию может быть рассчитано как
I1ц  log 2 10  3,322 бит.
Для вычисления количества информации, которое приходится на
все сообщение, необходимо воспользоваться выражением
I б  N б I1б
I ц  N ц I1ц
,
где N б ‒ число букв в сообщении, N ц ‒ число цифр в сообщении.
Рассмотрим пример сообщения:
АЛЬЧАКОВ_ВАСИЛИЙ_ВИКТОРОВИЧ_21_09_1978
6
(3.2)
Количество букв в сообщении с учетом пробелов равно 30,
количество цифр ‒ 8, следовательно, количество информации
буквенной части сообщения равно
I б  30  5  150 бит
I ц  8  3,322  26,575 бит
,
Общее количество информации в сообщении, состоящем из
равновероятных букв и цифр, определяется по формуле
I  I б  I ц  150  26,575  176,575 бит.
Для расчета
соотношение
H
энтропии
Iб  Iц
Nб  Nц

сообщения
следует
использовать
176,575
 бит 
 4,647 
.
38
 символ 
3.2 Вычисление количества информации и энтропии
сообщения для случая неравновероятных символов алфавита
Для случая неравновероятных символов алфавита расчеты
необходимо начать с составления таблицы вероятностей появления
символов алфавита в сообщении. Пример такой таблицы приведен
ниже. Следует обратить внимание, что в конец таблицы добавлены три
пробела, которые являются частью числового сообщения, однако
участвуют в расчете его буквенной части.
Символ сообщения
А
Л
Ь
Ч
А
К
О
В
_
В
А
С
И
pi
pi  log 2 pi
0,062
0,035
0,014
0,012
0,062
0,028
0,09
0,038
0,175
0,038
0,062
0,045
0,062
0,249
0,169
0,086
0,076
0,249
0,144
0,313
0,179
0,44
0,179
0,249
0,201
0,249
7
Л
И
Й
_
В
И
К
Т
О
Р
О
В
И
Ч
_
_
_
0,035
0,062
0,010
0,175
0,038
0,062
0,028
0,053
0,09
0,04
0,09
0,038
0,062
0,012
0,175
0,175
0,175
0,169
0,249
0,066
0,44
0,179
0,249
0,144
0,225
0,313
0,185
0,313
0,179
0,249
0,076
0,44
0,44
0,44
После составления таблицы необходимо вычислить энтропию
сообщения, которая приходится на его буквенную часть. Для этого
необходимо воспользоваться формулой
Nб
H б   pi  log 2  pi  .
(3.3)
i 1
Для вычисления результата выражения (3.3) удобно
воспользоваться пакетом Matlab, MatchCAD или Excel (исходные коды
для расчета в пакете Matlab приведены в приложении 2).
 бит 
Выполнив расчеты получим H б  7,141 
.
символ


Далее, можно вычислить количество информации, содержащейся
в буквенной части сообщения по формуле
Iб  Nб  H б .
(3.4)
Подставляя в (3.4) численные значения параметров, получим
I б  30  7,141  214,23 бит .
Общее
сообщения
количество информации
рассчитывается
8
для буквенно-цифрового
из
соотношения
I  I б  I ц  214,23  26,575  240,805 бит . Отметим, что количество
информации для буквенной части сообщения определяется точно
также, как и в подразделе 3.1.
Общая энтропия сообщения рассчитывается аналогично
H
Iб  Iц
Nб  Nц

240,805
 бит 
 6,337 
.
38
 символ 
3.3 Вычисление количества информации и энтропии
сообщения для случая дву- и трехбуквенных сочетаний
Для русского алфавита, с учетом пробела, а также с учетом
 бит 
неравновероятности появления символов H1  4,35 
 ; с учетом
 символ 
 бит 
двубуквеных сочетаний H 2  3,52 
 ; с учетом трехбуквенных
символ


 бит 
сочетаний H 3  3,01 
.
 символ 
Исходя из этого можно записать выражение для количества
информации
I 2 x  H 2N б  I ц  105,6  26,575  132,175 бит ,
I 3 x  H 3N б  I ц  90,3  26,575  116,875 бит .
Энтропию сообщений каждого вида вычислим по уже знакомой
формуле
H 2x 
I 2x
 бит 
 3,478 
,
Nб  Nц
 символ 
H 3x 
I 3x
 бит 
 3,076 
.
Nб  Nц
 символ 
9
4 СОДЕРЖАНИЕ ОТЧЕТА
После выполнения расчетной части лабораторной работы каждый
студент должен подготовить отчет, в который входит:
1) титульный лист;
2) цель работы;
3) вариант задания;
4) расчетная часть в соответствии с п. 3 данных методических
указаний;
5) выводы по работе;
6) приложение
–
текст
исходных
Matlab
модулей,
использовавшихся при расчетах.
10
Приложение 1
Распределение вероятностей букв в русских текстах
11
Приложение 2
Исходный код m-файла для решения задания в пакете Matlab
12
13
Download