Лабораторная работа№5

advertisement
Лабораторная работа
сообщений с памятью
№5.
Энтропия
источника
дискретных
При передаче символов в сообщении вероятность последующего символа
связанна с предыдущим символом и определяется смыслом передаваемого
сообщения. В связи с этими учет взаимосвязи в последующих символах
приводит к уменьшению энтропии. Неопределенность условного
распределения символов H ( A / A) не может превышать энтропии их
безусловного распределения H ( A) .
H ( A / A)  H ( A)
Обозначим как P(ai / aj ) вероятность того, что источник послал символ
a i поле отправки символа a j .
Если символ a j принимает произвольное значение из алфавита
источника дискретных сообщений, то энтропию источника можно записать
как:
k
H ( A / A)   P(aj ) H ( A / aj ) 
j 1
k
k
    P(aj ) P(ai / aj ) log( P(ai / aj ))
i 1 j 1
Типичный пример дискретного источника с памятью – текст, написанный
на русском языке. Так, например вероятность появления буквы ‘О’
составляет 0.09, пробел встречается еще чаще, вероятность с которой он
встречается в тексте составляет 0.125, в тоже время есть символы которые
встречаются намного реже, так например символ ‘Ф’ встречается с
вероятностью 0.002.
По экспериментальным данным H ( A)  1.5 . Максимальное значение
энтропии для языка с алфавитом в 32 символа составляет:
дв.ед.
.
H ( A) max  log 2 32  5
символ
Таким образом, в обычном тексте содержится в 5 / 1.5  3.3 раза меньше
информации, чем в хаотически набранном тексте. Избыточность текста
составит:
pи  1  H ( A) / H ( A) max  0.7 .
Выполнение лабораторной работы
Этап I
Исследовать работу дискретного канала связи в программе лабораторной
работы TIPSlab4.exe. Для выполнения лабораторной работы в программе
необходимо перейти в пункт меню «Файл» и установить режим вывода
дополнительной информации.
Рис. 5.1. Иллюстрация включения режима вывода дополнительной
информации
После данной операции, программа будет выводить в окне ансамбля
дополнительную информацию – H ( A / A) .
После этого выполнение лабораторной работы аналогично выполнению
предыдущей работы. Введенное сообщение преобразуется в двоичный код,
после чего производится анализ ансамбля сообщений источника сообщений
и кодера (приемника и декодера).
Этап II
Написать программу в MatLab для расчета энтропии источника
дискретных сообщений с памятью. Программа реализуется на основе
программы предыдущей лабораторной работы.
Алгоритм программы приведен на рис. 5.2. Иллюстрация работы
алгоритма показан на рис. 5.3.
i= 1
H2 = 0
S
i= 1
i < 256
Ëàá.ðàáîòà ¹ 4
H, Hmax, Pi
sum = 0
i < 256
j= 1
j= 1
j < 256
j < 256
sum= sum + P 2(i,j)
P2(i, j) > 0
P2=zero(256,256)
i= 2
i <= L
P2( S(i-1),S(i) ) + 1
j= j+ 1
H2= H2+P(i)*
P2(i,j)*lo g2(P(i,j))
i= i+ 1
j= 1
j= j+ 1
j < 256
i= i+ 1
P2(i, j)= P (i, j)/sum
j= j+ 1
Pi2=1 - H2/Hmax
H2, Pi2
i= i+ 1
Рис. 5.2. Алгоритм программы вычисления информационных характеристик дискретного
источника с памятью
2
A
A
i
B
A
C
L
A
B
A
C
A
Âòðîé ñèìâîë
Ïåðâûé
ñèìâîë
A
B
C
sum
A
1
2
2
5
B
2
2
C
2
2
Рис. 5.3. Иллюстрация работы программы вычисления энтропии
источника дискретных сообщений с памятью
Этап III. Изучение информационных характеристик источника
дискретных сообщений с памятью более чем на два элемента.
Запустить
программу
TIPSlab5.exe.
Изучить
информационные
характеристики дискретного источника сообщений с памятью на несколько
элементов (предельное число выбирается в настройках программы),
сравнить с заранее рассчитанными, для русского текста значениями энтропии
с памятью на 2, 3, 4 и 5 элементов. В качестве источника сообщений Вам
предлагается взять уже готовый текстовый файл, который будет
преобразован к одному регистру, и в котором будут оставлены только
русские символы.
Экспериментально определить значение энтропии с памятью для
русского текста. С этой целью компьютер загадает предложение, которое
Вам изначально будет неизвестно. Вам необходимо посимвольно угадать все
слова этого предложения. Если Вы не правильно угадали символ, то
компьютер показывает правильный символ и пишет его в заглавном
регистре. После того как будет открыто все предложение, программа по
количеству правильно угаданных Вами символов рассчитает избыточность
Pи сообщения и энтропию H ( A / A) русского языка полученную по
экспериментальным данным. Сравнить значение со значениями
полученными в первом этапе лабораторной работы, и с известными Вам из
теории.
Изучить влияние совместной вероятности появления символов в
сообщении. Для этого Вам необходимо ввести сообщение, набор символов
которого будет рассматриваться в качестве исходного набора символов для
автоматической генерации сообщений. Программа позволяет ввести
сообщение, показывает статистику входящих в него символов. После Вам
предоставляется возможность сгенерировать сообщение из созданного
набора символов на основе вероятности появления символов в русском
языке, в том числе и с учетом влияния последовательности появления
символов (взаимная вероятность на 2, 3, 4 и 5 символов).
Пример и результаты работы программы приведены на рис. 5.4.
Рис. 5.4. Изучение статистических свойств русского языка
Содержание отчета
Отчет по лабораторной работе должен содержать:
1. Пример сообщения и расчет энтропии, избыточности для дискретного
источника сообщений с памятью.
2. Алгоритм и листинг программы расчета энтропии, избыточности для
источника дискретных сообщений с памятью.
3. Результаты сравнения информационных характеристик источника
дискретных сообщений с памятью и без памяти, полученных в
собственной реализации и в программе лабораторной работы.
4. Таблицу значений энтропии источника дискретных сообщений с
памятью на 2, 3, 4 и 5 символов. Сравнение полученной величины со
справочными материалами приведенными в программе.
5. Результаты экспериментального определения энтропии русского языка,
включая иллюстрацию способа получения.
6. Результаты автоматического построения предложения из заданного
набора символов.
Выводы по работе.
Download