теоретический

advertisement
Содержание
Содержание ............................................................................................................ 1
Введение ................................................................................................................. 2
ЭЛЕМЕНТЫ ТЕОРИИ ИНФОРМАЦИИ............................................................ 4
§1. Энтропия как мера степени неопределенности ......................................... 6
§2. Условная энтропия ..................................................................................... 12
§3. Свойства энтропии ...................................................................................... 15
§4. Применение полученных свойств на конкретных задачах..................... 17
§5. Понятие об информации ............................................................................. 18
§6. Свойства количества информации ............................................................ 20
Заключение ........................................................................................................... 24
Литература ............................................................................................................ 25
1
Введение
Современное общество предъявляет к своим членам довольно высокие
требования, относящиеся к умению анализировать случайные факторы, оценивать
шансы, выдвигать гипотезы, прогнозировать развитие ситуации, принимать решение в
ситуациях, имеющих вероятностный характер, в ситуациях неопределенности,
проявлять комбинаторное мышление, необходимое в нашем перенасыщенном
информацией мире. Наиболее эффективно эти умения и навыки позволяет
формировать
курс
«Теория
вероятностей
и
математическая
статистика»,
о
необходимости изучения которого в российской школе люди науки спорят на
протяжении последнего столетия.
Включение теоретико-вероятностных знаний во всеобщее обучение является
одним из основных аспектов модернизации российского школьного математического
образования XXI века. Очевидно, что для качественного преподавания данного курса в
основной и средней школе необходима соответствующая специальная подготовка
педагогов, способных овладеть предметом, имеющим математическую природу и
широчайшее прикладное значение. Этим объясняется выбор математической науки
теории вероятностей для методической разработки.
В курсе теории вероятностей при изучении случайных событий и случайных
величин выстраивается некоторая математическая модель, определяется вероятность
наступления или не наступления случайного события и на основании этого делаются
выводы, проводятся сравнения. Но случайные события можно численно сравнивать и
по степени
неопределенности связанных с этими событиями опытов. Интуитивно
ясно, что степень неопределенности при подбрасывании монеты или игрального
кубика различна. Мерой неопределенности опыта
является энтропия. Умение
ориентироваться в этих показателях помогает человеку принимать оптимальные
решения, адекватно воспринимать получаемую информацию.
«Кто владеет информацией, тот владеет миром!» В этих словах
Э.
Талейрана определена главенствующая роль информации вообще. Особенно этот тезис
2
актуален в наш XXI век, век информации и компьютерных технологий, век
рациональных решений и действий. Но какой информацией надо владеть, каким ее
количеством,
чтобы
действительно
владеть
миром,
владеть
рационально
и
оптимально? И если вопрос о качестве информации решается исходя из особенностей
сферы ее применения, то вопрос о количестве информации – это основа самостоятельной, достаточно молодой, области математики – теории информации (1947-1948
гг., К. Шенон, американский математик, инженер), тесно связанной с кибернетикой и
имеющей непосредственное применение в технике связи, биологии, лингвистике,
психологии. Кроме того, оказывается, теория информации помогает ответить на вопрос
о наименьшем количестве некоторых действий по определению, например, фальшивой
монеты, или угадыванию объекта.
Желание увидеть возможности продолжения
понятия вероятности и их применения для измерения количества информации,
решения школьных логических задач, расширить представление о дискретной
математике, о ее возможностях при вполне жизненных ситуациях определило выбор
темы методической разработки: Энтропия и информация, цель которой заключается
в теоретическом и практическом освоении нетрадиционного вопроса теории
вероятностей и применении полученных знаний для разработки тематического
модуля по решению логических задач методом энтропии и информации.
Понятия энтропии и информации не являются общепринятым материалом курса,
но могут стать логическим и методическим его продолжением. Реальная ценность
понятия энтропии определяется в первую очередь тем, что выражаемая им «степень
неопределенности»
опытов
оказывается
во
многих
случаях
именно
той
характеристикой, которая играет роль в процессах, связанных с получением, передачей
и хранением информации.
Понятие и свойства энтропии и количества информации связаны с понятием и
свойствами логарифма, что свидетельствует о прикладном характере алгебры и начал
анализа, способствует дальнейшему формированию у учащихся систематических
математических знаний, умений и навыков, осознанию значимости межпредметных
связей.
3
ЭЛЕМЕНТЫ ТЕОРИИ ИНФОРМАЦИИ
В любом обществе люди передают, хранят и перерабатывают информацию.
Сообщение по радио, звонок на урок, красный свет светофора — все это передача
информации. Записи в дневнике, древние папирусы, библиотеки, архивы, справочные
системы — это хранилища информации. При вычислениях, поиске нужной справки,
написании научной статьи происходит переработка информации. Разнообразные
действия с информацией и их комбинации называются информационными процессами.
С давних пор люди задумывались над тем, как с помощью технических средств
упростить и ускорить работу с информацией. Изобретение книгопечатания позволило
быстро копировать информацию и облегчило её хранение. В XIX в. заметно
увеличились темпы передачи информации: сначала пароходы и паровозы стали
перевозить почту, затем появился телеграф, а в конце века — телефон. В XX в. информация превратилась в глобальную — её можно передавать за считанные секунды в
любую точку земного шара, причём не только тексты, но и изображения. Информация
хранится теперь в записях на бумаге, магнитных лентах, компакт-дисках, в
компьютерной памяти.
В XX в. появились технические устройства и приборы для переработки
информации. Любое автоматическое устройство перерабатывает информацию: поезд,
нажимая на определённый участок рельса, передаёт сигнал, включающий красный свет
светофора; приборы автоматической телефонной станции (АТС) преобразуют номер
телефона, набираемый нами, в соединение с нужным абонентом. Вершиной технических достижений в области работы с информацией является компьютер.
Человечество всегда пользовалось информацией, но только в середине XX в.
информационные процессы стали предметом научных исследований. Совокупность
наук об информационных процессах называют информатикой. Одна из них — наука
об измерении и передаче информации - называется теорией информации.[44].
Как происходит передача информации. Любой процесс передачи информации можно
представить несложной схемой, (рис.1.) Каждая из трёх частей в приведённой схеме
4
имеет определённые свойства (параметры). От этих свойств зависит качество передачи.
Рисунок 1
Передатчик информации
Канал связи
Приемник информации
Когда вы пишете записку и отдаёте её в руки адресату, то вы играете роль и
передатчика, канала связи. Вид информации при передаче в данном случае не
меняется: написанный текст в том же виде передаётся и принимается в нужное время и
без искажений. Если же вы посылаете записку через знакомого, то канал связи
становится самостоятельной частью схемы и в нём могут произойти не зависящие от
вас события. Например, записка потеряется или попадёт под дождь. В таких
обстоятельствах говорят: в канале связи возникли помехи. Или передача задержится,
если знакомый не сразу найдёт адресата. Значит, увеличится время передачи. Или
знакомый записку прочитает и сообщит адресату её содержание на словах. В
результате изменится (преобразуется) вид информации — из письменной она превратится в устную. При этом не исключено, что содержание информации исказится —
«канал связи» скажет либо не всё, либо не то. И, наконец, вас, вероятно, огорчит, что
записку прочитал не только ваш адресат, т. е. произошёл несанкционированный (не
разрешённый передатчиком) доступ к информации.
Из этого примера видно, какие параметры может иметь процесс передачи
информации и какие проблемы, связанные с ними, приходится решать. Нас интересуют
надёжность и время передачи, преобразования и защита информации. Сами части
схемы передачи могут быть очень сложны. Например, канал телефонной связи — это
не только провода, но и устройства на АТС, соединяющие абонентов; приборы,
усиливающие сигнал при передаче на дальние расстояния, и т. д.
Различные
технические
средства
обеспечивают
необходимое
в
каждом
конкретном случае качество передачи. Их разрабатывают специалисты по технике
связи. Однако большую роль в теории информации играют и математические методы.
В их основе лежат принципы измерения информации, с открытия которых и началась
теория информации. Чтобы понять, как измеряется информация введем сначала
понятие меры неопределенности – энтропия.
5
§1. Энтропия как мера степени неопределенности
Главным свойством случайных событий, изучение которых составляет основной
предмет этой главы, является отсутствие полной уверенности в их наступлении,
создающее известную неопределенность при выполнении связанных с этими
событиями опытов. Однако совершенно ясно, что степень этой неопределенности в
различных случаях будет совершенно разной. Если наш опыт состоит в определении
цвета первой встретившейся нам вороны, то мы можем почти с полной уверенностью
рассчитывать,
что этот цвет будет черным — хотя зоологи и утверждают, что
встречаются иногда белые вороны, вряд ли кто-нибудь усомнится в исходе такого
опыта. Несколько менее определенен опыт, состоящий в выяснении того, окажется ли
первый встреченный нами человек левшой или нет — здесь тоже предсказать
результат опыта можно почти не колеблясь, но опасения относительно правильности
этого предсказания будут более обоснованны, чем в первом случае. Значительно
труднее предсказать заранее, будет ли первый встретившийся нам на улице города
человек мужчиной или женщиной. Но и этот опыт имеет относительно небольшую
степень неопределенности по сравнению, например, с попыткой заранее указать
победителя в турнире с двадцатью совершенно незнакомыми нам участниками или
определить номер лотерейного билета, на который выпадет наибольший выигрыш в
предстоящем тираже лотереи: если, скажем, предсказав, что первый встреченный нами
на улице человек будет мужчиной, мы еще можем надеяться угадать, то вряд ли ктонибудь рискнет сделать прогноз в предпоследнем или,
тем более,
в последнем
случае.
Для практики важно уметь численно оценивать степень неопределенности самых
разнообразных опытов, чтобы иметь возможность сравнить их с этой стороны. Мы
начнем здесь с рассмотрения опытов, имеющих k равновероятных исходов. Очевидно,
что степень неопределенности каждого такого опыта определяется числом k: если при
k = 1 исход опыта вообще не является случайным, то при большом k, т. е. при наличии
большого числа разных исходов, предсказание результата опыта становится весьма
затруднительным.
6
Таким образом, совершенно ясно, что искомая численная характеристика
степени неопределенности должна зависеть от k, т. е. являться функцией f(k) числа k.
При этом для k=1 эта функция должна обращаться в нуль (так как в этом случае
неопределенность полностью отсутствует), а при возрастании числа k она должна
возрастать.
Для более полного определения функции f(k) надо предъявить к ней
дополнительные требования. Рассмотрим два независимых опыта α и β (т. е. такие два
опыта, что любые сведения об исходе первого из них никак не меняют вероятностей
исходов второго). Пусть опыт α имеет k равновероятных исходов, а опыт β имеет l
равновероятных исходов; рассмотрим также сложный опыт αβ, состоящий в
одновременном выполнении опытов α и β. Очевидно, что неопределенность опыта αβ
больше неопределенности опыта α, так как к неопределенности α здесь добавляется
еще
неопределенность
исхода
опыта
β.
Естественно
считать,
что
степень
неопределенности опыта αβ равна сумме неопределенностей, характеризующих опыты
α и β. А так как опыт αβ имеет, очевидно, kl равновероятных исходов (они получаются,
если комбинировать каждый из k возможных исходов опыта α с l исходами β), то мы
приходим к следующему условию, которому должна удовлетворять наша функция f(k):
f ( k  l )  f ( k )  f (l )
f (1)  0
f (k ) –монотонно возрастает
Данные условия наталкивают на мысль принять за меру неопределенности опыта,
имеющего k равновероятных исходов, число logk (так как log( kl)  log k  log l ). Такое
определение меры неопределенности согласуется также с условиями, что при k = 1 она
равна нулю и что при возрастании k она возрастает.
Заметим, что выбор основания системы логарифмов здесь несуществен, так
как в силу известной формулы log b k  log b a  log a k переход от одной системы
логарифмов к другой сводится лишь к умножению функции f (k )  log k на постоянный
множитель (модуль перехода log b a ), т. е. равносилен простому изменению единицы
7
измерения степени неопределенности. В конкретных примерах «меры степени
неопределенности» обычно используют логарифмы при основании два. Это означает,
что за единицу измерения степени неопределенности здесь принимается неопределенность, содержащаяся в опыте, имеющем два равновероятных исхода (например, в
опыте, состоящем в подбрасывании монеты и выяснении того, какая сторона ее
оказалась сверху, или в выяснении ответа «да» или «нет» на вопрос, по поводу
которого мы
с равными
основаниями
можем ожидать, что ответ будет
утвердительным или отрицательным). Такая единица измерения неопределенности
называется двоичной единицей или битом1 [42],[41]. В дальнейшем будем все время
пользоваться двоичными единицами (битами); таким образом, запись log k (где мы, как
правило, не будем указывать основания системы логарифмов) будет обычно означать
log2k. Заметим, что в исследуемой работе ничего не изменилось бы, если бы мы
использовали более привычные десятичные логарифмы; это лишь означало бы, что
единицу степени неопределенности опыта, имеющего 10 равновероятных исходов.
Таким является, например, опыт, состоящий в извлечении шара из урны с десятью
перенумерованными шарами, или опыт по отгадыванию одной цифры, если любая из
десяти цифр имеет одинаковую вероятность быть загаданной. Эта последняя единица
степени неопределенности (которую называют десятичной единицей или дитом)
примерно в 3
1
1
раза больше двоичной единицы (так как log 2 10  3,32  3 ).
3
3
Таблица вероятностей для опыта, имеющего k равновероятных исходов, имеет вид:
Таблица 1
Исходы
опыта
А1
А2
…
Аk
Вероятности
P( А1)
P( А2)
…
P( Аk)
Так как общая неопределенность опыта по нашему условию равна logk, то можно
считать, что каждый
1
отдельный исход, имеющий вероятность 1/k, вносит
Английское слово бит было образовано с помощью сжатия слов binary digit, означающих «двоичная цифра» или
«двоичная единица»
8
неопределенность, равную
1
1
1
log k   log . Но тогда естественно считать, что в
k
k
k
результате опыта, таблица вероятностей для которого имеет вид
Таблица 2
Исходы
А1 ,
А2,
Исходы опыта
А1
А2
A3
Вероятности
1/2
1/3
1/6
вносят
A3
неопределенность,
равную
соответственно
1
1
1
1
1
1
 log ,  log ,  log , так что общая неопределенность этого опыта равна
2
2
3
3
6
6
1
1 1
1 1
1
 log  log  log .
2
2 3
3 6
6
Аналогично этому можно положить, что в самом общем случае, для опыта α с
таблицей вероятностей:
Таблица 3
Исходы опыта
А1
А2
…
Аk
Вероятности
1/k
1/k
...
1/k
Мера неопределенности равна  p( A1 ) log p( A1 )  p( A2 ) log p( A2 )  ...  p( Ak ) log p( Ak ).
Исторически первые шаги к ведению понятия степени неопределенности были
сделаны еще в 1928 году американским связистом Хартли, предложившим
характеризовать степень неопределенности опыта с k различными исходами числом
logk
[41].
Хартли
хорошо
понимал,
что
предложенная
им
мера
степени
неопределенности очень удобна в некоторых практических задачах, не учитывает
различия между характером имеющихся исходов. Однако он считал, что эти различия
определяются
в первую очередь «психологическими факторами» и должны
учитываться поэтому, лишь психологами, но никак не инженерами или математиками.
Ошибочность
точки
зрения
Хартли
была
показана
Клодом
Шенноном,
предложившим принять в качестве меры степени неопределенности опыта α с
возможными исходами А1, А2,…,Аk величину
9
k
k
H ( )   P( Ai ) log P( Ai )   P( Ai ) log P( Ai )
1
i 1
i 1
где P( A1 ), P( A2 ),..., P( Ak ) – вероятности отдельных исходов. Он же предложил назвать эту
величину «энтропией».
Энтропию дискретного опыта удобно находить как вес следующего графа:
Рисунок 2
A1
log[P(A1)]-1
P(A1)
P(An)
A1
log[P(A2)]-1
α
…
P(A2)
An
log[P(An)]-1
n
H ( )   P( Ai ) log[ P( Ai )] 1
i 1
Реальная ценность понятия энтропии определяется в первую очередь тем, что
выражаемая им «степень неопределенности» опытов оказывается во многих случаях
именно той характеристикой, которая играет роль в разнообразных процессах,
встречающихся в природе, обществе и технике и так или иначе связанных с передачей
и хранением каких-либо сообщений.
Педагогу понятие энтропии полезно знать, например, для возможного
применения в экспериментальной психологии, одной из основных задач которой
является изучение психологической реакции организма на какие-либо воздействие.
Установлено, что среднее время реакции определяется энтропией опыта α, состоящего
в подаче сигнала.
10
Пример 1.1 Учащиеся двух классов получили следующие оценки за контрольную
работу
Группа I
В
каком
Таблица 4
Группа II
оценка
оценка
2
3
4
5
Число
учащихся
4
6
6
8
классе
опрос
наудачу
Число
учащихся
выбранного
Таблица 5
2
3
4
5
4
8
8
4
ученика
содержит
больше
неопределенности?
Решение. Пусть αi = {опрос ученика i- ого класса}, i=1,2.
α2
α1
i
Рисунок 3
H ( 1 ) 
1
1
1
7
1

log 6   log 4   2  log 3  log 3  (бит);
6
3
2
6
4

1
1

1

H ( 2 )   log 6   2   log 3   2  log 3  (бит);
3
6

3

H ( 1 )  H ( 2 ) 
5 1
5
 log 3   0,8  0.
6 2
6
Следовательно, H (1 )  H ( 2 ) и опрос ученика из первого класса содержит больше
неопределенности, чем из второй.
Пример 1.2. Какую степень неопределенности содержит опыт извлечения карточки с
простой цифрой, вынутой из разрезной цифровой азбуки?
Решение. Из десяти цифр четыре (2,3,5,7) являются простыми, поэтому вероятность p1
извлечь карточку с простой цифрой равна 0,4, а вероятность противоположного
события p2  1  0,4  0,6 . Воспользуемся формулой Шеннона
4
4 6
6
log  log
 log 10  log 4  log 6  log 2  log 5  2  log 2  log 3 
10
10 10
10
 (log 5  log 3  2) (бит).
H ( ) 
11
Пример 1.3. Какую степень неопределенности содержит угадывание месяца рождения
случайно встреченного человека?
Решение. Поскольку можно считать равновероятным рождение неизвестного человека
в любой из 12 месяцев, то воспользуемся формулой Хартли
H ( )  log 12  log 4  log 3  (2  log 3) (бит).
Пример 1.4 Какую степень неопределенности содержит опыт угадывания цвета двух
шаров, извлеченных из урны, в которой находятся два белых и три черных шара?
Решение. Построим граф неопределенности данного опыта.
Рисунок 4
H ( ) находим как вес всего полученного графа.
H ( ) 
1
10 
9
3
log 10   log   3  log 10  log 3  (1  log 5  0,9 log 3) (бит).
10
3
10
 10
§2. Условная энтропия
В предыдущем параграфе были рассмотрены опыты, результат которых не
зависит друг от друга, но теория вероятностей рассматривает и зависимые друг от
друга опыты. Например, α и β – последовательные извлечения двух шаров из одной
урны, или последовательное извлечение двух карт из колоды и т.д. В этом более
общем случае нельзя считать, что энтропия сложного опыта αβ будет равна сумме
энтропий Н(α) и Н(β). Учитывая понятие условной вероятности, введем понятие и
соответствующие формулы условной энтропии.
Условная энтропия
H ( / Ak ) опыта
следующим образом
H (  / Ak )   P( B j / Ak ) log[ P( B j / Ak )] 1
β относительно исхода Аk определяется
j
12
Условной
энтропией
H ( /  )
опыта
β
относительно
опыта
α
называется
математическое ожидание условной энтропии опыта β относительно всех исходов
опыта α:
H (  /  )   P( Ai ) H (  / Ai )
i
Условную энтропию H (  /  ) предполагается находить по следующему графу [7]:
A1
Рисунок 5
H ( / A1 )
P(A2)
A1
P(An)
…
P(A1)
An
H ( / A2 )
α
Н ( / An )
Пример 2.1. В урне два белых и три черных шара. Опыт β состоит в извлечении из
урны двух шаров, а опыт α – в предварительном извлечении из той же урны (без
возвращения) одного шара. Найти условную энтропию H (  /  ) .
Решение. Для вычисления H (  /  ) воспользуемся графом
опыт α
β
Рисунок 6
H ( /  ) 
 3  1
2  1
1


1
  4 3
 log 4   2  log 2   log 6   2   log 3   2   log 3 (бит).

5  4
2


3
  5 5
 5  6
13
Пример 2.2. Какую энтропию содержит опыт угадывания простой цифры при
извлечении из цифровой азбуки при условии, что одна карточка утеряна?
Решение. Пусть опыт α = {утеряна одна карточка}={A1,A2}, где А1={утеряна карточка
с простой цифрой}, А2={утеряна карточка с непростой цифрой}. Опыт β={угадывание
карточки с простой цифрой}, и в задаче предлагается найти условную энтропию
H (  /  ) . H ( /  )  P( A1 )  H ( / A1 )  P( A2 )  H ( / A2 ) .
Поскольку
карточек
P ( A2 )  1  P ( A1 ) 
с
простыми
цифрами
четыре,
то
P ( A1 ) 
4
, а
10
6
3
3 6
9
2
, H (  / A1 )  log  log  log 3  , поскольку после утери карточки с
10
9
9 9
6
3
простой цифрой осталось 9 карточек, и из них 3 с простой цифрой.
H (  / A2 ) 
4
9 5
9
4
5
5
8
log  log  log 9   2  log 5  2 log 3  log 5  .
9
4 9
5
9
9
9
9
H ( /  ) 
2
2 3
5
8 8
1
4
 log 3     2 log 3  log 5     log 3  log 5   (бит).
5
3 5
9
9 5
3
5
2 способ. Построим граф двух зависимых опытов α и β:
опыт α
β
Рисунок 7
21
2
3 3 4
9 5
9 8
1
4
 log 3  log    log  log   log 3  log 5  
53
3
2 59
4 9
5 5
3
5
 1,6  1,6  0,33  2,3  0,8  1 (бит).
Тогда H (  /  ) 
Пример 2.3. Какую степень неопределенности содержит опыт угадывания четности
суммы очков случайно взятой кости домино, если известно, что одна кость утеряна?
Решение: Утеряна может быть кость с четной суммой или с нечетной, что задает
предварительный опыт α. Находим условную энтропию как полный вес графа
14
Рисунок 8
опыт α
β
45
9 4
9  3  16
27 11
27  4 
5
8

log    2 log 3  log 5   
 log  log    log
79
5 9
4  7  27
16 27
11  7 
9
9
3
16
11
20
11
32 
  17
  3 log 3 
 4  log 11   log 3  log 5  log 11   (бит).
7
27
27
63
63
21 
 7
H ( /  ) 
§3. Свойства энтропии
Если понятие энтропии связано с понятием логарифма, то естественным будет
рассмотреть вопрос о свойствах меры неопределенности.
1. Н ( )  0 .Энтропия не может принимать отрицательных значений
Доказательство: Н ( )  p1 log p11  p 2 log p 21  ...  p n log p n1  0
p1 log p11  0, p 2 log p 21  0, p n log p n1  0
0  pi  1, i
pi1  1  log 2 pi1  0
2. существуют ситуации, когда Н ( )  0
Доказательство: если P( Ai )  1, и  P( A j )  0, j  i
1
n
3. Н ( )  max, если все P( Ai )  , i  1,2,...n . Когда все исходы равновероятны
Доказательство: Рассмотрим доказательство на примере.
Доказать, что у опытов α с двумя исходами наибольшую энтропию имеет тот α0, у
которого исходы равновероятны.
15
Решение.
Построим
график
функции
f ( x)   x log x (основание
логарифма
больше 1) [7] (Рисунок 9)
Рассмотрим среднюю линию MN трапеции ABCD,
где A( p,0); B( p, f (q)); C (q, f (q)); D(q,0).
MN 
1
1
1
( p log p  q log q)   log ,
2
2
2
поскольку
функция f (x) на промежутке выпукла вверх.
Рисунок 9
Тогда H ( )  p log p 1  q log q 1   p log p  q log q  log 2  H ( 0 ).
4.
H (   )  H ( )  H (  /  )
Доказательство: Пусть опыты α и β содержат по два исхода
  A1 , A2 
  B1 , B2 
Тогда     A1  B1 , A1  B2 , A2  B1 , A2  B2 
опр
H (   )  P( A1  B1 ) log P 1 ( A1  B1 )  P( A1  B2 ) log P 1 ( A1  B2 )  P( A2  B1 ) log P 1 ( A2  B1 ) 
 P( A2  B2 ) log P 1 ( A2  B2 )  P( A1  B1 ) log P( A1  B1 )  P( A1  B2 ) log P( A1  B2 ) 
 P( A2  B1 ) log P( A2  B1 )  P( A2  B2 ) log P( A2  B2 )   P( A1 )  P( B1 / A1 )log P( A1 ) 
 log P( B1 / A1 )  P( A1 )  P( B2 / A1 )log P( A1 ) log P( B2 / A1 )  P( A1 )  P( B1 / A1 ) 
 log P( A2 ) log P( B1 / A2 )  P( A2 )  P( B2 / A2 )log P( A2 ) log P( B2 / A2 )  H ( ) 
 P( A1 )  H (  / A1 )  P( A2 )  H (  / A2 )  H ( )  H (  /  ).
5. 0  H (  /  )  H (  ) (когда исход опыта  полностью определяется исходом
 и
когда опыты  и  независимы). Во всех случаях условная энтропия заключается
между нулем и энтропией опыта  .
6. H (1   2  ...   k )  H (1 )  H ( 2 )  ...  H ( k )
Согласно
определению
энтропии
и
по
правилу
сложения
энтропий
H (   )  H ( )  H (  ) , при условии, что  и  независимы и H (  /  )  0 в том случае,
когда при любом исходе опыта
 результат опыта 
становится полностью
определенным (это условие выполняется в том случае, если опыт  с самого начала не
является неопределенным. При этом мы имеем H (   )  H ( ) . Если же опыты  и 
16
являются
независимыми,
H ( /  )  H ( ) .
то
В
этом
случае
формула H (   )  H ( )  H (  /  ) переходит в более простую H (   )  H ( )  H (  ) . При
этом существенно, что во всех случаях энтропия H (  /  ) заключается между нулем и
энтропией опыта  .
§4. Применение полученных свойств на конкретных задачах
Пример 4.1. Найти энтропию угадывания простых цифр при извлечении двух карточек
из цифровой азбуки.
Решение. Построим граф неопределенности данного сложного опыта.
Рисунок 10
опыт β
опыт α
 
H (   ) 

2 15  4 15 
1
2
2
2 8
8
log   log   2  log 3  log 3  log 5   log 3  log 5 
15
2  15
4
3
15
15
15 15
15
8
1
2
6

 2  log 3   log 3  log 5   (бит).
15
3
3
5

Решение2. Воспользуемся свойством энтропии, по которому H (   )  H ( )  H (  /  ) .
8
5
1
3
4
5
2
5
5
2
3
5
5
3
3
5
2
5
Из примера(2) H (  /  )  log 3  log 5  , а H ( )  log  log  log 5  log 3  .
3
2
8
1
4
2
6
Тогда H (   )   log 5  log 3     log 3  log 5     log 3  log 5   (бит).

5
5 5
3
5

3
5
Пример 4.2. Найти энтропию четности сумм очков на двух костях, извлеченных из
полного набора домино.
Решение. Пусть опыт α = {извлечение первой кости домино}, а β = {извлечение
второй кости домино}. Тогда энтропию сложного опыта α∙β находим по правилу
17
сложения энтропий. H (   )  H ( )  H (  /  ) , где условная энтропия H (  /  ) вычислена
в решении примера(3).
H ( ) 
4
7 3
7
4
3
log  log  log 7   2  log 3.
7
4 7
3
7
7
8 3
20
11
32 

  17
H (   )   log 7   log 3    log 3  log 5  log 11   
7 7
63
63
11 

 7
20
11
56 

  2 log 3  log 5  log 7  log 11   (бит).
63
63
21 

§5. Понятие об информации
Основные задачи, которые ставил перед собой Клод Шеннон в середине XX в.
при создании направления, в последующие годы получившего название «теория
информации», были связаны с чисто техническими вопросами электросвязи и
радиосвязи. Работы
Шеннона оказали большое стимулирующее влияние на
исследования, относящиеся к передаче и сохранению, какой бы то ни было,
информации в природе и технике.
Вернемся к величине H(β), характеризующей степень неопределенности опыта β.
Равенство этой величины нулю означает, что исход опыта β заранее известен; большее
или меньшее значение числа H(β) отвечает большей или меньшей проблематичности
результата опыта. Какое-либо измерение или наблюдение α, предшествующее опыту β,
может ограничить количество возможных исходов опыта β и тем самым уменьшить
степень его неопределенности; так, степень неопределенности опыта, состоящего в
нахождении самого тяжелого из трех грузов, уменьшается после сравнения на весах
двух из них. Для того чтобы результат измерения (наблюдения) α мог сказаться на
последующем опыте β, разумеется, необходимо, чтобы этот результат не был известен
заранее; поэтому α можно рассматривать как вспомогательный опыт, также имеющий
несколько допустимых исходов. Тот факт, что осуществление α уменьшает степень
неопределенности β, находит свое отражение в том, что условная энтропия H(β/α)
опыта β при условии выполнения α оказывается меньше (точнее — не больше)
первоначальной энтропии H(β) того же опыта. При этом, если опыт β не зависит от α,
то осуществление α не уменьшает энтропии β, т. е. H(β/α) = H(β); если же результат α
18
полностью предопределяет исход β, то энтропия β уменьшается до нуля: H(β/α) = 0.
Таким
образом,
информацию
можно
измерить
числом,
которое
называется
количеством информации об опыте β, содержащемся в опыте α:
I ( ,  )  H (  )  H (  /  ).
Количество информации
I ( ,  ) указывает,
насколько осуществление опыта 
уменьшает неопределенность опыта  , т. е. как много нового узнаем мы об исходе
опыта β, произведя измерение (наблюдение) α; Таким образом, мы получаем
возможность численного измерения информации, что весьма полезно во многих
случаях.
Соотношение между понятиями энтропии и информации в известном смысле
напоминает соотношение между физическими понятиями потенциала и разности
потенциалов. Энтропия есть абстрактная «мера неопределенности»; ценность этого
понятия в значительной мере заключается в том, что оно позволяет оценить влияние
на определенный опыт β какого-либо другого опыта  как «разность энтропии»
I ( ,  )  H (  )  H (  /  ).
И численного измерения информации. Информация Y(α,β), показывает, на сколько
осуществление опыта а уменьшает неопределенность опыта β.
Количество информации предлагается находить на ориентированном графе [7]:
Рисунок 11
опыт α
log[ P( B1 )]
log[ P( B2 )]1
В2
P( B2 )
P( A1 )
P( A2 )
…
β
P( B1 )
log[ P ( Bm )]1
P( Bm )
Вm
A1
A2
…
В1
1
P( An )
An
19
H ( / A1 )
H ( / A2 )
H (  / An )
β
Проиллюстрируем его на следующем примере.
Пример 5.1. Найти количество информации при вынимании козырной карты из 16
карт с картинками, содержащейся в предварительно извлеченной одной карте.
Решение. Пусть опыт β = {извлечение карты из 16 с картинками}, а опыт α =
{предварительное извлечение одной карты}. Для вычисления I ( ,  ) используем
ориентированный граф.
опыт α
β
β
Рисунок 12
3
1 4
5
1
 1 1
I ( ,  )  H (  )  H (  /  )   log 4  log 4     log 5   log 
4
4 5
4
4
 4 5
3 4
15 3 11
15  
3
2 3
2 11
 1

  log   log    2  log 3    log 5   log 15   log 11 
4 15
4 4 15
11  
4
5 4
5 20
 4

3
11


  2,8  log 3  log 5  log 11 (бит).
2
20


§6. Свойства количества информации
По аналогии с тем, что энтропия имеет определенные свойства, то и количество
информации – величина подчиняющаяся ряду свойств, которые служат средством
проверки с одной стороны и средством рационального решения с другой. Рассмотрим
свойства количества информации:
1. 0  I ( ,  )  H (  ) (по определению информации)
2. I ( ,  )  H ( )  H (  )  H (   ).
20
Доказательство: так как энтропия произведения двух опытов
H (   )  H ( )  H (  /  ) , то I ( ,  )  H (  )  H (  /  )  H (  )  H ( )  H (   ).
3. I ( ,  )  I (  ,  )
Доказательство: H (   )  H (    )  H (  )  H ( /  ), тогда
I (  ,  )  H ( )  H ( /  )  H (  )  H (  /  )  I ( ,  ).
4. I (  ,  )  I (  ,  ), где  ,  ,  - три произвольных опыта.
Таким образом, сложный опыт  (т. е. пара опытов  и  ) всегда содержит не
меньшую информацию относительно любого опыта  , чем простой опыт  . Этот факт
представляется вполне естественным с точки зрения наглядных представлений об
«информации». При этом равенство I (  ,  )  I (  ,  ) будет иметь место лишь в том
случае, когда условная вероятность любого исхода опыта  при условии, что опыты 
и  имеют некоторые определенные исходы, не изменяется при изменении исхода 
(т. е. зависит лишь от исхода  ). В этом последнем случае совершенно естественно
считать, что сложный опыт  не содержит никакой дополнительной информации
относительно  по сравнению с опытом  , так что равенство I (  ,  )  I (  ,  ) здесь
также находится в полном соответствии с наглядными представлениями о понятии
«информация».
Предположим теперь, что равенство I (  ,  )  I (  ,  ) имеет место. Можно
доказать, что в этом случае всегда I ( ,  )  I (  ,  )
Таким образом, если сложный опыт  не содержит никакой дополнительной
информации об  по сравнению с опытом  , то информация об  , содержащаяся в
опыте  , не может быть больше информации об  , содержащейся в опыте  . При этом
знак «меньше или равно» в последнем неравенстве можно заменить знаком равенства в
том и только в том случае, когда I (  ,  )  I ( ,  ) т. е. когда сложный опыт  не
21
содержит дополнительной информации об  также и по сравнению с опытом  .
К понятию меры количества информации можно подойти с другой стороны.
Пусть происходит некоторое событие А с вероятностью P(A). Если вероятность P(A)
близка к единице, то событие А практически достоверно и его появление не несет
никакой информации. Однако если произойдет противоположное событие А , то А
несет значительную информацию. Поэтому за количество меры информации события
А принимаем величину I ( A)  log[ P( A)] 1   log P( A).
Пусть α есть некоторый эксперимент с исходами А1,А2,…,Аn, которые
осуществляются с вероятностями P(A1),P(A2),…,P(An).Информация, полученная в
результате испытания α, есть случайная величина Iα, принимающая значения
 log P( Ai ), i  1,2,..., n.
A1

I ( A) : 
  log P( A1 )
A2
 log P( A2 )


  log P( An ) 

An
Подсчитаем среднюю информацию опыта α. Примем за меру исхода А i
его
n
вероятность P(Ai). Тогда M [ I A ]   P( Ai ) log P( Ai )  H ( )
i 1
Таким образом, математическое ожидание информации эксперимента α есть энтропия
этого эксперимента. Единица измерения информации такая, как и энтропии, - 1 бит.
Пример 6.1. В урне два белых и два черных шара. Опыт β состоит в извлечении из
урны двух шаров, а опыт α – предварительном извлечении из той же урны (без
возвращения) одного шара. Найти количество информации об опыте β, содержащейся
в опыте α.
Решение. Построим ориентированный граф опытов α и β (Рисунок 13)
1  1
1
1
1

1

   1
 
I ( ,  )   log 6   2   log 3   2     log 3   3     log 3   3   log 3   log 3  .
3
3
6

3

   3
 
 2  3
22
Рисунок 13
β
β
Пример 6.2. В предыдущем примере (1.5.1.) поменяем местами очередность
проведения опытов  и  . Найти количество информации об опыте  , содержащемся
в опыте  .
Решение.
H ( ) 
1
1
log 2  log 2  1. Найдем условную энтропию H ( /  ) по графу
2
2
опыт β
α
Рисунок 14
H ( /  ) 
2 1
1
11
2

(1  log 1)  2   log 2   4  . Отсюда I ( ,  )  H (  )  H ( /  )  1   .
3 3
6
3 2
3

Эти два примера иллюстрируют третье свойство количества информации.
23
Заключение
Понятия Энтропия и информация широко применяются при решении нестандартных
задач. Для хорошей нестандартной задачи характерно отнюдь не лежащее на
поверхности, необычное, зачастую неожиданное решение. При решении таких задач
применяются, кроме известных средств, понятия и методы, которые не входят в
программу по математике средней школы, даже с введением содержательной линии
«Теория вероятностей». Среди таких задач в данном случае можно выделить
логические задачи на взвешивание для определения фальшивой монеты, на угадывание
задуманного объекта и так называемые, задачи о лжецах. Особенностью этих задач
является то, что в них речь идет о минимальном количестве взвешиваний, вопросов.
Решение с помощью графа – наглядное решение, развивающее внимание, логическое
мышление, комбинаторные рассуждения. Но вопрос о наименьшем при этом остается.
Математическим аппаратом, позволяющим осуществить проверку решения на графе,
или выполнить полное решение как раз и является вычисление энтропии и количества
информации. Таких задач достаточное количество есть в книге Б.А. Кордемского
«Математическая
смекалка»[24]
и
Е.В.
Галкина
«Нестандартные
задачи
по
математике» [18], а также в учебном пособии В.В. Афанасьева «Теория вероятностей в
вопросах и задачах» [7] и др.
24
Литература
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
Афанасьев В.В. Введение в теорию вероятностей: Учебно-методическое пособие.
Я.: ЯГПУ им. К. Д. Ушинского, 1990.-25 с.
Афанасьев В.В. Введение в теорию вероятностей с помощью графов//Математика.
1999. №35. С.8-12.(прил.к газете «Первое сентября»).
Афанасьев В.В. Дидактический модуль курса стохастики (IV семестр): Учебное
пособие. Я.: ЯГПУ им. К. Д. Ушинского, 2001.-38 с.
Афанасьев В.В., Мамонтов С.И. Случайные величины: Учебное пособие. Я.:
ЯГПУ им. К. Д. Ушинского, 1993. - 38 с.
Афанасьев В.В., Мамонтов С.И. Случайные события: Учебное пособие. Я.: ЯГПУ
им. К.Д. Ушинского, 1999.- 48 с.
Афанасьев В.В. Теория вероятностей в примерах и задачах: Учебное пособие. Я.:
ЯГПУ им. К.Д. Ушинского, 1994.-123 с.
Афанасьев В.В. Теория вероятностей в вопросах и задачах: Учебное пособие. Я.:
ЯГПУ им. К.Д. Ушинского, 2004.- 246 с.
Афанасьев В.В. Формирование творческой активности студентов в процессе
решения математических задач: Монография. Я: ЯГПУ им. К.Д.Ушинского, 1996.
- 166 с.
Бродский Я. Об изучении элементов комбинаторики, вероятности, статистики в
школе// Математика. 2004. №31. С.2-8.
Байиф Ж.К. Логические задачи: Пер. с фр. / Под ред. И.М. Яглома. М.: Мир, 1983.172 с.
Березина Л.Ю. Графы и их применение: Пособие для учителей. М.: Просвещение,
1979. -143 с.
Бизам Д., Герцег Я. Игра и логика: 85 логических задач: Пер. с венг. М.: Мир,
1975. - 358 с.
Бизам Д., Герцег Я. Многоцветная логика: 175 логических задач: Пер. с венг. М.:
Мир, 1978.- 435 с.
Болл У., Кокстер Г. Математические игры и развлечения: Пер. с англ. / Под ред.
И.М. Яглома. М.: Мир, 1986.- 470 с.
Блехер П. О людях правдивых, лгунах и обманщиках // Квант. 1980. №11. С.8-11.
Вентцель Е.С. Теория вероятностей. М.: Наука, 1964.- 576 с.
Гарднер М. Математические чудеса и тайны. М.: Мир, 1986.- 126 с.
Галкин Е.В. Нестандартные задачи по математике: задачи логич. характера: кн.
для учащихся 5-11 кл. М.: Просвещение, 1996.- 160 с.
Гмурман В.Е.Руководство к решению задач по теории вероятностей и
математической статистике/В. Е. Гмурман. М.: Высшая школа, 2000.-400 с.
Гнеденко Б.В. Курс теории вероятностей/ Б.В. Гнеденко. М.: Наука, 1988. -446 с.
Гнеденко Б.В. Курс теории вероятностей. – 6-е изд., перераб. и доп. М.: Наука,
1988.-176 с.
Игнатьев Е.И. В царстве смекалки / Под ред. К.П. Сикорского. – 2-е изд., переаб. –
М.: Наука, 1978.-191 с.
25
23. Кошкин Г.М. Энтропия и информация//Соросовский Образовательный Журнал.
2001. Т.7, №11. С.122-127.
24. Кордемский Б.А. Математическая смекалка. – 9-е издание. М.: Наука, 1991.-574 с.
25. Кордемский Б.А. Увлечь школьников математикой: Материал для классных и
внеклассных занятий. М.: Просвещение, 1981-112 с.
26. Мамикон М. Обобщенная задача о фальшивых монетах // Квант. 1980. №1. С.2729
27. Мордкович А.Г., Семенов П.В. События. Вероятности. Статистическая обработка
данных: Доп. параграфы к курсу алгебры 7-9 кл. общеобразоват. учреждений. – 2-е
изд. М.: Мнемозина, 2004.-112 с.
28. Нагибин Ф.Ф. Применение графов для решения логических задач//Математика в
школе. 1963. №3. С. 69-71.
29. Никифорова М. Занимательные логические задачи // Математика. 2005. №10. С.48.
30. Никифорова М. Занимательные логические задачи // Математика. 2005. №7. С.1518.
31. Орлов А.И. Поиск предмета//Квант. – 1971., №7, С.17-21.
32. Оре О. Теория графов/ О.Оре. М.: Наука, 1980.-336 с.
33. Оре О. Графы и их применение: для школьников: пер. с англ. М.: Мир, 1965.-174
с.
34. Перельман Я.И. Живая математика: Математические рассказы и головоломки /
Под ред. В.Г. Болтянского.–11-е изд. М.: Наука, 1978.-174 с.
35. Пойа Д. Математическое открытие. – М.: Наука,1970. – 452 с.
36. Стойлова Л.П. Математика: Учеб. Пособие для студ.сред.пед.учеб.заведений. – 2-е
издание. М.:Академия, 1977.- 464 с.
37. Таросенко Ф.П. Введение в курс теории информации. Томск: ТГУ, 1963. -240 с.
38. Ткачева М.В. Элементы статистики и вероятность: учеб. пособие для 7-9 кл.
общеобразовательных учреждений / М.В. Ткачева, Н.Е. Федорова. -2-е изд. М.:
Прсвещение, 2005. - 112 с.
39. Шестопал Г.Как обнаружить фальшивую монету//Квант.1978.№10.С. 22-26
40. Шклярский Д.О., Ченцов Н.Н., Яглом И.М. Избранные задачи и теоремы
элементарной математики. Арифметика и алгебра. – 5-е изд., перераб. М.: наука,
1976. 384 с. (Б-ка математического кружка. Вып. 1.)
41. Штейнгауз Г. сто задач: Пер. с пол. – 4-е изд. М.: Наука. Гл. ред. Физматлит.,
1986.-144 с.
42. Энциклопедический словарь юного математика / Сост. А.П. Савин. – М.:
Педагогика, 1985. – 352 с.
43. Энциклопедия для детей. Т.11. математика / глав. Ред. М.Д. Аксенова. – М.:
Аванта+, 2001. – 688 с.
44. Яглом А.М. Вероятность и информация/А.М. Яглом, И.М. Яглом. – М.: наука,
1973. – 511с.
26
Для заметок
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
27
Для заметок
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
____________________________________________________
28
Download