Алфавитный и содержательный подходы к определению количества информации

advertisement
Алфавитный и
содержательный
подходы к определению
количества информации
Как измерить информацию?
Вопрос: «Как измерить информацию?»
очень непростой.
Ответ на него зависит от того, что
понимать под информацией. Но
поскольку определять информацию
можно по-разному, то и способы
измерения тоже могут быть разными.
Алфавитный подход к
определению количества
информации
Алфави́т (греч. ἀλφάβητος) — форма
письменности, основанная на
стандартном наборе знаков.
Алфавитный подход является объективным, т.е. он не
зависит от субъекта (человека), воспринимающего текст.
Способ
измерения
информации,
который
не
связывает
количество
информации с содержанием сообщения,
называется алфавитным подходом.
При алфавитном подходе к определению
количества информации отвлекаются от
содержания информации и рассматривают
информационное
сообщение
как
последовательность знаков определенной
знаковой системы.
Применение алфавитного подхода удобно
прежде всего при использовании технических
средств работы с информацией. В этом случае
теряют смысл понятия «новые — старые»,
«понятные
—
непонятные»
сведения.
Алфавитный подход является объективным
способом измерения информации в отличие от
субъективного содержательного подхода.
Основные сведения:

Количество информации, заключённой в сообщении,
определяется объёмом знаний, который несёт это
сообщение.

Единица измерения количества информации – бит.
Сообщение, уменьшающее неопределённость знаний
человека в 2 раза, несёт 1 бит информации.

Алфавитный подход к определению количества
информации позволяет определить количество
информации заключённой в тексте. Каждый человек
воспринимает информацию по разному. Алфавитный
подход является объективным. Он не зависит от человека
(субъекта), воспринимающего информацию.

Множество символов используемых при записи текста,
называется алфавитом. Количество знаков в различных
алфавитах разное. Чем больше алфавит, тем больше
информации несёт 1 символ алфавита.
Алфавит и его мощность
Все множество используемых в языке символов
будем традиционно называть алфавитом.
Алфавит – это вся совокупность символов,
используемых в некотором языке для
представления информации.
Обычно под алфавитом понимают только
буквы, но поскольку в тексте могут встречаться
знаки препинания, цифры, скобки, то мы их
тоже включим в алфавит. В алфавит также
следует включить и пробел, т.е. пропуск между
словами.
)
Алфавит и его мощность
Полное количество символов алфавита принято
называть мощностью алфавита.
Мощность алфавита
символов в алфавите.
–
это
количество
Будем обозначать эту величину буквой N.
Например, мощность алфавита из заглавных
русских букв и отмеченных дополнительных
символов равна 54 (33 буквы, 10 цифр и 11
знаков (препинания, скобки, пробел и др.).
АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЬЫЪ
ЭЮЯ0123456789().,!?«»:-; (пробел)
Количество
информации,
которое
содержит
сообщение,
закодированное
с помощью
знаковой
системы
Количество
информации
, которое
несет один
знак
Количест
во знаков
Каждый символ текста имеет свой
«информационный вес», который
зависит от мощности алфавита.
Количество информации (IС ),
которое содержит сообщение, равно
произведению количества символов в
сообщении (K) на «информационный вес»
одного знака в данном алфавите (IЗ ):
I С = IЗ ∙ K
А что если алфавит состоит только из
двух символов 0 и 1?
Компьютер хранит всю информацию
с помощью двух символов – 0 и 1.
Это двоичный алфавит.
Информационный вес символа
двоичного алфавита – 1 бит.
Бит - это наименьшая единица
информации, известная в природе.
Бит – это 0 или 1.
«binary digit» - «двоичная цифра».
Посчитайте количество бит:
100011010
Достаточный алфавит
Алфавит мощностью 256 символов
называется достаточным.
Это русские и латинские строчные и
прописные буквы, цифры, знаки
препинания, всевозможные скобки, знаки
арифметических операций и др.
N = 2i 256 = 28
Один символ достаточного алфавита
«весит» 8 бит.
8 бит – это байт.
На клавиатуре компьютера 256
символов.
Количество информации, которое приходится на 1
символ и количество знаков в алфавите
связывают формулой:
N=
2I
N – количество знаков в алфавите
знаковой системы(мощность алфавита);
I – количество информации, которое
несет каждый знак.
Количество информации в сообщении:
IС = I З ∙ K
IС – кол-во информации в сообщении;
IЗ – количество информации в одном
знаке;
K – количество знаков в сообщении
(длина кода)
Более крупные единицы
информации
Название
Условное
обозначение
Соотношение с другими единицами
Килобит
Кбит
1 Кбит = 1024 бит = 210 бит ≈ 1000 бит
Мегабит
Мбит
1 Мбит = 1024 Кбит = 220 бит ≈ 1 000 000 бит
Гигабит
Гбит
1 Гбит = 1024 Мбит = 230 бит ≈ 1 000 000 000 бит
Килобайт
Кбайт (Кб)
Мегабайт
Мбайт (Мб)
Гигабайт
Гбайт (Гб)
1 Кбайт = 1024 байт = 210 байт ≈ 1000 байт
1 Мбайт = 1024 Кбайт = 220 байт ≈ 1 000 000 байт
1 Гбайт = 1024 Мбайт = 230 байт ≈ 1 000 000 000 байт
Количество информации в
тексте
Сегодня очень многие люди для подготовки писем,
документов,
статей,
книг
и
пр.
используют
компьютерные текстовые редакторы. Компьютерные
редакторы, в основном,
работают с алфавитом
размером 256 символов.
В этом случае легко подсчитать объем информации в
тексте.
Если 1 символ алфавита несет 1 байт информации, то
надо
просто
сосчитать
количество
символов;
полученное число даст информационный объем текста
в байтах.
Сколько информации несет
один символ в русском языке
Представьте себе, что текст к вам поступает
последовательно, по одному знаку, словно бумажная
ленточка, выползающая из телеграфного аппарата.
Предположим, что каждый появляющийся на ленте
символ с одинаковой вероятностью может быть любым
символом алфавита.
В каждой очередной позиции текста может появиться
любой из N символов.
Тогда, согласно 2I = N , каждый такой символ несет I
бит информации, которое можно определить из
решения уравнения: 2I = 54.
Получаем: I = 5.755 бит.
Вот сколько информации несет один символ в русском
тексте!
Количество информации в
тексте
А теперь для того, чтобы найти количество информации
во всем тексте, нужно посчитать число символов в
нем и умножить на I.
Посчитаем количество информации на одной странице
книги.
Пусть страница содержит 50 строк. В каждой
строке — 60 символов. Значит, на странице
умещается 50x60=3000 знаков. Тогда объем
информации будет равен: 5,755 х 3000 =
17265 бит.
При алфавитном подходе к измерению
информации количество информации зависит не
от содержания, а от размера текста и мощности
алфавита.
Пусть небольшая книжка, сделанная с
помощью
компьютера,
содержит
150
страниц; на каждой странице — 40 строк, в
каждой строке — 60 символов.
Значит страница
байт информации.
содержит
40x60=2400
Объем всей информации в книге: 2400 х
150 = 360 000 байт.
360000 байт= 351,5625 Кб = 0,34332275Мб.
Объем книги  0,34 Мб.
Задание №1
Определите информационный объем
страницы книги, если для записи текста
использовались только заглавные
буквы русского алфавита, кроме буквы
Ё.
Решение:
1. N = 32
2. 2I = N
3. 2I = 32
4. I = 5
5. На странице 3000 знаков, тогда
объем информации = 3000 * 5 =
15000 бит.
Задание №2
1. Какое количество байтов понадобится
компьютеру, чтобы закодировать фразы:
а) «МИРУ МИР»;
б) «Компьютер – универсальный прибор.»?
2. Что больше: 4 байта или 32 бита?
3. Что больше: 1000 байт или 1 Кбайт?
4. Расположите единицы измерения информации в
порядке возрастания:
Гигабайт; Байт; Мегабайт; Килобайт.
5. Компьютерная игра имеет объем
10 Мбайт.
Сколько дискет объемом 1,44 Мбайт понадобится,
чтобы записать игру?
Скорость передачи
информации
Прием-передача
информации
могут
происходить с разной скоростью.
Количество информации, передаваемое за
единицу времени, есть скорость передачи
информации или скорость информационного
потока.
Очевидно, эта скорость выражается в таких
единицах, как бит в секунду (бит/с), байт в
секунду (байт/с), килобайт в секунду
(Кбайт/с) и т.д.
Информация передается со скоростью 2
кбайт/сек. Какой объем информации будет
передан за 30 минут? Ответ дайте в
мегабайтах.
Пример решения задачи:
Информационное сообщение объемом 1,5 Кб содержит
3072 символа. Сколько символов содержит алфавит, при
помощи которого было записано это сообщение?
Дано:
Ic=1,5Кб
К=3072
N-?
Решение.
Ic = 1,5 Кб = 1,5  1024 = 1536 байта
= 1536  8 = 12288 бит.
N = 2I
Iз = 12288/3072 з= 4 бита.
N = 24 = 16 символов.
Найти объем информации, содержащейся в тексте
из 3000 символов, написанном русскими буквами
(33 буквы +21 специальных символов).
Решение:
1) Найдем мощность алфавита:
N=33 русских прописных буквы + 33 русских
строчных буквы + 21 специальный знак = 87
символов.
2) Найдем информационный объем одного
символа:
i=log287=6,4 бит.
3) Найдем объем всего текста:
6,4 бит*3000=19140 бит = 2392,5 байт = 2,3 Кбайт.
Найти количество информации, содержащейся в
немецком тексте с таким же количеством символов
(26 букв).
Решение:
1) Найдем мощность немецкого алфавита:
N=26 немецких прописных буквы + 26 немецких
строчных буквы + 21 специальный знак = 73
символа.
2) Найдем информационный объем одного
символа:
i=log273=6,1 бит.
3) Найдем объем всего текста:
6,1 бит*3000=18300 бит = 2287,5 байт = 2,2 Кбайт.
Найти объем текста, записанного на языке,
алфавит которого содержит 128 символов и 2000
символов в сообщении.
Дано: К=2000, N=128.
Найти: VT - ?
Решение:
1) i=log2N=log2128=7 бит – объем одного
символа.
2) VT= i*K=7*2000=14000 бит = 1750 байт =
1,7 Кбайт – объем сообщения.
Ответ: 1,7 Кбайт .
Книга, набранная с компьютера, содержит
150 страниц: на каждой странице – 40 строк,
в каждой строке – 60 символов. Каков объем
информации в книге?
Дано: К=150*40*60, N=256.
Найти: I c- ?
Решение:
1) Iз =log2N=log2256=8 бит – объем одного
символа.
2)
Ic= Iз *K=8*150*40*60=2880000 бит =
360000 байт = 351,6 Кбайт– объем
сообщения.
Ответ: 351,6 Кбайт.
Система оптического распознавания символов позволяет преобразовывать
отсканированные изображения страниц документа в текстовый формат со
скоростью 4 страницы в минуту и использует алфавит из 65 536 символов.
Какое количество информации будет нести текст, каждая страница которого
содержит 40 строк по 50 символов, после 10 минут работы приложения?
Дано:N=65536, К=40*50,
V = 4 стр/мин, t = 10 мин.
Найти: VT - ?
Решение:
1) i=log2N=log265536=16 бит – объем одного символа.
2) VT стр=40*50*16 бит = 32000 бит– объем сообщения
в одной странице.
3) VT общ= 4стр/мин*10 мин* 32000бит =1280000 бит =
160000 байт = 156,25 Кбайт– объем всего сообщения
Ответ: 156,25 Кбайт.
Download