Лекция_Понятие_информации

advertisement
Понятие информации
Введение. Изучать любую теорию невозможно без неких базовых принципов, на которых
строятся дальнейшие исследования. Для теории информации такими понятиями являются:
информация, канал связи, шум, кодирование. Способы измерения информации и её
количество являются важными составляющими дальнейшего обучения. Клод Шеннон
предложил вероятностный подход к измерению дискретной и непрерывной информации.
Термин "информация" широко применяется в современной науке, да и во всей
человеческой практике. Фактически вся деятельность человека связана с переработкой,
получением, передачей и хранением информации. Мы живём в мире, насыщенном
разнообразной информацией, без неё само наше существование невозможно. Об этом
хорошо сказал академик А. Берг: "Информация проникает во все поры жизни людей и
общества… Жизнь невозможна ни в вещественно-энергетическом, ни в информационном
вакууме".
Понятие информация является одним из фундаментальных в современной науке
вообще и базовым для информатики. Информация наряду с материей, энергией и
сознанием является одной из наиболее фундаментальных философских категорий.
Однако, если задаться целью формально определить понятие "информация", то сделать
это будет чрезвычайно сложно.
Большинство ученых в наши дни отказываются от попыток дать строгое
определение информации и считают, что информацию следует рассматривать как
первичное, неопределимое понятие. В геометрии, например, невозможно выразить
содержание базовых понятий "точка", "плоскость" через более простые понятия; понятие
множества в математике. Содержание основных, базовых понятий в любой науке должно
пояснено на примерах или выявлено путём сопоставления с содержанием других понятий.
В случае с понятием "информация" проблема его определения ещё более сложная,
так как оно является общенаучным понятием. Данное понятие используется в различных
науках (физике, биологии, кибернетике, информатике и др.), при этом в каждой науке
понятие "информация" связано с различными системами понятий.
Например, в физике мерой беспорядка для термодинамической системы является
энтропия системы, тогда как информация (антиэнтропия) является мерой
упорядоченности и сложности системы.
Информация – нематериальная сущность, при помощи которой с любой
точностью можно описывать реальные (материальные), виртуальные
(возможные) и понятийные сущности. Информация – противоположность
неопределенности.
В словаре иностранных слов имеется следующее определение информации:
Информация [<лат. infomatio разъяснение, изложение] – 1) сообщение о чёмлибо; 2) сведения, являющиеся объектом хранения, переработки и передачи;
3) в математике, кибернетике – количественная мера устранения
неопределённости (энтропии), мера организации системы; теория
информации – раздел кибернетики, изучающий количественные
закономерности, связанные со сбором, кодированием, передачей и
преобразованием информации [Современный словарь иностранных слов: Ок.
20 000 слов. – СПб.: "Дуэт", 1994. – 752 с, С. 245].
Как следует из определения, термин информация происходит от
латинского слова informatio, что означает сведения, разъяснения, изложение.
В настоящее время наука пытается найти общие свойства и закономерности,
присущие многогранному понятию информация, но пока это понятие во
многом остается интуитивным и получает различные смысловые наполнения
в различных отраслях человеческой деятельности, например:
1. в быту информацией называют любые данные, сведения, знания,
которые кого-либо интересуют. Например, сообщение о каких-либо
событиях, о чьей-либо деятельности и т.п.;
2. в технике под информацией понимают сообщения, передаваемые в
форме знаков или сигналов (в этом случае есть источник сообщений,
получатель (приемник) сообщений, канал связи);
3. в кибернетике под информацией понимают ту часть знаний, которая
используется для ориентирования, активного действия, управления, т.е.
в целях сохранения, совершенствования, развития системы;
4. в теории информации под информацией понимают сведения об
объектах и явлениях окружающей среды, их параметрах, свойствах и
состоянии, которые уменьшают имеющуюся о них степень
неопределенности, неполноты знаний.
Свойства информации. Любую информацию можно характеризовать с
точки зрения её объективности, достоверности, полноты, актуальности,
понятности и полезности. Социальная (общественная) информация обладает
ещё и дополнительными свойствами. А именно: имеет семантический
(смысловой) характер, т.е. понятийный, так как именно в понятиях
обобщаются наиболее существенные признаки предметов, процессов и
явлений окружающего нас мира.
Имеет языковую природу (кроме некоторых видов эстетической
информации, например, изобразительного искусства). Одно и то же
содержание может быть выражено на разных естественных (разговорных)
языках, записано в виде математических формул и т.д. С течением времени
количество информации растёт, информация накапливается, происходит её
систематизация, оценка и обобщение.
Человек существо социальное, поэтому для общения с другими людьми
он должен обмениваться с ними информацией, причём обмен, всегда
происходит на определённом языке – русском, китайском, английском и т.д.
Участники, например, конференции или семинара должны владеть тем
языком, на котором ведётся общение, тогда информация будет 1) понятной
всем участникам. Здесь следует отметить, что кроме знания языка, нужно
быть специалистов по тематике конференции.
Информация должна быть 2) полезной, тогда дискуссия приобретает
практическую ценность для участников. Бесполезная информация создаёт
информационный шум, который затрудняет восприятие полезной
информации.
Отметим также следующие свойства информации:
3. полнота – свойство информации исчерпывающе (для данного
потребителя) характеризовать отображаемый объект или процесс;
4. актуальность – способность информации соответствовать нуждам
потребителя в нужный момент времени. Неактуальная информация
бесполезна и поэтому никто, кроме историков, не читает
прошлогодних газет;
5. достоверность – свойство информации не иметь скрытых ошибок.
Информация достоверна, если она отражает истинное положение дел.
Достоверная информация помогает принять нам правильное решение.
Следует отметить, что достоверная информация со временем может стать
недостоверной, если она устареет и перестанет отражать истинное
положение дел. Недостоверная информация вводит членов общества в
заблуждение и может быть причиной социальных потрясений. Один из
примеров. Грузинское телевидение передало сообщение, в котором
говорилось, что русские войска напали на Грузию (март 2010 года).
Это было очередной "уткой", на народ поверил, и началась паника
среди населения. Недостоверной информация может быть по
следующим причинам:
 преднамеренное искажение (дезинформация);
 искажение в результате воздействия помех ("испорченный
телефон");
 когда значение реального факта преуменьшается или
преувеличивается (слухи, рыбные истории).
6. доступность – свойство информации, характеризующее возможность
ее получения данным потребителем;
7. релевантность – способность информации соответствовать нуждам
(запросам) потребителя;
8. защищенность – свойство, характеризующее невозможность
несанкционированного использования или изменения информации;
9. эргономичность – свойство, характеризующее удобство формы или
объема информации с точки зрения данного потребителя.
Для того чтобы человек мог правильно ориентироваться в окружающем
мире, информация должна быть полной и точной. Задача получения полной и
точной информации стоит перед наукой. Овладение научными знаниями в
процессе обучения позволяет человеку получить полную и точную
информацию о природе, обществе и технике.
В литературе можно следующий набор свойств информации:
важность, достоверность, своевременность, доступность, «большеменьше» и т.д.
В заключении можно привести таблицу свойств информации (см.
таблицу 1):
Таблица 1.
Объективность
Достоверность
Полнота
Актуальность
Ценность (полезность)
Ясность (понятность)
Свойства информации
Субъективность
Недостоверность (ложность)
Неполнота
Неактуальность
(устаревшая или несвоевременная)
Бесполезность
Непонятность
Информацию следует считать особым видом ресурса, при этом имеется
в виду толкование "ресурса" как запаса неких знаний материальных
предметов или энергетических, структурных или каких-либо других
характеристик предмета. В отличие от ресурсов, связанных с материальными
предметами, информационные ресурсы являются неистощимыми и
предполагают существенно иные методы воспроизведения и обновления, чем
материальные ресурсы.
С этой точки зрения можно рассмотреть такие свойства информации:
1. запоминаемость;
2. передаваемость;
3. воспроизводимость;
4. преобразуемость;
5. стираемость.
Запоминаемость – одно из самых важных свойств. Запоминаемую
информацию будем называть макроскопической (имея в виду
пространственные масштабы запоминающей ячейки и время запоминания).
Именно с макроскопической информацией мы имеем дело в реальной
практике.
Передаваемость информации с помощью каналов связи (в том числе с
помехами) хорошо исследована в рамках теории информации К.Шеннона. В
данном случае имеется в виду несколько иной аспект – способность
информации к копированию, т.е. к тому, что она может быть “запомнена”
другой макроскопической системой и при этом останется тождественной
самой себе. Очевидно, что количество информации не должно возрастать при
копировании.
Воспроизводимость информации тесно связана с её передаваемостью и не
является ее независимым базовым свойством. Если передаваемость означает,
что не следует считать существенными пространственные отношения между
частями системы, между которыми передается информация, то
воспроизводимость характеризует неиссякаемость и неистощимость
информации, т.е. что при копировании информация остается тождественной
самой себе.
Фундаментальное свойство информации – преобразуемость. Оно означает,
что информация может менять способ и форму своего существования.
Копируемость есть разновидность преобразования информации, при котором
ее количество не меняется. В общем случае количество информации в
процессах преобразования меняется, но возрастать не может.
Свойство стираемости информации также не является независимым. Оно
связано с таким преобразованием информации (передачей), при котором ее
количество уменьшается и становится равным нулю.
Данных свойств информации недостаточно для формирования ее меры, так
как они относятся к физическому уровню информационных процессов.
Информацию можно разбить по областям использования:
1. Естественнонаучная:
 математическая;
 физическая;
 химическая;
 биологическая и т.д.
2. техническая:
 технологическая;
 планово-экономическая;
 конструкторско-технологическая и т.д.
3. гуманитарная:
 методы обучения;
 организация системного образования;
 психоинформационная совместимость;
 семья;
модели психики и их практическое применение.
4. социальная:
 кадровый менеджмент (подбор и расстановка кадров);
 интегральный информационный портрет организации;
 выявление слабых мест и т.д.
5. политическая:
 методы пропаганды и агитации, рекламы;
 проведение внутренней и внешней политики;
 международные отношения и т.д.
Виды информации
Информация может быть двух видов: дискретная информация и
непрерывная (аналоговая). Дискретная информация характеризуется
последовательными точными значениями некоторой величины, а
непрерывная – непрерывным процессом изменения некоторой величины.
Непрерывную информацию может, например, выдавать датчик атмосферного
давления или датчик скорости автомашины. Дискретную информацию
можно получить от любого цифрового индикатора: электронных часов,
счетчика магнитофона и т.п. Компьютеры работают с информацией,
представленной в дискретной форме.
Дискретная информация удобнее для обработки человеком, но
непрерывная информация часто встречается в практической работе, поэтому
необходимо уметь переводить непрерывную информацию в дискретную
(дискретизация) и наоборот. Модем (это слово происходит от слов модуляция
и демодуляция) представляет собой устройство для такого перевода: он
переводит цифровые данные от компьютера в звук или электромагнитные
колебания-копии звука и наоборот.
Формы информации
При рассмотрении и определении информации всегда обращают
внимание на взаимосвязь пары объектов – источник и потребитель.
Источником информации, прежде всего, являются природные объекты –
люди, растения, животные, научные эксперименты, технологические
процессы. Потребители информации – люди, приборы, компьютеры и
аппараты.
Разнообразие источников и потребителей привело к существованию
различных форм её представления (см. рис. 1): символьной, текстовой и
графической. Символьная форма, основанная на использовании символов
букв, цифр, знаков, в том числе знаков пунктуации и других знаков и
является наиболее простой, но она практически применяется только для
передачи несложных сигналов о различных событиях. Например, зелёный
свет уличного светофора сообщает о том, что разрешено движение
транспорта.
ИНФОРМАЦИЯ
Символьная
Текстовая
Графическая
Рис. 1. Формы информации
Более сложной является текстовая форма представления информации.
Здесь, как и предыдущей форме, используются символы: буквы, цифры,
математические знаки. Однако информация заложена не только в символах,
но и в их сочетании, порядке следования. Например, слово "лист" в
зависимости от сочетания с другим словом: лист бумаги, лист дерева, "лист"
конечная вершина в дереве решений. Эти слова имеют одинаковые буквы и
порядок, но имеют различный физический и семантический смысл.
Благодаря взаимосвязи символов и отображению речи человека текстовая
информация чрезвычайно удобна и широко используется.
Однако самой ёмкой и сложной является графическая форма
представления информации. К этой форме относятся виды природы,
фотографии, чертежи, схемы, рисунки, играющие большое значение в нашей
жизни и содержащие огромную массу информации. Следовательно, к
графической форме информации относятся различные виды изображений.
Мы в своей повседневной жизни говорим "большое количество
информации", масса информации", но информация не имеет, ни веса, ни
геометрических размеров, не обладает никакими физическими или
механическими свойствами. Говорят, что информация не материальна.
Однако для её существования должен быть какой-либо материальный объект,
передающий или хранящий информацию. Таких объектов достаточно много,
и их число всё время возрастает. Ниже приведены некоторые носители
информации:
При передаче информации
При хранении информации
Воздух
Бумага
Вода
Ткань
Электрический ток
Дерево
Рентгеновский луч
Кремний
Луч света
пластмасса
Для передачи информации человечество издавна использует воздух,
ибо благодаря его колебаниям уже много веков передаётся речь. Благодаря
колебаниям воздуха человек получает информацию о работающих машинах
и аппаратах.
Широко используется для передачи информации электрический ток.
Благодаря его колебаниям информация передаётся по телеграфной,
телефонной и телексной сетям. Это позволяет передать информацию на
любые расстояния между городами, странами и континентами.
Самым распространённым материалом для хранения информации
является бумага. На бумаге напечатаны книги, журналы, отчёты и другие
документы.
В настоящее время человечество переходит на электронный вариант
хранения информации: электронные библиотеки, электронные книги и
журналы и т.д.
Единицы количества информации: вероятностный и объемный подходы
Информацию, которую получает человек, можно считать мерой
уменьшения неопределённости знаний. Если некоторое сообщение приводит
к уменьшению неопределённости наших знаний, то можно говорить, что
такое сообщение содержит информацию.
Подход к информации как мере уменьшения неопределённости знаний
позволяет количественно измерять информацию, что чрезвычайно важно для
информатики.
Определить понятие "количество информации" довольно сложно. Это
прежде всего нужно для того, чтобы сравнивать друг с другом массивы
информации, определить какие размеры должны иметь материальные
объекты (бумага, магнитная лента, оперативная память, CD- и DVD-диски,
флэш-память и т.д.
Для определения количества информации нужно найти способ
представить любую его форму (см. рис. 1) в едином виде. Таким видом стала
двоичная форма представления информации. Она заключается в записи
любой информации в виде последовательности только двух символов 0 и 1.
В решении этой проблемы существуют два основных подхода.
Исторически они возникли почти одновременно. В конце 40-х годов XX века
один из основоположников кибернетики американский математик Клод
Шеннон развил вероятностный подход к измерению количества
информации, а работы по созданию ЭВМ привели к "объемному" подходу.
В основе всей теории информации лежит открытие, сделанное
американцем Р. Хартли в 1928 г., и состоящее в том, что информация
допускает количественную оценку. В 1948 г. К. Шеннон придал этой теории
завершённость. Большой вклад в дальнейшее развитие и обобщения теории
информации внесли отечественные учёные А.Н. Колмогоров, А.А. Харкевич,
Р.С. Стратонович. Сравнительно недавно исследователи советских архивов
сообщили о том, что теория, известная как теория Шеннона, была создана
А.Н. Колмогоровым ещё в 1938 г., но была засекречена, так как
использовалась в военных разработках.
Для количественного выражения любой величины необходимо
определить единицу измерения. Так, например, для измерения массы выбран
килограмм, для измерения длины в качестве единицы выбран метр и т.д.
Аналогично, для определения количества информации необходимо ввести
единицу измерения.
Опр. За единицу количества информации принимается такое количество
информации,
которое
содержит
сообщение,
уменьшающее
неопределённость в два раза. Такая единица названа "бит".
Подход Хартли
Подход Хартли базируется на фундаментальных теоретикомножественных, по существу комбинаторных основаниях, а так же на
некоторых интуитивно очевидных предположениях.
Пусть имеется множество, состоящее из N элементов. Рассмотрим
процесс выбора элемента из данного множества. Возможность быть
выбранным для всех элементов одинакова (вероятность выбора для каждого
элемента одинакова). Существует объективная неопределённость в вопросе о
том, какой элемент будет выбран. Эта неопределённость тем больше, чем
больше N – количества элементов множества. Примем, что выбор одного
элемента даёт нам следующее количество информации:
I=log2(N) – это и есть формула Хартли для определения количества
информации.
Следовательно, для выбора одного из N вариантов нужна информация I
битов.
Введем в рассмотрение численную величину, измеряющую
неопределенность – энтропию (обозначим ее H). Согласно развитой теории,
в случае равновероятного выбора одного элемента из N величины N и H
связаны между собой формулой Хартли H=log2(N). При проведении опыта
произойдет конкретное событие, и определенность будет снята, и мы
получим количество информации I=H, т.е. количество информации равно
значению энтропии данного множества.
Опр. Энтропия [гр. en в, внутри+thrope поворот, превращение] – 1) физ.
одна из величин, характеризующих тепловое состояние тела или системы;
мера внутренней неупорядоченности системы; 2) в теории информации –
мера неопределённости ситуации (случайной величины)ис конечным или
счетным числом исходов, например, опыт, до проведения которого
результат в точности неизвестен [Современный словарь иностранных слов:
Ок. 20 000 слов. – СПб.: "Дуэт", 1994. – 752 с, с. 719].
Рассмотрим примеры. Пусть имеется колода карт в 32 листа, из которой
наудачу вытаскивают одну карту. Перед вытаскиванием карты существует 32
возможных события (это может быть любая из 32 двух карт колоды). Какое
количество информации мы получим после вытаскивания карты. В нашем
случае N равно 32. Следовательно, количество информации равно
I=log2(N)=log2(32)=log2(25)=5. Таким образом, I=5 битам, т.е. количество
информации, которое мы получили после вытаскивания карты из колоды.
Игра "Бар-Кохба". В 135 году в древней Иудее вспыхнуло восстание
против владычества римлян. Предводителем восставших был Бар-Кохба.
Согласно легенде, Бар-Кохба послал в лагерь римлян лазутчика. Тот многое
выведал, но был схвачен и брошен в темницу. Его пытали, вырвали ему язык.
Лазутчику удалось бежать из темницы. Однако, не имея языка, он не мог
рассказать о том, что подсмотрел во вражеском лагере. Но Бар-Кохба нашел
выход из положения. Он стал задавать лазутчику такие вопросы, на которые
достаточно было ответить лишь "да" или "нет" (достаточно кивнуть или
покачать головой). Используя набор таких вопросов, Бар-Кохба смог
получить от безъязычного лазутчика всю необходимую информацию.
В романе А. Дюма "Граф Монте-Кристо" описывается аналогичный
случай. Один из героев романа, старик Нуартье, разбит параличом; он не
может ни говорить, ни двинуть рукой. И тем не менее родственники
общаются с ним, предлагая ему лишь такие вопросы, на которые требуется
ответить "да" или "нет". В первом случае Нуартье закрывает глаза, а во
втором несколько раз мигает.
Следовательно, любую информацию можно представить в виде ответов
"да" или "нет" соответствующим образом сконструировав вопросы.
Количество информации, необходимое для отгадывания, можно измерить
числом вопросов при наиболее рациональном способе ведения дознания.
Каждый ответ можно закодировать одной из двоичных цифр. Можно,
например, единице сопоставить "да", а нулю – "нет". Тогда необходимая для
отгадывания информация будет закодирована в виде некоторой комбинации
нулей и единиц.
Приведём ещё примеры игры "Бар-Кохба". В аудитории 32 студента.
Преподаватель загадал одного из них. Как выяснить, кого именно? В игре
"Угадай число". При оптимальной стратегии интервал чисел (учеников)
всегда должен делиться пополам. В этом случае на каждом шаге ответ "да"
или "нет" будет нести максимальное количество информации в один бит.
Количество информации, которое мы получаем, достигает
максимального
значения,
если
события
равновероятны
(равновозможны).
Подход Шеннона
или Вероятностный подход. Клод Шеннон основывался на теоретиковероятностном подходе. Это связано с тем, что исторически теория
информации Шеннона выросла из потребностей теории связи, имеющей дело
со статистическими характеристиками передаваемых сообщений и каналов
связи.
Пусть имеется некоторое конечное множество событий (состояний
системы) x1, x2, …, xn, которые могут наступать с вероятностями p1, p2, …, pn
соответственно. Исходное множество событий характеризуется некоторой
неопределённостью – энтропией, зависящей только от мощности (количества
элементов N) множества. Если измерять количество информации изменением
степени неопределённости, то количество информации по Шеннону
численно совпадает с энтропией исходного множества
I=
. Если исходы равновероятны p1= p2=…= pn=1/N,
то формула Шеннона переходит в формулу Хартли.
Зам. В литературе встречается другая формула определения информации
по Шеннону: I=
.
Вывод. Ещё раз вернёмся к вопросу о том, что принимать за единицу ее
измерения. С точки зрения подхода Хартли I будет равно единице при
N=2. Иначе говоря, в качестве единицы принимается количество
информации, связанное с проведением опыта, состоящего в получении
одного из двух равновероятных исходов (примером такого опыта может
служить бросание монеты, при котором возможны два исхода: "орел",
"решка"). Такая единица количества информации называется "бит".
Таким образом, один бит информации – есть информация,
содержащаяся в кодовом знаке, принимающем лишь два значения, при
условии, что оба эти значения равновероятны или (как было сказано
выше)
За единицу количества информации принимается такое количество
информации, которое содержит сообщение, уменьшающее
неопределённость в два раза.
Это интересно. В 1865 г. немецкий физик Рудольф Клаузиус ввел в
статистическую физику понятие энтропии или меры уравновешенности
системы.
В 1921 г. основатель большей части математической статистики,
англичанин Роналд Фишер впервые ввел термин "информация" в
математику, но полученные им формулы носят очень специальный
характер.
В 1948 г. Клод Шеннон в своих работах по теории связи выписывает
формулы для вычисления количества информация и энтропии. Термин
энтропия используется Шенноном по совету патриарха компьютерной
эры фон Неймана, отметившего, что полученные Шенноном для теории
связи формулы для ее расчета совпали с соответствующими формулами
статистической физики, а также то, что "точно никто не знает" что же
такое энтропия.
В качестве примера определим количество информации, связанное с
появлением каждого символа в сообщениях, записанных на русском языке.
Будем считать, что русский алфавит состоит из 33 букв и знака "пробел" для
разделения слов. По формуле Хартли I=log234~5.09 бит.
Однако, в словах русского языка (равно как и в словах других языков)
различные буквы встречаются неодинаково часто. Ниже приведена табл. 3
вероятностей частоты употребления различных знаков русского алфавита,
полученная на основе анализа очень больших по объему текстов.
Воспользуемся для подсчета информации I формулой Шеннона:
I~4.72 бит. Полученное значение I, как и можно было предположить, меньше
вычисленного ранее. Величина I, вычисляемая по формуле Хартли, является
максимальным количеством информации, которое могло бы приходиться на
один знак.
Аналогичные подсчеты I можно провести и для других языков,
например, использующих латинский алфавит – английского, немецкого,
французского и др. (26 различных букв и "пробел"). По формуле Хартли
получим I=log227~4.76 бит.
Таблица 1
Частотность букв русского языка
i
Символ
P(i),
частота
1
2
3
4
5
6
7
8
9
10
11
– (тире)
О
Е
Ё
А
И
T
H
C
P
B
0.175
0.090
0.072
0.072
0.062
0.062
0.053
0.053
0.045
0.040
0.038
i
12
13
14
15
16
17
18
19
20
21
22
Символ
P(i),
частота
Л
К
М
Д
П
У
Я
Ы
З
Ь
Ъ
0.035
0.028
0.026
0.025
0.023
0.021
0.018
0.016
0.016
0.014
0.014
i
23
24
25
26
27
28
29
30
31
32
33
34
Символ
P(i),
частота
Б
Г
Ч
Й
Х
Ж
Ю
Ш
Ц
Щ
Э
Ф
0.014
0.012
0.012
0.010
0.009
0.007
0.006
0.006
0.004
0.003
0.003
0.002
Рассмотрим алфавит, состоящий из двух знаков 0 и 1. Если считать, что
со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их
появления (P(0)=P(1)=0.5), то количество информации на один знак при
двоичном кодировании будет равно H=log22=1 бит.
Таким образом, количество информации (в битах), заключенное в
двоичном слове, равно числу двоичных знаков в нем.
Объемный подход
В двоичной системе счисления знаки 0 и 1 называют битами (от
английского выражения Binary digiTs – двоичные цифры). В компьютере бит
является наименьшей возможной единицей информации. Объем
информации, записанной двоичными знаками в памяти компьютера или на
внешнем носителе информации, подсчитывается просто по количеству
требуемых для такой записи двоичных символов. При этом в частности,
невозможно нецелое число битов (в отличие от вероятностного подхода).
Благодаря введению понятия единицы информации появилась
возможность определения размера любой (графической, текстовой и
символьной) информации числом битов. Образно говоря, если, например,
объём грунта измеряют в кубометрах, то объём информации – в битах.
Для удобства использования введены и более крупные, чем бит,
единицы количества (объёма) информации. Так, двоичное слово из восьми
знаков содержит один байт информации. 1024 байта образуют килобайт
(Кбайт), 1024 килобайта – мегабайт (Мбайт), а 1024 мегабайта – гигабайт
(Гбайт) гига (G или Г), тера (T), пета (P или П) и других. Но для битов и
байтов они означают не степени 10, а степени двойки: кило – 210=1024 (103),
мега – 220 (106), гига – 230 (109), тера – 240 (1012), пета – 250 (1015).
Хранение, измерение, обработка и передача информации
Для хранения информации используются специальные устройства
памяти. Дискретную информацию хранить гораздо проще непрерывной, т.к.
она описывается последовательностью чисел. Если представить каждое
число в двоичной системе счисления, то дискретная информация предстанет
в виде последовательностей нулей и единиц. Присутствие или отсутствие
какого-либо признака в некотором устройстве может описывать некоторую
цифру в какой-нибудь из этих последовательностей. Например, позиция на
дискете описывает место цифры, а полярность намагниченности – её
значение. Для записи дискретной информации можно использовать ряд
переключателей, перфокарты, перфоленты, различные виды магнитных и
лазерных дисков, электронные триггеры и т.п. Одна позиция для двоичной
цифры в описании дискретной информации называется битом (bit, binary
digit). Бит служит для измерения информации. Информация размером в один
бит содержится в ответе на вопрос, требующий ответа "да" или "нет".
Непрерывную информацию тоже измеряют в битах.
Между вероятностным и объемным количеством информации
соотношение неоднозначное. Далеко не всякий текст, записанный
двоичными символами, допускает измерение объема информации в
вероятностном (кибернетическом) смысле, но заведомо допускает его в
объемном. Далее, если некоторое сообщение допускают измеримость
количества информации в обоих смыслах, то это количество не обязательно
совпадает, при этом кибернетическое количество информации не может быть
больше объемного.
В прикладной информатике практически всегда количество
информации понимается в объемном смысле!
Печатный лист (п. л.) — это площадь поверхности одной стороны бумажного листа,
которая воспринимает краску с печатной формы, формата 60×90 см (который называется
условным).
Чтобы вычислить объём книги, используют переводной коэффициент — отношение
площади физического печатного листа к площади условного печатного листа (формата
60×90 см):






при формате листа 60×84 см — коэффициент 0,93;
70×100 — 1,29;
70×90 — 1,17;
70×108 — 1,40;
75×90 — 1,26;
84×108 — 1,68.
Формула вычисления переводного коэффициента: длина × ширина фактического
печатного листа (в см) / (60×90). Результат округляется до сотых. Пример перевода: если
формат листа 60×84 см, а объём в физических печатных листах равен 5, то объём в
условных печатных листах равен 5×0,93 = 4,65.
В одном и том же печатном листе в зависимости от размеров шрифта, количества знаков в
строке, количества строк на странице, размера полей и т. п. может уместиться материал
различного объёма (см. авторский лист).
Авторский лист равен 40 000 печатных знаков (включая пробелы между словами, знаки
препинания, цифры и пробелы до конца строк, которые заполнены знаками не
полностью), либо 700 строкам стихотворного текста, либо 3000 см² иллюстративного
материала (графиков, рисунков, таблиц).[1] Авторский лист составляет основу
специальной системы подсчёта для определения объёма подготовленных к изданию
рукописей и опубликованных работ.
Как правило, один авторский лист составляет 22-23 машинописные страницы[2] при
стандартном заполнении или 10—12 страниц для текста, набранного на компьютере и
напечатанного шрифтом 12-го кегля с одинарным интервалом (на страницу приходится в
среднем 3500 знаков).[1]
От термина «авторский лист» следует отличать «печатный лист» и «учётно-издательский
лист».
Как ни важно измерение информации, нельзя сводить к нему все
связанные с этим понятием проблемы. При анализе информации социального
(в широком смысле) происхождения на первый план могут выступить такие
ее свойства как истинность, своевременность, ценность, полнота и т.д. Их
невозможно оценить в терминах «уменьшение неопределенности»
(вероятностный подход) или числа символов (объемный подход). Обращение
к качественной стороне информации породило иные подходы к ее оценке.
При аксиологическом подходе стремятся исходить из ценности,
практической значимости информации, т.е. качественных характеристик,
значимых в социальной системе. При семантическом подходе информация
рассматривается как с точки зрения формы, так и содержания. При этом
информацию связывают с тезаурусом, т.е. полнотой систематизированного
набора данных о предмете информации. Отметим, что эти подходы не
исключают количественного анализа, но он становится существенно сложнее
и должен базироваться на современных методах математической статистики.
Понятие
информации
нельзя
считать
лишь
техническим,
междисциплинарным и даже наддисциплинарным термином. Информация –
это фундаментальная философская категория. Дискуссии ученых о
философских аспектах информации надежно показали несводимость
информации ни к одной из этих категорий. Концепции и толкования,
возникающие на пути догматических подходов, оказываются слишком
частными, односторонними, не охватывающими всего объема этого понятия.
Попытки рассмотреть категорию информации с позиций основного
вопроса философии привели к возникновению двух противостоящих
концепций – так называемых, функциональной и атрибутивной.
"Атрибутисты" квалифицируют информацию как свойство всех
материальных объектов, т.е. как атрибут материи. "Функционалисты"
связывают
информацию
лишь с
функционированием
сложных,
самоорганизующихся систем.
Можно попытаться дать философское определение информации с
помощью указания на связь определяемого понятия с категориями
отражения и активности. Информация есть содержание образа,
формируемого в процессе отражения. Активность входит в это определение в
виде представления о формировании некоего образа в процессе отражения
некоторого субъект-объектного отношения. При этом не требуется указания
на связь информации с материей, поскольку как субъект, так и объект
процесса отражения могут принадлежать как к материальной, так и к
духовной сфере социальной жизни. Однако существенно подчеркнуть, что
материалистическое решение основного вопроса философии требует
признания необходимости существования материальной среды – носителя
информации в процессе такого отражения. Итак, информацию следует
трактовать как имманентный (неотъемлемо присущий) атрибут материи,
необходимый момент ее самодвижения и саморазвития. Эта категория
приобретает особое значение применительно к высшим формам движения
материи – биологической и социальной.
Известно большое количество работ, посвященных физической
трактовке информации. Эти работы в значительной мере построены на
основе аналогии формулы Больцмана, описывающей энтропию
статистической системы материальных частиц, и формулы Хартли.
Соответствующие материалы можно найти в литературе, отраженной в
приведенном ниже перечне.
Мы часто сталкиваемся с такими понятиями, как энергетические и
материальные ресурсы. Первые из них определяют мощность электрических
станций, а вторые – имеющиеся в недрах полезные ископаемые. Значение
процессов с использованием информации, в последние годы стало настолько
значимым, что появилось новое понятие – информационные ресурсы.
Современные информационные ресурсы – это научные теории,
открытия, патенты и изобретения, экономико-математические модели,
проекты машин и технологических процессов, сведения о недрах земли и
океанов. Это весь веками накопленный духовный потенциал, являющийся
богатством страны. Это то, что определяет интеллектуальную мощь страны.
В отличие от ресурсов, связанных с материальными предметами,
информационные ресурсы являются неистощимыми и предполагают
существенно иные методы воспроизведения и обновления, чем материальные
ресурсы. В связи с таким взглядом центральными становятся следующие
свойства информации:





запоминаемость,
передаваемость,
преобразуемость,
воспроизводимость,
стираемость.
Подводя итог сказанному, отметим, что предпринимаются (но отнюдь не
завершены) усилия ученых, представляющих самые разные области знания,
построить единую теорию, которая призвана формализовать понятие
информации и информационного процесса, описать превращения
информации в процессах самой разной природы. Движение информации есть
сущность процессов управления, которые суть проявление имманентной
активности материи, ее способности к самодвижению. С момента
возникновения кибернетики управление рассматривается применительно ко
всем формам движения материи, а не только к высшим (биологической и
социальной). Многие проявления движения в неживых – искусственных
(технических) и естественных (природных) – системах также обладают
общими признаками управления, хотя их исследуют в химии, физике,
механике в энергетической, а не в информационной системе представлений.
Информационные аспекты в таких системах составляют предмет новой
междисциплинарной науки – синергетики.
Высшей формой информации, проявляющейся в управлении в
социальных системах, являются знания. Это наддисциплинарное понятие,
широко используемое в педагогике и исследованиях по искусственному
интеллекту, также претендует на роль важнейшей философской категории. В
философском плане познание следует рассматривать как один из
функциональных аспектов управления. Такой подход открывает путь к
системному пониманию генезиса1 процессов познания, его основ и
перспектив.
Наряду с информацией в информатике часто употребляют такие
понятия как данные и знания. Вопрос о разделении информации на данные и
знания возник при разработке систем искусственного интеллекта (СИИ),
определяемых в последнее время как "системы, основанные на знаниях". При
исследовании естественных предметных областей данные представляют
первичную информацию, получаемую путём обнаружения некоторых
объектов и выявления их свойств – измерение значений признаков. Знания –
результат переработки данных, их обобщения. Классическим примером
данных служат таблицы Тихо Браге движения планет по небесному своду, а
примером знаний – выведенные из них законы Кеплера.
1
генезис [гр. genesis] – происхождение, возникновение; процесс образования и становления развивающегося явления
Данные – это отдельные факты, характеризующие объекты,
процессы и явления предметной области, а также их свойства.
Данные могут рассматриваться как признаки или записанные
наблюдения, которые по каким-то причинам не используются, а только
хранятся. В том случае, если появляется возможность использовать эти
данные для уменьшения неопределённости о чём-либо, данные
превращаются в информацию. Поэтому можно утверждать, что информацией
являются используемые данные.
Информация, зафиксированная в определённой форме, пригодной для
последующей обработке, хранения и передачи представляет собой данные.
Знания – это закономерности предметной области (принципы, связи
и законы), полученные в результате практической деятельности,
позволяющие специалистам ставить и решать задачи в этой области.
Можно предложить довольно грубую формулу знания:
знание=данные + их смысл.
Именно такое представление знания стимулировало развитие формальных
методов обработки, в общем, и вычислительных методов в частности.
Замечание. При работе с информацией всегда имеется её источник и
потребитель (получатель). Пути и процессы, обеспечивающие передачу
сообщений от источника информации к её потребителю, называются
информационными коммуникациями.
Некоторые замечания
Информация – последовательность бит пучками по восемь штук. Шутка.
(Из словаря программистов).
Анекдот на тему. Из передачи «Городок». Выходит следователь
потный и злой (Олейников):
– Сколько времени бьюсь и ни грамма информации.
– Охранник (Стоянов):
– Почему ни грамма? Ведь информация измеряется битами. Достаёт
биту и заходит в комнату. Слышны удары битой и крики.
Вопросы и задачи
Вопросы
1. Приведите примеры уменьшения неопределённости знаний после
получения информации о прошедшем событии.
2. В чём состоит неопределённость знаний в опыте по вытаскиванию
карты из колоды?
3. Как зависит количество информации от количества возможных
событий?
Задачи
1. Рассмотрим в качестве примера опыт, связанный с бросанием
правильной игральной кости, имеющей 6 граней. Результаты данного
опыта могут быть следующие: выпадение грани с одним из следующих
знаков: 1, 2, 3, 4, 5, 6. Какое количество информации мы получим,
когда узнаем результат опыта? Ответ: I=2.585
2. При подходе к станции поезд может быть направлен диспетчером на
один из восьми железнодорожных путей (например, 1 –й путь, 2 - й, 3,
4, 5, 6, 7, 8). Существует неопределённость в выборе пути, т.е. на какой
путь будет направлен поезд. Определить энтропию и соответственно
количество информацию для данной задачи. Ответ: I=H=3.
3. Какое количество информации получит второй игрок после первого
хода первого игрока в игре в "Крестики-нолики" на поле размером
44? Ответ: I=4
4. Каково было количество возможных событий, если после реализации
одного из них мы получили количество информации, равное 3 битам?
7 битам? Ответ: N=23=8. N=27=128.
5. Происходит выбор одной карты из колоды в 32 листа. Какое
количество информации мы получаем в зрительном сообщении о
выборе определённой карты?
Выбираем ответ: 1) 32 бита; 2) 1 бит; 3) 5 бит; 4) 1 байт.
6. Какое количество информации получит играющий черными шахматист
после первого хода белых (при условии, что ходить пешками
запрещено)?
Выбираем ответ: 1) 1 бит; 2) 2 бита; 3) 3 бита; 4) 4 бита.
7. Какое количество информации содержит один разряд восьмеричного
числа?
Выбираем ответ: 1) 1 байт; 2) 3 байта; 3) 4 байта; 4) 1 бит.
8. Самолёт противника с равной вероятностью может находиться в одной
из 128 зон воздушного пространства. Какое количество информации
получает оператор радиолокационной станции, когда он фиксирует
наличие самолета в одной из зон? Ответ: I=7 бит. (В книгах по
статистической радиотехнике двоичных единиц – дв. ед.)
9. Найти максимальную энтропию черно-белого изображения с двумя
градациями, содержащего 5*105 независимых элементов. Ответ:
Н=5*105 бит.
10.Пусть случайным образом на одну из клеток шахматной доски
ставится фигура. Найти количество информации события, что фигура
находится в клетке с номером k. (какое количество информации мы
получим в зрительном сообщении, что фигура находится в заданной
клетке). Ответ: I=6.
11. Конфеты находятся в одной из 10 коробок. Определить информационную
неопределенность. Ответ: 10.
12. Тетрадь лежит на одной из двух полок - верхней или нижней. Сколько бит несет в
себе сообщение, что она лежит на нижней полке? Ответ: 1 бит.
13. Шарик находится в одной из трех урн: А, В или С. Определить информационную
неопределенность. Ответ: 3.
14. Шарик находится в одной из 32 урн. Сколько единиц информации будет
содержать сообщение о том, где он находится? Ответ: 5 бит.
15. Сколько вопросов следует задать и как их нужно сформулировать, чтобы узнать с
какого из 16 путей отправляется ваш поезд? Ответ: 4 вопроса.
16. Какое количество информации получит первый игрок после первого хода второго
игрока в игре "крестики - нолики" на поле 4 х 4?
17. После реализации одного из возможных событий получили количество
информации равное 15 бит. Какое количество возможных событий было
первоначально?
18. Определить стратегию угадывания одной карты из колоды из 32 игральных карт
(все четыре шестерки отсутствуют), если на вопросы будут даны ответы "да" или
"нет".
19. Прочитайте стихотворение. Переведите встречающиеся в нем
числительные из двоичной системы счисления в десятичную.
Необыкновенная девчонка
А. Н. Стариков
Ей было тысяча сто лет,
Она в 101-ый класс ходила,
В портфеле по сто книг носила –
Все это правда, а не бред.
Она ловила каждый звук
Своими десятью ушами,
И десять загорелых рук
Портфель и поводок держали.
Когда, пыля десятком ног,
Она шагала по дороге,
За ней всегда бежал щенок
С одним хвостом, зато стоногий.
И десять темно-синих глаз
Рассматривали мир привычно,…
Но станет все совсем обычным,
Когда поймете наш рассказ.
20.За праздничным столом собрались 4 поколения одной семьи: дед, отец,
сын и внук. Их возраст в различных системах счисления записывается
так 88 лет, 66 лет, 44 года и 11 лет. Сколько им лет в десятичной
системе счисления, если через год их возраст в тех системах счисления
можно будет записать как 100?
21.Мальчику было двенадцать лет в восьмеричной системе исчисления.
Стругацкие "Хромая судьба" стр. 16.
22. Какое минимальное основание может иметь система счисления, если в
ней записаны числа 23 76?
23.
Download