Алгоритмическая мера информации

advertisement
Синтаксическая мера информации
оперирует с обезличенной информацией, не
выражающей смыслового отношения к объекту,
объем
данных
в
сообщении
измеряется
количеством символов в этом сообщении
2
При анализе тех или иных ситуаций мы нередко
говорим о том, что они имеют больший или меньший
смысл с точки зрения определенных целей
Тем самым мы признаем измеримость содержания,
смысла ситуации, хотя и не имели до сих пор способа
для соответствующих измерений
Семантическая мера информации
используется для измерения смыслового содержания информации
4
Тезаурусная мера
связывает семантические свойства информации со способностью
пользователя принимать поступившее сообщение
Тезаурус
— это совокупность сведений, которыми располагает пользователь или
система
Максимальное количество семантической информации Sp потребитель
получает при согласовании ее смыслового содержания со своим
тезаурусом, когда поступающая информация понятна пользователю и
несет ему ранее не известные сведения
при Sp≈0 пользователь не воспринимает, не понимает поступающую
информацию
при Sp→ ∞ пользователь все знает, и информация ему не нужна
Коэффициент содержательности, определяемый как отношение
количества семантической информации к общему объему данных:
С= Ic / Vд.
Ю.А. Шрейдер
В процессах информационного обмена часто складываются ситуации,
в которых мощность или качество информации, воспринимаемое
приемником, зависит от того, насколько он подготовлен к ее
восприятию
Понятие тезауруса является фундаментальным в
теоретической модели семантической теории
информации, учитывающей в явной форме роль
приемника
Согласно этой модели, тезаурус — это знания приемника
информации о внешнем мире, его способность
воспринимать те или иные сообщения.
Тезаурус может изменяться, пополняться, в зависимости от
содержания принимаемых сообщений
при получении приемником некоторого сообщения
(текста) T и в результате его осмысления происходит
преобразование тезауруса Q в тезаурус Q(T)
преобразование можно понимать как изменение
представлений о внешнем мире под влиянием
текста T
Количеством семантической информации,
содержащейся в тексте T относительно тезауруса Q,
называется степень изменения тезауруса Q под
воздействием текста T
I(T,Q) = (Q(T) — Q)/Q
хотя материальные объекты различной природы
в принципе получают одинаковый поток
информации об отражаемом материальном
свойстве, их реакция на этот поток различна в
зависимости от величины Ro, характеризующей
природу соответствующего объекта
Мера базирующаяся на понятии тезаурус
Т=<X,Y,Z>
где X, Y, Z - множества, соответственно, имен, смыслов
и значений (прагматики) этих знаний
А. А. Денисов, занимаясь проблемой возможности
создания единой теории управления для систем
различной природы, в частности ее информационных
основ, предлагает следующую структуру категорий
познания:
 «множество чувственной первичной информации
(ощущений) Ji — образует нижний или первый
уровень иерархии;
 множество восприятий (представлений) Yi —
образует второй снизу уровень;
 множество понятий Hi образует третий уровень и т.
д.»
 верхний уровень восприятия в иерархии —
«материя» (в формализованном виде, например в виде
баз знаний, — это соответствует ТЕЗАУРУСУ)
Прагматическая мера информации
определяет ее полезность, ценность для процесса
управления. Обычно ценность информации измеряется в
тех же единицах, что и целевая функция управления
системой
10
Пример:
В технической системе прагматические свойства
(ценность) информации можно определить улучшением
показателей качества функционирования, достигнутым
благодаря использованию этой информации для
управления системой:
Ihb(g) = П(g/b) – П(g)
где Ihb(g) – ценность информационного сообщения b для
системы управления g,
П(g) – априорный ожидаемый эффект функционирования
системы управления g,
П(g/b) – ожидаемый эффект функционирования системы
g при условии, что для управления будет использована
информация, содержащаяся в сообщении b
11
Алгоритмическая мера информации
слово 0101….01 сложнее слова 00….0, а слово, где 0 и 1
выбираются из эксперимента — бросания монеты (где 0герб, 1 —решка), сложнее обоих предыдущих
Любому сообщению можно приписать количественную
характеристику, отражающую сложность (размер)
программы, которая позволяет ее произвести
Сложность слова (сообщения) определяется как
минимальное число внутренних состояний машины
Тьюринга, требующиеся для его воспроизведения
12
Геометрическая (метрическая)
Единица измерения — метрон (мера точности
измеряемого параметра)
Метронная мощность (плотность) физической
системы — количество метронов в расчете на единичный
объем координатного пространства
Применяется и для оценки максимально возможного
количества информации в заданных структурных
габаритах - информационной емкости устройств
13
Контент-мониторинг информационных
потоков в ИС
Методика оценки семантической полезности и
прагматической ценности информации в Информационной
системе
На примере учебного тренажера «Управление вузом»
Адекватность информации — это уровень
соответствия образа, создаваемого с помощью
информации, реальному объекту, процессу,
явлению
Степень адекватности информации определяет
правильность принятия решения
Синтаксическая адекватность
отображает формально-структурные характеристики
информации, не затрагивая ее смыслового содержания
на синтаксическом уровне учитываются тип носителя и
способ представления информации, скорость ее
передачи и обработки, размеры кодов представления
информации, надежность и точность преобразования
этих кодов и т. д. Информацию, рассматриваемую с
таких позиций, обычно называют данными
16
Семантическая адекватность
 определяет степень соответствия образа объекта
самому объекту (учитывается смысловое содержание
информации; анализируются сведения, отражаемые
информацией; рассматриваются смысловые связи)
 проявляется при наличии единства информации и
пользователя
 служит для формирования понятий и представлений,
выявления смысла, содержания информации и ее
обобщения
17
Прагматическая адекватность
 отражает соответствие информации цели управления,
реализуемой на ее основе
 проявляется при наличии единства
пользователя и цели управления
информации,
 анализирует потребительские свойства информации,
связанные с практическим использованием информации,
с соответствием ее целевой функции деятельности
системы
18
Понятие «полезная информация», связывая
сообщение с тем, какую задачу решает
получатель, что он знает до прихода сообщения
и как его истолковывает
Информация – мера упорядоченности
Упорядоченность всегда связана с ограничением разнообразия, которое
мы можем понимать как управление.
Управлять системой – значит ограничивать ее разнообразие
Ограничение разнообразия связано с получением информации
Управление невозможно без информационных процессов
Управление и, следовательно, информационные процессы имеют место
только в кибернетических и биологических системах
Понятие информации можно связывать только с объектами живой природы, а
также с объектами, созданными руками человека
Информация является свойством только живой материи
[O1]
[O2]
[O3]
[O4]
1. Установить группы читателей в соответствии с
предполагаемым тезаурусом
2. Установить укрупненные категории информации в ИС
3. Установить рамки информативности текстов для каждой из
них и по укрупненным категориям информации и
предполагаемому тезаурусу каждой группы
4. Установить алгоритм расчета информативности –
прагматики и семантики информационного сообщения,
синтаксической ценности
5. Найти несоответствие формально релевантной информации
(тематически соответствующей) действительным
потребностям ее потребителей и так по всем основным
свойствам информации
Общая цель создания текста (любого) – сообщение
информации
Любой текст заключает в себе какую-либо
информацию
Общее количество информации, содержащейся в
тексте, – это его информационная насыщенность
Однако ценностью обладает прежде всего новая
информация, полезная, т.е. прагматическая,
именно она является показателем
информативности текста
Информационная насыщенность текста – абсолютный
показатель качества текста
Информативность – относительный, поскольку степень
информативности сообщения зависит от потенциального
читателя
Информативность текста – это степень его смыслосодержательной новизны для читателя
Информативность (с точки зрения прагматики
текста) снижается, если информация повторяется, и,
наоборот, она повышается, если текст несет
максимально новую информацию
При определении меры полезности информации в
тексте надо ориентироваться на
соответствие/несоответствие уровня читателя
информационным качествам текста и, следовательно,
уровню автора
С этой точки зрения читатели составляют три группы:
1. соответствующие авторской ориентации, т.е.
статусу среднего читателя данной целевой группы
2. не достигшие\имеющие необходимого уровня
знаний для адекватного восприятия информации
3. читатели, тезаурус которых превышает тезаурус
автора
1-я группа
полезность информации стремится к 100% (или
находится в «установленном диапозоне»)
информационная избыточность – стремится к 0%
(частично может оказаться избыточной за счет
«упаковочного материала»)
2-я группа
полезность информации стремится к нулю
информационная избыточность – стремится к 0%
3-я группа
полезность информации стремится к нулю
информационная избыточность – к 100%
Ситуация резкого роста темпов производства
информации породила ряд проблем:
 увеличение объемов информации до масштабов,
которые делают невозможным ее непосредственную
обработку
 непропорциональный рост информационного шума изза слабой структурированности информации
 появление паразитной информации (получаемой в
качестве приложений)
 несоответствие формально релевантной информации
(тематически соответствующей) действительным
потребностям ее потребителей
 многократное дублирование информации (типичный
пример — публикация одного сообщения в разных
изданиях)
[O1]
[O2]
[O3]
[O4]
1. Установить укрупненные категории информации в
ИС
2. Установить категории читателей в соответствии с
предполагаемым тезаурусом
3. Установить рамки информативности текстов для
каждой из категорий и групп читателей по
укрупненным категориям информации (в %)
Download