Информационные системы и технологии испр

РОССИЙСКАЯ ФЕДЕРАЦИЯ МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ФГБОУ ВПО ТЮМЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНСТИТУТ МАТЕМАТИКИ, ЕСТЕСТВЕННЫХ НАУК И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ А.Г. Ивашко, Ю.Е. Карякин ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ Учебное пособие Издательство Тюменского государственного университета 2012 УДК 004.41 А.Г. Ивашко, Ю.Е. Карякин ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ: Учебное пособие. - Тюмень: Издательство Тюменского государственного университета, 2012. – 347 с. Информационные системы и технологии является одной из важных дисциплин в подготовке бакалавров по направлению «Прикладная информатика». В учебном пособии рассмотрены общие вопросы, определяющие практические подходы к использованию понятия информация, данные, система, информационные системы, а также определение основных терминов, используемых при работе с информацией, очерчен круг вопросов, рассматриваемых в теории информации, приведены способы хранения, обработки, преобразования, передачи и измерения информации. Предложен новый взгляд на классификацию информационных систем. Рассматриваются вопросы состава, структуры и архитектуры информационных систем. Дается представление о таких понятиях, как автоматизированные информационно-поисковые системы, информационно-поисковые языки и их классификация, а также системы индексирования и математический аппарат поиска информации. РЕЦЕНЗЕНТЫ: В.Э Борзых, зав. кафедрой «Информатика и вычислительная техника» Института нефти и газа ТГНГУ, док. физ.-мат. наук, профессор Б.Г. Аксенов, зав. кафедрой математики ТюмГАСУ, док. физ.-мат. наук, профессор © ФГБОУ ВПО Тюменский государственный университет, 2012 © А.Г. Ивашко, Ю.Е. Карякин, 2012 2 ОГЛАВЛЕНИЕ ПРЕДИСЛОВИЕ ..................................................................................................... 7 ГЛАВА 1. ТЕРМИНОЛОГИЯ................................................................................ 8 1.1 Информация ............................................................................................... 8 1.2 Данные...................................................................................................... 14 1.3 Знания ....................................................................................................... 15 1.4 Система .................................................................................................... 17 1.5 Информационная система ...................................................................... 17 Резюме ............................................................................................................ 20 Вопросы для самопроверки.......................................................................... 21 ГЛАВА 2. ИНФОРМАЦИЯ И ЕЕ ОБРАБОТКА ............................................... 22 2.1 Понятие информации.............................................................................. 22 2.2 Виды информации................................................................................... 26 2.3 Хранение, измерение, обработка и передача информации................. 28 2.4 Способы измерения информации .......................................................... 30 2.4.1 Синтаксическая мера информации (вероятностный подход к измерению дискретной и непрерывной информации) ....... 31 2.4.2 Смысл энтропии Шеннона ............................................................ 35 2.4.3 Семантическая мера информация ................................................ 37 2.4.4 Прагматическая мера информации .............................................. 38 2.5 Классификация и кодирование информации ....................................... 39 2.5.1 Общие сведения о системе классификации ................................ 39 2.5.2 Иерархическая система классификации ...................................... 41 2.5.3 Фасетная система классификации................................................ 42 2.5.4 Дескрипторная система классификации...................................... 44 2.5.5 Системы кодирования ................................................................... 45 2.6 Сжатие информации ............................................................................... 47 2.6.1 Простейшие алгоритмы сжатия информации ............................. 50 2.6.2 Арифметическое кодирование...................................................... 52 3 2.7 Качество информации ............................................................................ 55 2.8 Классификация экономической информации ...................................... 58 Резюме ............................................................................................................ 61 Вопросы для самопроверки.......................................................................... 62 ГЛАВА 3. КЛАССИФИКАЦИЯ ИНФОРМАЦИОННЫХ СИСТЕМ ............. 63 3.1 Классификация ИС по форме представления информации. .............. 69 3.1.1 Фактографические системы .......................................................... 72 3.1.2 Документальные системы ............................................................. 89 3.1.3 Системы, основанные на XML – документах ........................... 117 3.2 Классификация систем по типу процесса автоматизации ................ 124 3.2.1 ИС стратегического маркетинга и управления предприятием ........................................................................................ 127 3.2.2 Финансовые ИС............................................................................ 132 3.2.3 ИС управление производством................................................... 135 3.2.4 ИС управления снабжением, запасами и сбытом ..................... 138 3.2.5 ИС поддержки жизненного цикла продукции .......................... 140 Резюме .......................................................................................................... 143 Вопросы для самопроверки........................................................................ 144 ГЛАВА 4. СОСТАВ И СТРУКТУРА ИС ......................................................... 145 4.1 Стандарты на АС ................................................................................... 149 4.2 Состав информационных систем......................................................... 158 4.3 Структура и архитектура информационной системы ....................... 164 Резюме .......................................................................................................... 167 Вопросы для самопроверки........................................................................ 169 ГЛАВА 5. АВТОМАТИЗИРОВАННЫЕ ИНФОРМАЦИОННОПОИСКОВЫЕ СИСТЕМЫ И ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ ................................................................................................................. 170 5.1 Порядок функционирования автоматизированной информационно-поисковой системы ........................................................ 170 5.2 Состав и структура АИПС ................................................................... 171 4 5.3 Информационно-поисковые языки (ИПЯ) ......................................... 175 5.3.1 Основные элементы ИПЯ ........................................................... 176 5.3.2 Требования к ИПЯ ....................................................................... 179 5.3.3 Типы отношений между словами ИПЯ ..................................... 179 5.3.4 Классификация ИПЯ ................................................................... 182 5.3.5 Дескрипторные ИПЯ ................................................................... 186 5.3.6 Метод координатного индексирования и поиска ..................... 187 5.3.7 Состав и структура дескрипторных ИПЯ.................................. 189 5.3.8 Анализ информации и построение словарей ............................ 194 5.3.9 Количественные характеристики словарей............................... 197 5.4 Системы индексирования..................................................................... 199 5.4.1 Типы систем индексирования..................................................... 200 5.4.2 Примеры систем индексирования .............................................. 201 5.4.3 Морфологический анализ и нормализация понятий ................ 202 5.5 Поисковый аппарат АИПС .................................................................. 205 5.5.1 Математический аппарат формализованного представления и поиска информации ................................................. 206 5.5.2 Методы и средства структурирования информационных запросов.................................................................................................. 211 5.5.3 Критерий релевантности ............................................................. 214 5.5.4 Оценка эффективности поиска ................................................... 219 5.5.5 Организация массивов и операции поиска информации ......... 224 5.6 Организация поисковых массивов ...................................................... 227 Вопросы для самопроверки........................................................................ 232 ГЛАВА 6. ПОДХОДЫ, ИСПОЛЬЗУЕМЫЕ ПРИ РАЗРАБОТКЕ ИС .......... 234 6.1 Планирование развития информационных технологий на предприятии ................................................................................................. 234 6.1.1 Подход SWOT .............................................................................. 235 6.1.2 Подход BPR .................................................................................. 236 6.1.3 Подход VCF (Value Chain Framework) ...................................... 238 5 6.1.4 Подход построение EA (Enterprise Architecture – архитектуры предприятия)................................................................... 242 6.1.5 TOGAF .......................................................................................... 243 6.1.6 Framework Zachman Enterprise Architecture............................... 246 6.1.7 Подход, основанный на знание предметной области .............. 250 6.2 Подходы к разработке программного обеспечения .......................... 251 6.2.1 Структурный подход ................................................................... 251 6.2.2 Объектно-ориентированный подход.......................................... 253 6.3 Выбор распределенной архитектуры .................................................. 254 6.3.1 Трехзвенная архитектура ............................................................ 255 6.3.2 Реализация Web- приложений .................................................... 260 Резюме .......................................................................................................... 263 Вопросы для самопроверки........................................................................ 265 ЗАКЛЮЧЕНИЕ ................................................................................................... 266 ПРАКТИКУМ ...................................................................................................... 268 ЗАДАНИЯ ДЛЯ САМОПРОВЕРКИ ................................................................. 276 Тесты для самоконтроля............................................................................. 276 Ключи к тестам для самоконтроля ............................................................ 303 Темы контрольных работ ........................................................................... 304 Вопросы для подготовки к экзамену (зачету) .......................................... 307 СПИСОК ЛИТЕРАТУРЫ................................................................................... 314 ГЛОССАРИЙ ....................................................................................................... 316 СПИСОК ИСТОЧНИКОВ ИНФОРМАЦИИ ................................................... 337 6 ПРЕДИСЛОВИЕ Информационные системы являются основным интеллектуальным инструментом процесса информатизации всех сфер современного общества. В учебном пособии рассмотрены общие вопросы, определяющие практические подходы к использованию понятия информация, данные, система, информационные системы, а также определение основных терминов, используемых при работе с информацией, очерчен круг вопросов, рассматриваемых в теории информации, приведены способы хранения, обработки, преобразования, передачи и измерения информации. Предложен новый взгляд на классификацию информационных систем. Приводится описание информационных систем, широко представленных в современном мире информационных технологий. Рассматриваются вопросы состава, структуры и архитектуры информационных систем. Дается представление о таких понятиях, как автоматизированные информационно-поисковые системы, информационно-поисковые языки и их классификация, а также системы индексирования и математический аппарат поиска информации. Рассматриваются подходы, используемые при разработке информационных систем, включая планирование развития информационных технологий на предприятии. Написание материала учебного пособия распределилось следующим образом: А.Г. Ивашко написаны главы 1, 3, 4, 6, Ю.Е. Карякиным – главы 2, 5. Учебное пособие ориентировано на студентов, обучающихся по направлению «Прикладная информатика», а также может быть полезно для студентов других специальностей, изучающих современные информационные технологии. 7 ГЛАВА 1. ТЕРМИНОЛОГИЯ Для того, чтобы понять предмет исследования, необходимо понять те термины, которые используются в данной области. Бурный рост компьютерных технологий, стремительное продвижение их во все сферы производства и социальную сферу не обходится без издержек. Неоднозначность терминологии можно отнести к издержкам роста. В интернете сделав запрос «информационные системы» различные поисковые системы, к слову сказать, которые также являются информационными системами, найдут более 3000000 ссылок, а на запрос «information system» - более 14000000. Такое впечатление, что данный термин один из самых популярных в интернете. Попробуйте найти ответы на следующие вопросы. Информационная система предполагает использование информационных технологий? В чем разница между информационной системой и автоматизированной системой? Библиотека может быть отнесена к информационным система? Можно было бы продолжить список вопросов. Но поиск в интернете, в словарях и энциклопедиях не дает однозначного ответа на поставленные вопросы. Что тогда нам с Вами изучать, если нет общепринятого определения «информационные системы»? Нам остается только одно разобраться в терминологии, т.е. договориться о смысловом содержании терминов, и на основе этого понятийного базиса изучать данный предмет. 1.1 Информация Данный термин и отражаемое им понятие являются сегодня одними из самых распространенных и при этом имеющий самые разные толкования как на бытовом, так и на профессиональных уровнях. Ниже мы приведем некоторые из определений. Мы приводим такое большое количество определений не для того, чтобы поразить их многообразием. Каждое определение используется в некотором контексте. Стандарт определяет нормативную базу в данной профессиональной области, Федеральный закон определяет правовые 8 нормы в государстве. Наша задача разобраться в этой разношерстной терминологии и выбрать определение, которое мы будем использовать в контексте данного учебного пособия. 1. «Информация (от лат. informatio - разъяснение, изложение), первоначально - сведения, передаваемые одними людьми другим людям устным, письменным или каким-либо другим способом (например, с помощью условных сигналов, с использованием технических средств и т. д.), а также сам процесс передачи или получения этих сведений. Впоследствии термин притерпел два принципиальных изменения в трактовке. Во-первых, оно было расширено и включило обмен сведениями не только между человеком и человеком, но также между человеком и автоматом, автоматом и автоматом; обмен сигналами в животном и растительном мире. Передачу признаков от клетки к клетке и от организма к организму также стали рассматривать как передачу информации. Во-вторых, была предложена количественная мера информации (работы К. Шеннона, А. Н. Колмогорова и др.), что привело к созданию информации теории» /1/. 2. «Информация - данные, организованные таким образом, что имеют смысл для имеющего с ними дело человека» /2/. 3. «Информация - 1) сведения, сообщение о чем-либо, передаваемое людьми; 2) уменьшаемая, снижаемая неопределенность в результате полученных сведений; 3) передача, отражение разнообразия» /3/; 4. «Информация - 1) что-то сказанное, новости; знание, полученное любым способом; 2) в информационной теории и теории компьютеров: это точная мера информации, измеренная в битах и охватывающая диапазон от нуля (это когда все известно заранее) и до какогото максимального значения, когда ничего заранее о содержании сообщения не известно;3) любые данные, хранящиеся в компьютере» (Webster New World Dictionary of the American Language ed. David Guralnik, Prentice Hall Press, Division of Simon & Schuster). 9 5. «Информация - сведения, воспринимаемые человеком и/или специальными устройствами как отражение фактов материального или духовного мира в процессе коммуникации» /4/. 6. «Информация - содержание, значение данных, которое видят в них люди. Обычно данные состоят из фактов, которые становятся информацией в определенном контексте и понятны людям» /5/. 7. «Информация - сведения (сообщения, данные) независимо от формы их представления» /6/. 8. «Информация это данные, удовлетворяющие информационную потребность того, кому они передаются, соответствующие действительности и материализованные в форме, удобной для использования, передачи, хранения и/или обработки (преобразования) человеком и автоматизированными средствами» /7/. 9. «Информация - результат обработки, сбора, управления и организации данных, который добавляется к знанию получателя. Другими словами, это - контекст, в котором данные приняты»/8/ Различие в смысловом содержании выше перечисленных определений, обусловлено контекстом применения данного термина. Можно выделить несколько контекстов использования термина информация: информация как сообщение, информация как модель, информация как воздействие для преобразования, информация как документ. Информация как сообщение (определения 1, 3, 7). В этом случае предполагается как минимум два объекта передатчик и приемник, а также сообщение, которое может быть передано посредством любого материального носителя. Сигнал - это знак, физический процесс или явление, распространяющееся в канале связи и несущее сообщение о каком-либо событии, состоянии объекта наблюдения или контроля, команды управления, указания и т.п. Сообщение может быть понято приемником за счет того, что приемник и передатчик достигли определенного соглашения об интерпретации сигнала. 10 «Краеугольным камнем в теории информации является презумпция того, что разнообразные сообщения, имеющие самые различные содержания и относящиеся к самым различным вопросам, могут быть переведены на общий язык, а информация, которую эти сообщения несут, может быть количественно измерена. С помощью такой количественной меры можно оценивать передаваемые сообщения независимо от формы, в которую они облечены. Это положение создает объективную основу для построения общей научной теории информации»/9/. В этом случае понятие информация соотносится с понятием энергия. Подобно тому, как введение понятия энергии позволило рассматривать все явления природы с единой точки зрения, так и введение понятия информации, единой меры количества информации позволяет подойти с единой общей точки зрения к изучению самых различных процессов. Вместе с тем понятие информации существенно отличается от понятия энергия. Существует три формы энергетического взаимодействия (работа, передача тепла, передача массы). Передача информации в отличие от этих взаимодействий не подчиняется закону сохранения энергии. При передаче информации источник ее не теряет. Контекст «информация как сообщение» определяет важность понятия информации в кибернетики1. Кибернетика изучает машины и живые организмы с точки зрения их способности воспринимать определённую информацию, сохранять её в «памяти», передавать по «каналам связи» и перерабатывать её в «сигналы», направляющие их деятельность в соответствующую сторону. Естественнонаучное понимание информации основано на трех определениях этого понятия, предназначенных для теории информации (статистическая теория связи), для теории статистических оценок (понятие информации в статистике было введено английским статистиком Р. Фишером в 1 Кибернетика (от греч. kybernetike - «искусство управления», от греч. kybernao - «правлю рулём, управляю», от греч. Κυβερνήτης - «кормчий») — наука об общих закономерностях процессов управления и передачи информации в машинах, живых организмах и обществе /1/. 11 1921) и для оценки сложности алгоритмов (алгоритмическая теория информации). Теория информации интересуется лишь количественной стороной информации, содержащейся в сообщении. Более подробное рассмотрение теории информации К. Шеннона приведено ниже. Информация как модель (определения 1, 3,4, 9). Информацию можно воспринимать как атрибут того объекта, к которому она относится. В тоже время, информация отделена от этого объекта. Информация несет сведения об объекте. Но не все сведения об объекте воспринимаются как информация. Получатель воспринимает только те данные информацией, которые ему полезны. Следовательно, можно понимать информацию как некоторую модель или образец объекта, к которому она относится, при чем в модели отражены те основные свойства объекта, которые полезны получателю. В количественной теории информации, выдвинутой в 1960 А. А. Харкевичем, ценность информации определяется, как приращение вероятности достижения данной цели в результате использования данной информации. В работах Р. Карнапа дается математическое определение количества семантической информации. Информация как воздействие для преобразования (определения 3, 5, 7). Информация такой вид представления, которое влияет на формирование или преобразование других представлений. В этом случае нет потребности в разумном понимании информации, ее оценки. Структура организации этого учебного пособия несет информацию. У студента (как получателя) нет задачи в оценки этой информации, но существует задача воздействовать на знания студента этой информацией. В этом смысле ферменты являются информацией. Информация как документ (определения 1-4, 8, 9). Документы - специализированная форма информации. Можно определить деятельность с целью создания документа и деятельность, побочным продуктом которой может стать документ. Стандарт ГОСТ Р ИСО 15489-112 2007 определяет документ как зафиксированную на материальном носителе идентифицируемую информацию, созданную, полученную и сохраняемую организацией или частным лицом в качестве доказательства при подтверждении правовых обязательств или деловой деятельности /10/. В силу того что данное учебное пособие рассчитано на студентов специальности «Прикладная информатика в экономике», необходимо рассмотреть особенности экономической информации. Экономическая информация, информация об экономических отношениях и процессах обществ. воспроизводства. Знания, сведения, входящие в экономической информации, с точки зрения воспринимающих их субъектов содержат информацию лишь в той мере, в какой они новы и полезны для решения каких-либо задач /2/. В зависимости от содержания Э. и. может классифицироваться: а) по фазам и процессам воспроизводства - информация о производстве, распределении, обмене, потреблении; б) по элементам (факторам) воспроизводства информация о населении и трудовых ресурсах, природных ресурсах, продукции и услугах, денежных средствах и т.д.; в) по отображаемым структурным единицам - отраслям нар. хозяйства, экономическим районам, предприятиям и организациям и т.п. Экономическая информация может передаваться и обрабатываться в форме знаков, фиксируемых на различных материальных носителях. Знаковые системы, используемые для представления экономической информации. Разработана Единая система классификации и кодирования техникоэкономической информации (ЕСКК ТЭИ), назначение которой - обеспечить единое в масштабах страны, однозначное и формализованное представление элементов экономической информации. Типичной формой количественного представления для экономической информации является показатель. Показатель понимается либо как переменная величина, характеризующая одно из свойств отображаемого экономического объекта, либо как конкретное количественное значение этой перемен13 ной величины. Качественно показатель определяется набором содержательных признаков, количественно - методикой измерения (расчёта). Показатели экономической информации посредством фиксации разнообразных взаимосвязей между ними объединяются в систему показателей, которая образует методологическую основу всей системы сбора и обработки информации, обеспечивает сводимость и сопоставимость всех количественных данных. В обороте экономической информации наибольший удельный вес занимают данные первичного и бухгалтерского учёта (внутри предприятий), транспортная и платёжно-расчётная документация (в обороте между предприятиями), бухгалтерская и статистическая отчётность, плановые и нормативные документы, данные оперативного управления. Главный методический и организационный центр учётно- статистической экономической информации является. - Главный межрегиональный центр обработки и распространения статистической информации Федеральной службы государственной статистики (ГМЦ Росстата) и Федеральная налоговая служба. 1.2 Данные Данные очень часто используется как синоним информации. Именно поэтому понятие информационного менеджмента и управления данными практически близки по смыслу. В тоже время, есть очень интересный эффект при сопоставлении терминов «информация» и «данные», а также «information» и «data». Приведем несколько определений. «Данные - информация, представленная в виде, пригодном для обработки автоматическими средствами при возможном участии человека» /11/. «Данные - информация, обработанная и представленная в формализованном виде для дальнейшей обработки» /4/. «Данные - факты, понятия или инструкции, представленные в условной форме, удобной для пересылки, интерпретации и обработки человеком 14 или автоматизированными средствами» (Ассоциация стандартов Франции АФНОР). «Данные - некоторый факт, то на чем основан вывод или любая интеллектуальная система» /12/ «Data: A representation of facts, concepts, or instructions in a manner suitable for communication, interpretation, or processing by humans or by automatic means2« /13/. Если мы сопоставим с определениями информации, приведенные выше, то окажется, что между информацией и данными может существовать три взаимоисключающих отношения: данные производные от информации; информация производная от данных; данные и информация понятия равнозначные. Цитируемые определения показывают некоторую закономерность. В русскоязычных стандартах и нормативных документах понимаются данные, как обработанная информация, в англоязычной литературе наоборот. Мы будем придерживаться следующей трактовки: «Информация - содержание, значение данных, которое видят в них люди. Обычно данные состоят из фактов, которые становятся информацией в определенном контексте и понятны людям» /5/. 1.3 Знания Также как в случае с термином «Информация» существует множество определений этого термина: «Знания - проверенный практикой результат познания действительности, верное её отражение в сознании человека. Знание противоположно незнанию, т. е. отсутствию проверенной информации о чём-либо?. Сущность научных знаний заключается в понимании действительности в её прошлом, настоящем и будущем, в достоверном обобщении фактов, в том, что за случайным оно находит необходимое, закономерное, за единичным - общее и на 2 Данные: способ представления фактов, концепций или инструкций, позволяющий людям или ав- томатическим средствам осуществлять их передачу, интерпретацию или обработку. 15 этой основе осуществляет предвидение. Мышление человека постоянно движется от незнания к знанию, от поверхностного ко всё более глубокому и всестороннему знанию» /1/; «Знание - селективная, упорядоченная, определенным способом (методом) полученная, в соответствии с какими-либо критериями (нормами) оформленная информация, имеющая социальное значение и признаваемая в качестве именно знаний определенными социальными субъектами и обществом в целом» /9/. Список определений можно довольно легко расширить. Но все же нас интересует применение данного термина в контексте описания информационных систем. «Знание — информация, о которой кто-либо осведомлен. Знание — в теории искусственного интеллекта, совокупность сведений (у индивидуума, общества или у системы ИИ) о мире, включающих в себя информацию о свойствах объектов, закономерностях процессов и явлений, а также правилах использования этой информации для принятия решений. Главное отличие знаний от данных состоит в их активности, то есть появление в базе новых фактов или установление новых связей может стать источником активности системы. Знание — это закономерности предметной области (принципы, связи, законы), полученные в результате практической деятельности и профессионального опыта, позволяющие специалистам ставить и решать задачи в этой области.» /14, 15/ Знания отражают множество возможных ситуаций, характеризующихся состоянием и конкретной реализацией объектов определенного типа, способы перехода от одного описания объекта к другому. Для знаний характерна внутренняя интерпретируемость, структурированность, связанность и активность. Условно можно записать: «знания = факты + убеждения + правила» /16/. Данная формула довольно хорошо позволяет понять термин «база зна- 16 ний», который мы будем рассматривать в интеллектуальных информационных системах. 1.4 Система Мы воспользуемся определением данным в ГОСТ Р ИСО/МЭК 15288—2005 /17/. Система (system): комбинация взаимодействующих элементов, организованных для достижения одной или нескольких поставленных целей. Система может рассматриваться как продукт или как совокупность услуг, которые она обеспечивает. На практике интерпретация данного термина зачастую уточняется с помощью ассоциативного существительного, например, система самолета. В некоторых случаях слово «система» может заменяться контекстным синонимом, например, самолет, хотя это может впоследствии затруднять восприятие системных принципов. В третьей главе довольно подробно рассмотриваются различные подходы в описании систем. 1.5 Информационная система Дело в том, что в отечественной литературе нет единого, сложившегося определения «информационная система», хотя это, наверное, одно из самых распространенных словосочетаний встречающееся в интернете (17,5 миллионов ссылок в Googlе по запросу «информационные системы» и 1,3 млрд. ссылок по запросу «information system» ). В тоже время, практически во всех стандартах посвященным информационным технологиям данный термин не определяется. Только в ГОСТ 7.0-99 «Система стандартов по информации, библиотечному и издательскому делу. Информационно-библиотечная деятельность, библиография. Термины и определения» дается определение информационной системы, как системы, предназначенной для хранения, обработки, поиска, распространения, передачи и предоставления информации. К сожалению, данное определение не раскрывает смысл информационных систем и скорее способствует терминологической путаницы чем ее разрешает. 17 Ярким примером неоднозначного понимания данного термина является определение, данное на русскоязычном сайте Википедия /14/ : «Информационная система (ИС) — это система, предназначенная для ведения информационной модели, чаще всего — какой-либо области человеческой деятельности. Эта система должна обеспечивать средства для протекания информационных процессов: хранение, передача, преобразование информации. По мнению одних авторов, ИС включает в себя персонал, её эксплуатирующий, по мнению других — нет». В тоже время, на англоязычном сайте Википедия /15/ дается довольно конкретное определение этого термина - Information System (IS) is the system of persons, data records and activities that process the data and information in a given organization, including manual processes or automated processes3 (в данном пособии мы будем придерживаться этого определения). При этом необходимо отметить, что обычно термин используется ошибочно как синоним машинных информационных систем4 (computer-based information systems), который является только компонентом информационных технологий в информационной системе. Машинные информационные системы - область изучения информационных технологий (ИТ); однако навряд ли эти системы нужно рассматривать отдельно от ИС в широком понятии, которая всегда содержит машинные информационные системы. Машинная информационная система, по определению Langefors /18/, является технологически средой для регистрации, хранения, и распространения данных и информации. Информационная система - также социальная система, чье поведение наряду с технологией определяется целями, ценностями и мнениями, как отдельных личностей, так и целых групп. 3 Информационная Система (ИС) - система людей, хранимых данных и процессов обработки дан- ных и информации в контексте конкретной организации. Обработка включает ручные или автоматизированные процессы 4 Наиболее близкий термин в русскоязычной литературе – автоматизированные информационные системы 18 В книге Ciborra /15/ определяются «информационные системы», как область, в которой мы «имеет дело с развертыванием информационной технологии5 в организациях, учреждениях, и обществе в целом». Часто определение ИС формулируется из понятия ИТ. В качестве примера приведем определение данное в /15/. Информационная система (ИС) – это организационно-упорядоченная взаимосвязанная совокупность средств, и методов ИТ, используемых для хранения, обработки и выдачи информации в интересах достижения поставленной цели. В этом случае предполагается использование в качестве основного технического средства переработки информации ЭВМ и средств связи, реализующих информационные процессы и выдачу информации, необходимой в процессе принятия решений задач из любой области. Хотя сама идея ИС и некоторые принципы их организации возникли задолго до появления компьютеров, однако компьютеризация в десятки и сотни раз повысила эффективность ИС и расширила сферы их применения. Трактовка информационных систем, как среды, составляющими элементами которой являются компьютеры, компьютерные сети, программные продукты, БД, люди, различного рода технические и программные средства связи и т.д., является весьма распространенной в литературе. В этом случае, ИС становится синонимом термина автоматизированные информационные системы (АИС). Можно отметить, что средствами автоматизации могли быть не только компьютерные технологии, но в настоящее время такие случаи крайне редки. 5 Можно определить информационные технологии через ИС. Информационная технология - сово- купность методов, производственных процессов и программно-технических средств, объединенных в технологический комплекс, обеспечивающий сбор, создание, ранение, накопление, обработку, поиск, вывод, копирование, передачу и распространение информации /4/. Чаще под ИТ понимаются приемы, способы и методы применения технических и программных средств при выполнении функций обработки информации /18/. В этом случае, ИТ ассоциируется с компьютерными технологиями. 19 Исходя из того, что Вы будущие специалисты в области информационных технологий, нас будут интересовать, информационные системы, использующие компьютерную обработку информации. Другой термин, широко используемый в литературе - автоматизированная система (АС). В серии стандартов 34 /19/ его определяют, как «система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций». Если учесть, что «функция автоматизированной системы совокупность действий АС, направленная на достижение определенной цели» /19/, то подмножеством АС являются информационные системы, использующие автоматизированный способ обработки информации (АИС). Обратите внимание, что термин АС шире АИС, так как включает понятия систем с неограниченным набором функциональных средств, в то время как функции АИС обязательно включают сбор, хранение и обработку информации. Резюме В настоящее время не существует единого определения информации как научного термина. С точки зрения различных предметных областей, данное понятие описывается своим набором признаков. Информация, существующая вне нашего сознания, имеет отражение в нашем восприятии как результат взаимодействия: отражения, чтения, получения в виде сигналов. Информация, зафиксированная в данных, её содержательный смысл необходимы пользователям информационных систем, являющимся специалистами различных наук и областей деятельности: химика интересует химическая информация, географа - географическая, предпринимателя - коммерческая, специалиста в информационных технологиях интересует информация по вопросам работы с данными. Термин «Информационная система» используется как в широком, так и в узком смысле. В широком смысле информационная система есть совокупность технического, программного и организационного обеспечения, а также 20 персонала, предназначенная для того, чтобы своевременно обеспечивать надлежащих людей надлежащей информацией. В узком смысле информационнойсистемой называют только подмножество компонентов ИС в широком смысле, включающее базы данных, СУБД и специализированные прикладные программы. ИС в узком смысле рассматривают как программноаппаратную систему, предназначенную для автоматизации целенаправленной деятельности конечных пользователей, обеспечивающую, в соответствии с заложенной в нее логикой обработки, возможность получения, модификации и хранения информации. Вопросы для самопроверки 1. Что такое информация? 2. Как Вы понимаете термин «система»? 3. С какими системами Вы сталкивается при проектировании информационных систем? 4. Что такое АС? 5. Что такое АСУ? 6. В чем отличие информационной системы от АС? 7. Как Вы думаете, что общее у информационной системы и АСУ? 8. Как Вы понимаете термин «знание»? 9. Чем по Вашему мнению отличается понятия знания и информация? 10.Как Вы считаете, чем отличается понятие информация и данные? 11.Как Вы считаете, информация получается за счет переработки данных или данные получаются после переработки информации? 21 ГЛАВА 2. ИНФОРМАЦИЯ И ЕЕ ОБРАБОТКА 2.1 Понятие информации Современная экономика немыслима без информации. Тысячи предприятий, миллионы налогоплательщиков, триллионы рублей, биржевые котировки, реестры акционеров - все эти информационные потоки необходимо оценить, обработать, сделать необходимые выводы, принять правильное решение. Современный специалист должен уметь принимать обоснованные решения. Для этого наряду с традиционными знаниями, такими как основы менеджмента, основы внешнеэкономической деятельности, банковское дело, административное управление, налогообложение он должен владеть информацией по построению информационных систем. Понятие информации весьма широко и многосторонне, поэтому оно имеет целый ряд определений и синонимов. Начиная с работ Н. Винера, К. Шеннона, Дж. фон Неймана до настоящего времени каждая попытка дать универсальное определение информации терпит крах из-за неразрешимости основного вопроса: един ли для всех «приемников» информации предлагаемый критерий отбора из всего множества воздействий материального мира тех и только тех воздействий, которые несут информацию для данного «приемника»? В настоящее время наиболее распространено убеждение, что такого универсального критерия и, следовательно, универсального определения информации не существует. Специфика информации определяется в первую очередь основной целью функционирования системы. С этой точки зрения информацией являются все сведения об объекте, полезные «приемнику» (человеку, коллективу, человеко-машинной системе) для решения задачи (достижения цели). Если данные сведения не нужны, они представляют собой «шум», а не информацию. Если данные сведения способствуют принятию неправильного решения, они представляют собой дезинформацию. 22 С позиции материалистической философии информация есть отражение реального мира с помощью сведений (сообщений). Сообщение — это форма представления информации в виде речи, текста, изображения, цифровых данных, графиков, таблиц и т.п. В широком смысле информация — это общенаучное понятие, включающее в себя обмен сведениями между людьми, обмен сигналами между живой и неживой природой, людьми и устройствами. Вот пример одного из определений информации. Информация — сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний. Всилу того, что экономические системы занимают значительное место в деятельности человекм, можно выделить «экономическую информацию». Значительная часть ее связана с общественным производством и может быть названа «производственной информацией». Экономическая информация — совокупность сведений, отражающих социально-экономические процессы и служащих для управления этими процессами и коллективами людей в производственной и непроизводственной сфере. В отличие от информации, имеющиеся данные - это зарегистрированные на любых носителях сведения об объекте (реальном или вымышленном) независимо от того, дошли они до какого-нибудь приемника и интересуют ли они его /21/, В такой трактовке информация понимается как данные, ценные для получателя (приемника). Это определение оказывается наиболее целесообразным для анализа информационных процессов, подчеркивает относительную «важность» той или иной информации для решения конкретных задач. В такой трактовке данные представляют собой потенциальную информацию, и с этой т очки зрения в информационных системах накапливается не информация, а данные (потенциальная информация). Информацией они становятся лишь по предоставлению их некоторому потребителю. В приведен23 ном определении информация не отождествляется со знаниями. Информация - собрание данных, тогда как знание предполагает постижение действительности сознанием, организующим данные путем их анализа. О знаниях невозможно говорить в отрыве от определения приемника информации. Например, можно говорить о знаниях студента, ученого и т. д., т. е. о знаниях любого конкретного человека, можно говорить о знаниях, накопленных человечеством, но трудно говорить о знаниях дрессированной мыши или о знаниях ЭВМ. В первом случае мы имеем дело с сознанием человека или общества в целом, во втором - такое сознание отсутствует. Можно представить себе машину с искусственным интеллектом, способную организовать данные. Однако нельзя говорить о «сознании» такой машины, поскольку аппарат организации данных предопределен сознанием се создателей. Говоря о данных, информации, нельзя обойти понятие «научная информация» /22/. Научная информация - это получаемая в процессе познания логическая информация, которая адекватно отображает закономерности объективного мира и используется в общественно-исторической практике. В этом определении названы четыре наиболее существенных признака, которые необходимы и, по-видимому, достаточны для раскрытия понятия «научная информация». Однако не всякая информация, получаемая в процессе познания внешнего мира, есть научная информация. Например, чувственные познания человека не в состоянии раскрыть общего в явлениях, внутренней природы вещей, тогда как только знание законов природы и общественной жизни может служить для него руководством в практической деятельности. Информация становится научной лишь тогда, когда она подвергнута обработке и обобщению абстрактно-логическим мышлением. Именно этим научная информация отличается от сведений, получаемых человеком в процессе чувственного познания мира (действительности) /9/. 24 При работе с информацией всегда имеется ее источник и потребитель (получатель). Пути и процессы, обеспечивающие передачу сообщений от источника информации к ее потребителю, называются информационными коммуникациями. Для потребителя информации очень важной характеристикой является ее адекватность. Адекватность информации — это определенный уровень соответствия создаваемого с помощью полученной информации образа реальному объекту, процессу, явлению и т.п. В реальной жизни вряд ли возможна ситуация, когда вы сможете рассчитывать на полную адекватность информации. Всегда присутствует некоторая степень неопределенности. От степени адекватности информации реальному состоянию объекта или процесса зависит правильность принятия решений человеком. Адекватность информации может выражаться в трех формах: семантической, синтаксической, прагматической. Синтаксическая адекватность. Она отображает формально- структурные характеристики информации и не затрагивает ее смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т.п. Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, так как при этом не имеет значения, смысловая сторона. Эта форма способствует восприятию внешних структурных характеристик. Т.е. синтаксической стороны информации. Семантическая (смысловая) адекватность. Эта форма определяет степень соответствия образа объекта и самого объекта. Семантический аспект предполагает учет смыслового содержания информации. На этом уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи. В информатике устанавливаются смысловые связи между 25 кодами представления информации. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения. Прагматическая (потребительская) адекватность. Она отражает отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется. Проявляются прагматические свойства информации только при наличии единства информации (объекта), пользователя и цели управления. Прагматический аспект рассмотрения связан с ценностью, полезностью использования информации при выработке потребителем решения для достижения своей цели. С этой точки зрения анализируются потребительские свойства информации. Эта форма адекватности непосредственно связана с практическим использованием информации, с соответствием ее целевой функции деятельности системы. 2.2 Виды информации Информация может быть двух видов: дискретная информация и непрерывная (аналоговая). Дискретная информация характеризуется последовательными точными значениями некоторой величины, а непрерывная непрерывным процессом изменения некоторой величины. Непрерывную информацию может, например, выдавать датчик атмосферного давления или датчик скорости автомашины. Дискретную информацию можно получить от любого цифрового индикатора: электронных часов, счетчика магнитофона и т.п. Дискретная информация удобнее для обработки человеком, но непрерывная информация часто встречается в практической работе, поэтому необходимо уметь переводить непрерывную информацию в дискретную (дискретизация) и наоборот. Модем (это слово происходит от слов модуляция и демодуляция) представляет собой устройство для такого перевода: он переводит цифровые данные от компьютера в звук или электромагнитные колебания-копии звука и наоборот. 26 При переводе непрерывной информации в дискретную важна так называемая частота дискретизации ν, определяющая период (T=1/ν) между измерениями значений непрерывной величины (рисунок 2.1 ). Рисунок 2.1 - Различные виды информации Чем выше частота дискретизации, тем точнее происходит перевод непрерывной информации в дискретную. Но с ростом этой частоты растет и размер дискретных данных, получаемых при таком переводе, и, следовательно, сложность их обработки, передачи и хранения. Однако для повышения точности дискретизации необязательно безграничное увеличение ее частоты. Эту частоту разумно увеличивать только до предела, определяемого теоремой о выборках, называемой также теоремой Котельникова или законом Найквиста. Любая непрерывная величина описывается множеством наложенных друг на друга волновых процессов, называемых гармониками, определяемых функциями вида Asin(ωt+ϕ), где A - амплитуда, ω - частота, t - время и ϕ фаза. Теорема о выборках утверждает, что для точной дискретизации ее частота должна быть не менее чем в два разы выше наибольшей частоты гармоники, входящей в дискретизируемую величину. Примером использования этой теоремы являются лазерные компактдиски, звуковая информация на которых хранится в цифровой форме. Чем 27 выше будет частота дискретизации, тем точнее будут воспроизводиться звуки и тем меньше их можно будет записать на один диск, но ухо обычного человека способно различать звуки с частотой до 20КГц, поэтому точно записывать звуки с большей частотой бессмысленно. Согласно теореме о выборках частоту дискретизации нужно выбрать не меньшей 40КГц (в промышленном стандарте на компакт-диске используется частота 44.1КГц). При преобразовании дискретной информации в непрерывную, определяющей является скорость этого преобразования: чем она выше, с тем более высокочастотными гармониками получится непрерывная величина. Но чем большие частоты встречаются в этой величине, тем сложнее с ней работать. Например, обычные телефонные линии предназначены для передачи звуков частотой до 3КГц. Связь скорости передачи и наибольшей допустимой частоты подробнее будет рассмотрена далее. Устройства для преобразования непрерывной информации в дискретную обобщающе называются АЦП (аналого-цифровой преобразователь) или ADC (Analog to Digital Convertor, A/D), а устройства для преобразования дискретной информации в аналоговую - ЦАП (цифро-аналоговый преобразователь) или DAC (Digital to Analog Convertor, D/A). 2.3 Хранение, измерение, обработка и передача информации Для хранения информации используются специальные устройства памяти. Дискретную информацию хранить гораздо проще непрерывной, т.к. она описывается последовательностью чисел. Если представить каждое число в двоичной системе счисления, то дискретная информация предстанет в виде последовательностей нулей и единиц. Присутствие или отсутствие какого-либо признака в некотором устройстве может описывать некоторую цифру в какой-нибудь из этих последовательностей. Например, позиция на дискете описывает место цифры, а полярность намагниченности - ее значение. Для записи дискретной информации можно использовать ряд переключателей, перфокарты, перфоленты, различные виды магнитных и лазерных 28 дисков, электронные триггеры и т.п. Одна позиция для двоичной цифры в описании дискретной информации называется битом (bit, binary digit). Бит служит для измерения информации. Информация размером в один бит содержится в ответе на вопрос, требующий ответа «да» или «нет». Непрерывную информацию тоже измеряют в битах. Бит - это очень маленькая единица, поэтому часто используется величина в 8 раз большая - байт (byte), состоящая из двух 4-битных полубайт или тетрад. Байт обычно обозначают заглавной буквой B или Б. Как и для прочих стандартных единиц измерения для бита и байта существуют производные от них единицы, образуемые при помощи приставок кило (K), мега (M), гига (G или Г), тера (T), пета (P или П) и других. Но для битов и байтов они означают не степени 10, а степени двойки: кило - 210=1024 ≈103, мега - 220≈106, гига 230≈109, тера - 240≈1012, пета - 250≈1015. Например, 1KB = 8Кbit = 1024B = 8192bit, 1МБ = 1024КБ = 1048576Б = 8192Кбит. Для обработки информации используют вычислительные машины, которые бывают двух видов: ЦВМ (цифровая вычислительная машина) - для обработки дискретной информации, АВМ (аналоговая вычислительная машина) - для обработки непрерывной информации. ЦВМ - универсальны, на них можно решать любые вычислительные задачи с любой точностью, но с ростом точности скорость их работы уменьшается. ЦВМ - это обычные компьютеры. Каждая АВМ предназначена только для узкого класса задач, например, интегрирования или дифференцирования. Если на вход такой АВМ подать сигнал, описываемый функцией f(t), то на ее выходе появится сигнал F(t) или f′(t). АВМ работают очень быстро, но их точность ограничена и не может быть увеличена без аппаратных переделок. Программа для АВМ - это электрическая схема из заданного набора электронных компонент, которую нужно физически собрать. Бывают еще и гибридные вычислительные машины, сочетающие в себе элементы как ЦВМ, так и АВМ. 29 Кодированием, например, является шифровка сообщения, декодированием - его дешифровка. Процедуры кодирования и декодирования могут повторяться много раз. Ошибки при передаче информации происходят из-за шума в канале (атмосферные и технические помехи), а также при кодировании и декодировании. Теория информации изучает, в частности, способы минимизации количества таких ошибок. Скорость передачи информации измеряется в количестве переданных за одну секунду бит или в бодах (baud): 1 бод = 1 бит/сек (bps). Производные единицы для бода такие же как и для бита и байта, например, 10 Kbaud = 10240 baud. Информацию можно передавать последовательно, т.е. бит за битом, и параллельно, т.е. группами фиксированного количества бит. Параллельный способ быстрее, но он часто технически сложнее и дороже особенно при передаче данных на большие расстояния. Параллельный способ передачи используют, как правило, только на расстоянии не более 5 метров. 2.4 Способы измерения информации Понятие количества информации естественно возникает, например, в следующих типовых случаях: 1. Равенство вещественных переменных a=b, заключает в себе информацию о том, что a равно b. Про равенство a2=b2 можно сказать, что оно несет меньшую информацию, чем первое, т.к. из первого следует второе, но не наоборот. Равенство a3=b3 несет в себе информацию по объему такую же, как и первое; 2. Пусть происходят некоторые измерения с некоторой погрешностью. Тогда чем больше будет проведено измерений, тем больше информации об измеряемой сущности будет получено; 3. Математическое ожидание некоторой случайной величины (СВ)содержит в себе информацию о самой СВ. Для СВ, распределен30 ной по нормальному закону, с известной дисперсией знание математического ожидания дает полную информацию о СВ; 4. Рассмотрим схему передачи информации. Пусть передатчик описывается СВ X, тогда из-за помех в канале связи на приемник будет приходить СВ Y=X+Z, где Z - это СВ, описывающая помехи. В этой схеме можно говорить о количестве информации, содержащейся в СВ Y, относительно X. Чем ниже уровень помех (дисперсия Z мала), тем больше информации можно получить из Y. При отсутствии помех Yсодержит в себе всю информацию об X. В 1865 г. немецкий физик Рудольф Клаузиус ввел в статистическую физику понятие энтропии или меры уравновешенности системы. В 1921 г. основатель большей части математической статистики, англичанин Роналд Фишер впервые ввел термин «информация» в математику, но полученные им формулы носят очень специальный характер. В 1948 г. Клод Шеннон в своих работах по теории связи выписывает формулы для вычисления количества информация и энтропии. Термин энтропия используется Шенноном по совету патриарха компьютерной эры фон Неймана, отметившего, что полученные Шенноном для теории связи формулы для ее расчета совпали с соответствующими формулами статистической физики, а также то, что «точно никто не знает» что же такое энтропия. Параметр количества информации имеет разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации. 2.4.1 Синтаксическая мера информации (вероятностный подход к измерению дискретной и непрерывной информации) Эта мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. Количество информации I на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы 31 (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. В основе теории информации лежит предложенный Шенноном способ измерения количества информации, содержащейся в одной СВ, относительно другой СВ, Этот способ приводит к выражению количества информации числом. Для дискретных случайных величин X и Y, заданных законами распределения P(X=Xi)=pi, P(Y=Yi)=qi и совместным распределением P(X=Xi, Y=Yj)=pij, количество информации, содержащейся в X относительно Y, равно I ( X , Y ) = ∑ pij log 2 i, j pij pi q j . Для непрерывных СВ X и Y, заданных плотностями распределения вероятностей pX(t1), pY(t2) и pXY(t1,t2), аналогичная формула имеет вид I ( X , Y ) = ∫∫ p XY (t1 , t 2 ) log 2 ℜ2 p XY (t1 , t 2 ) dt1dt 2 . p X (t1 ) pY (t 2 ) Очевидно, что 0, ( ) P X = X ,X = X = P( X = X ), i j  i при i ≠ j при i = j и, следовательно, I ( X , X ) = ∑ pi log 2 i pi = −∑ pi log 2 pi pi pi i Энтропия дискретной СВ в теории информации определяется формулой H(X)=HX=I(X,X). Свойства меры информации и энтропии: 1. I(X,Y)≥0, I(X,Y)=0 ⇔ X,Y - независмы 32 2. I(X,Y)=I(Y,X) 3. HX=0 ⇔ X-константа 4. I(X,Y)=HX+HY- H(X,Y), где H ( X , Y ) = − ∑p ij i, j log 2 pij 5. I(X,Y)≤I(X,X). Если I(X,Y)=I(X,X), то X – функция от Y. Доказательство: 1. Логарифмированием из очевидного для всех x неравенства ex-1≥x (равенство устанавливается только при x=1) получается неравенство x-1≥lnx или (x-1)/ln2≥log2x. pi q j pi q j − I ( X , Y ) = ∑ pij log 2 pij i, j ∑ pi q j − pij ln 2 i, j ≤ ∑ pij i = j j i, j ij ln 2 = −1 ln 2 i, j ∑ p ∑q − ∑ p i pij = 1−1 =0 ln 2 т.е. I(X,Y)=0 только при pij=piqj для всех i и j, т.е. при независимости X и Y. Если X и Y независимы, то pij=piqj и, следовательно, аргументы логарифмов равны 1 и, следовательно, сами логарифмы равны 0, что означает, что I(X,Y)=0. 2. Следует из симметричности формул относительно аргументов. 3. Если HX=0, то все члены суммы, определяющей HX, должны быть нули, что возможно тогда и только тогда, когда X- константа. 4. Из четырех очевидных соотношений ∑p j ij = pi ∑p i ij = qj HX = −∑ pi log 2 pi = −∑ pij log 2 pi i i, j HY = −∑ q j log 2 q j = −∑ pij log 2 q j j i, j получается 33 HX + HY − H ( X , Y ) = ∑ pij (log 2 pij − log 2 q j − log 2 pi ) = I ( X , Y ) . i, j 5. Нужно доказать I(X,Y)=HX+HY-H(X,Y)≤HX или HY-H(X,Y)≤0. HY − H ( X , Y ) = −∑ pij log 2 q j + ∑ pij log 2 pij = ∑ pij log 2 i, j i, j i, j pij qj но pij=P(X=Xi,Y=Yj)≤qj=P(Y=Yj), а значит аргументы у всех логарифмов не больше 1 и, следовательно, значения логарифмов не больше 0, а это и значит, что вся сумма не больше 0. Если HX=I(X,X)=I(X,Y), то для каждого i pij равно либо qj либо 0. Но из pij=P(X=Xi, Y=Yj)=P(X=Xi / Y=Yj)⋅P(Y=Yj)∈{qj,0} следует P(X=Xi / Y=Yj)∈{0,1}, что возможно только в случае, когда X - функция от Y. При независимости СВ X и Y одна из них ничем не описывает другую, что и отражается в том, что для таких СВ I(X,Y)=0. Рассмотрим пример измерения количества информации при подбрасывании двух игральных костей. Пусть дискретная СВ X равна количеству очков, выпавших на игральной кости, а дискретная СВ Y равна 0, если выпавшее количество очков нечетно, и 1, если выпавшее количество очков четно. Найти H(X,Y) и H(Y,Y). Составим законы распределения вероятностей дискретных СВ X и Y. X 1 2 3 4 5 6 Y 0 1 p 1/6 1/6 1/6 1/6 1/6 1/6 p 1/2 1/2 Таким образом, при i=1,…,6 pi=P(X=i)=1/6 и, соответственно, при j=0,1 qj=P(Y=j)=1/2 Составим также закон совместного распределения вероятностей этих дискретных СВ X 1 3 5 2 4 6 1 3 5 2 4 6 Y 0 0 0 1 1 1 1 1 1 0 0 0 p 1/6 1/6 1/6 1/6 0 0 0 0 0 0 1/6 1/6 Таким образом, 34 если i + j − четно, 0 pij = P( X = i, Y = j ) =  1  6 , иначе. I ( X , Y ) = ∑ pij log 2 i, j 1 pij 1 = 6 log 2 2 = 1 бит . символ 6 pi q j I (Y , Y ) = −∑ q j log 2 q j = 2 j =0 1 . = 1 бит символ 2 Точное количество выпавших очков дает точную информацию о четности, т.е. 1 бит. Из I(X,Y)=I(Y,Y)=1 бит/сим и 3-го свойства информации следует, что информация об X полностью определяет Y, но не наоборот, т.к. I(X,Y)≠I(X,X)=1+log23≈2,58 бит/сим. Действительно, Y функционально зависит от X, а X от Y функционально не зависит. Расчеты через энтропию будут следующими H ( X , Y ) = −∑ pij log 2 pij = log 2 6 = 1 + log 2 3 = HX , i, j I(X,Y)=HX+HY-HX=HY=1 бит/сим. 2.4.2 Смысл энтропии Шеннона Энтропия дискретной СВ - это минимум среднего количества бит, которое нужно передавать по каналу связи о текущем значении данной дискретная СВ Рассмотрим пример (скачки). В заезде участвуют 4 лошади с равными шансами на победу, т.е. вероятность победы каждой лошади равна 1/4. Введем дискретная СВ X, равную номеру победившей лошади. Здесь HX=2. После каждого заезда по каналам связи достаточно будет передавать два бита информации о номере победившей лошади. Кодируем номер лошади следующим образом: 1 - 00, 2 - 01, 3 - 10, 4 - 11. Если ввести функцию L(X), которая возвращает длину сообщения, кодирующего заданное значение X, то математическое ожидание ML(X) - это средняя длина сообщения, кодирующего X. Можно формально определить L через две функции L(X)=len(code(X)), где 35 code(X) каждому значению X ставит в соответствие некоторый битовый код, причем, взаимно однозначно, а len возвращает длину в битах для любого конкретного кода. В этом примере ML(X)=HX. Пусть теперь дискретная СВ X имеет следующее распределение P(X=1)=3/4, P(X=2)=1/8, P(X=3)=P(X=4)=1/16, т.е. лошадь с номером 1 - это фаворит. Тогда HX=-3/4⋅log23/4+1/8⋅log28+1/8⋅log216=19/8-3/4⋅log23≈1,186 бит/сим. Закодируем номера лошадей: 1 - 0, 2 - 10, 3 - 110, 4 - 111, - т.е. так, чтобы каждой код не был префиксом другого кода (подобное кодирование называют префиксным). В среднем в 16 заездах 1-я лошадь должна победить в 12 из них, 2-я - в 2-х, 3-я - в 1-м и 4-я - в 1-м. Таким образом, средняя длина сообщения о победителе равна (1⋅12+2⋅2+3⋅1+1⋅3)/16=1б375 бит/сим. или математическое ожидание L(X). Действительно, L(X) сейчас задается следующим распределением вероятностей: P(L(X)=1)=3/4, P(L(X)=2)=1/8, P(L(X)=3)=1/8. Следовательно, ML(X)=3/4+2/8+3/8=11/8=1,375 бит/сим. Итак, ML(X)>HX. Можно доказать, что более эффективного кодирования для двух рассмотренных случаев не существует. То, что энтропия Шеннона соответствует интуитивному представлению о мере информации, может быть продемонстрировано в опыте по определению среднего времени психических реакций. Опыт заключается в том, что перед испытуемым человеком зажигается одна из N лампочек, которую он должен указать. Проводится большая серия испытаний, в которых каждая  N  лампочка зажигается с определенной вероятностью pi  ∑ pi  , где i - это  i =1  номер лампочки. Оказывается, среднее время, необходимое для правильного ответа испытуемого, пропорционально величине энтропии − 36 N ∑ p log i =1 i 2 pi , а не числу лампочек N, как можно было бы подумать. В этом опыте предполагается, что чем больше информации будет получено человеком, тем дольше будет время ее обработки и, соответственно, реакции на нее. 2.4.3 Семантическая мера информация В 50-х годах XX века появились первые попытки определения абсолютного информационного содержания предложений естественного языка. Стоит отметить, что сам Шеннон однажды заметил, что смысл сообщений не имеет никакого отношения к его теории информации, целиком построенной на положениях теории вероятностей. Но его способ точного измерения информации наводил на мысль о возможности существования способов точного измерения информации более общего вида, например, информации из предложений естественного языка. Примером одной из таких мер является функция inf(s)=-log2p(s), где s - это предложение, смысловое содержание которого измеряется, p(s) - вероятность истинности s. Вот некоторые свойства этой функции-меры: 1. если s1⇒s2 (из s1 следует s2) –истинно, то inf(s1)≥inf(s2); 2. inf(s)≥0; 3. если s - истинно, то inf(s)=0; 4. inf(s1s2)=inf(s1)+inf(s2) ⇔ p(s1s2)=p(s1)p(s2), т.е. независимости s1и s2. Значение этой функция-меры больше для предложений, исключающих большее количество возможностей. Пример: из s1 - «a>3» и s2 - «a=7» следует, что s1⇒s2 или inf(s1)≥inf(s2); ясно, что s2 исключает больше возможностей, чем s1. Для измерения семантической информации также используется функция-мера cont(s)=1-p(s). Ясно, что cont(s)=1-2-inf(s) или inf(s)=-log2(1-cont(s)). Кроме изложенных методик для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свой- 37 ства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя. Тезаурус — это совокупность сведений, которыми располагает пользователь или система. В зависимости от соотношений между смысловым содержанием информации и тезаурусом пользователя изменяется количество семантической информации, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Рассмотрим два предельных случая, когда количество семантической информации равно 0: • при Sp≈0 пользователь не воспринимает, не понимает поступающую информацию; • при Sp→∞ пользователь все знает, и поступающая информация ему не нужна. Максимальное количество семантической информации потребитель приобретает при согласовании ее смыслового содержания со своим тезаурусом, когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения. Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного. 2.4.4 Прагматическая мера информации Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Эта мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе. Ценность информации целесообразно измерять в тех же 38 самых единицах (или близких к ним), в которых измеряется целевая функция. В экономической системе прагматические свойства (ценность) информации можно определить приростом экономического эффекта функционирования, достигнутым благодаря использованию этой информации для управления системой: Iп,β(α)=P(α/β)-P(α) где Iп,β(α) — ценность информационного сообщения β для системы управ- ления α; P(α) - априорный ожидаемый экономический эффект функционирования системы управления α, P(α/β) — ожидаемый эффект функционирования системы α при условии, что для управления будет использована информация, содержащаяся в сообщении β. 2.5 Классификация и кодирование информации 2.5.1 Общие сведения о системе классификации Важным понятием при работе с информацией является классификация объектов. Классификация — система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком. Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты выделить определенные классы, которые будут характеризоваться рядом общих свойств. Классификация объектов — это процедура группировки на качественном уровне, направленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами. 39 Свойства информационного объекта определяются информационными параметрами, называемыми реквизитами. Реквизиты представляются либо числовыми данными, например вес, стоимость, год, либо признаками, например цвет, марка машины, фамилия. Реквизит — логически неделимый информационный элемент, описывающий определенное свойство объекта, процесса, явления и т.п. Кроме выявления общих свойств информационного объекта классификация нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной совокупностью реквизитов. Алгоритм обработки информационных объектов фирмы позволяет получить информацию об объемах продаж, о прибыли, заказчиках, видах производимой продукции и т.д. Алгоритмы обработки в том и другом случае преследуют разные цели, обрабатывают разную информацию, реализуются разными способами. При любой классификации желательно, чтобы соблюдались следующие требования: • полнота охвата объектов рассматриваемой области; • однозначность реквизитов; • возможность включения новых объектов. В любой стране разработаны и применяются государственные, отраслевые, региональные классификаторы. Например, классифицированы: отрасли промышленности, оборудование, профессии, единицы измерения, статьи затрат и т.д. Классификатор — систематизированный свод наименований и кодов классификационных группировок. При классификации широко используются понятия классификационный признак и значение классификационного признака, которые позволяют установить сходство или различие объектов. Возможен подход к классификации с объединением этих двух понятий в одно; названное как признак 40 классификации. Признак классификации имеет также синоним основание деления. Разработаны три метода классификации объектов: иерархический, фасетный, дескрипторный. Эти методы различаются разной стратегией применения классификационных признаков. Рассмотрим основные идеи этих методов для создания систем классификации. 2.5.2 Иерархическая система классификации Иерархическая система классификации (рисунок 2.2) строится следующим образом: • исходное множество элементов составляет 0-й уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), которые образуют 1-й уровень; • каждый класс 1-го уровня в соответствии со своим, характерным для него классификационным признаком делится на подклассы, которые образуют 2-й уровень; • каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уровень, и т.д. Учитывая достаточно жесткую процедуру построения структуры классификации, необходимо перед началом работы определить ее цель, т.е. какими свойствами должны обладать объединяемые в классы объекты. Эти свойства принимаются в дальнейшем за признаки классификации. 0-й 1-й 2-й 3-й Рисунок 2.2 - Иерархическая система классификации 41 В иерархической системе классификации из-за жесткой структуры особое внимание следует уделить выбору классификационных признаков. В данной системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранного классификационного признака. Для последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор классификационных признаков будет зависеть от семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии. Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации. Достоинства иерархической системы классификации: • простота построения; • использование независимых классификационных признаков в различных ветвях иерархической структуры. Недостатки иерархической системы классификации: • жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки; • невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков. 2.5.3 Фасетная система классификации Фасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами (facet — рамка). Каждый фасет (Ф i ) содержит совокупность однородных значений данного классификационного 42 признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение. Например, фасет цвет содержит значения: красный, белый, зеленый, черный, желтый. Фасет специальность содержит названия специальностей. Фасет образование содержит значения: среднее, среднее специальное, высшее. Схема построения фасетной системы классификации в виде таблицы отображена на рисунке 2.3. Названия столбцов соответствуют выделенным классификационным признакам (фасетам), обозначенным Ф1,Ф2,…,Фi,…,Фn. Например, цвет, размер одежды, вес и т.д. Произведена нумерация строк таблицы. В каждой клетке таблицы хранится конкретное значение фасета. Например, фасет цвет, обозначенный Ф2, содержит значения: красный, белый, зеленый, черный, желтый. Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут быть использованы не все фасеты. Для каждого объекта задается конкретная группировка фасетов структурной формулой, в которой отражается их порядок следования: Ks=( Ф1,Ф2,…,Фi,…,Фn) где Фi — i-й фасет; n — количество фасетов. Рисунок 2.3 - Фасетная система классификации 43 При построении фасетной системы классификации необходимо, чтобы значения, используемые в различных фасетах, не повторялись. Фасетную систему легко можно модифицировать, внося изменения в конкретные значения любого фасета. Достоинства фасетной системы классификации: • возможность создания большой емкости классификации, т.е. использования большого числа признаков классификации и их значений для создания группировок, • возможность простой модификации всей системы классификации без изменения структуры существующих группировок. Недостатком фасетной системы классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков. 2.5.4 Дескрипторная система классификации Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска. Суть дескрипторного метода классификации заключается в следующем: • отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы; • выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых; • создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации. 44 Например, в качестве предметной области выбирается учебная деятельность в высшем учебном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т.д. Среди указанных ключевых слов встречаются синонимы такие, как студент, обучаемый, учащийся; преподаватель, учитель, педагог; факультет, подразделение университета и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т.д. Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов: • синонимические, указывающие некоторую совокупность ключевых слов как синонимы (студент—учащийся—обучаемый); • родо-видовые, отражающие включение некоторого класса объектов в более представительный класс (университет — факультет — кафедра); • ассоциативные, соединяющие дескрипторы, обладающие общими свойствами (студент — экзамен — профессор — аудитория). 2.5.5 Системы кодирования Система кодирования применяется для замены названия объекта на условное обозначение (код) в целях обеспечения удобной и более эффективной обработки информации. Система кодирования - совокупность правил кодового обозначения объектов. Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется: • длиной — число позиций в коде; • структурой — порядок расположения в коде символов, используе45 мых для обозначения классификационного признака. Процедура присвоения объекту кодового обозначения называется кодированием. Можно выделить две группы методов, используемых в системе кодирования, которые образуют: • классификационную систему кодирования ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы; • регистрационную систему кодирования, не требующую предварительной классификации объектов. Классификационное кодирование. Классификационное кодирование применяется после проведения классификации объектов. Различают последовательное и параллельное кодирование. Последовательное кодирование используется для иерархической классификационной структуры. Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, затем код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры. Последовательная система кодирования обладает теми же достоинствами и недостатками, что и иерархическая система классификации. Параллельное кодирование используется для фасетной системы классификации. Суть метода заключается в следующем: все фасеты кодируются независимо друг от друга; для значений каждого фасета выделяется определенное количество разрядов кода. Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации. Регистрационное кодирование. Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийнопорядковую систему. 46 Порядковая система кодирования предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предварительного упорядочения объектов, например по алфавиту. Этот метод применяется в том случае, когда количество объектов невелико, например кодирование названий факультетов университета, кодирование студентов в учебной группе. Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумерацию. По своей сути серийнопорядковая система является смешанной: классифицирующей и идентифицирующей. Применяется тогда, когда количество групп невелико. 2.6 Сжатие информации Цель сжатия - уменьшение количества бит, необходимых для хранения или передачи заданной информации, что дает возможность передавать сообщения более быстро и хранить более экономно и оперативно (последнее означает, что операция извлечения данной информации с устройства ее хранения будет проходить быстрее, что возможно, если скорость распаковки данных выше скорости считывания данных с носителя информации). Сжатие позволяет, например, записать больше информации на дискету, «увеличить» размер жесткого диска, ускорить работу с модемом и т.д. При работе с компьютерами широко используются программы-архиваторы данных формата ZIP, GZ, ARJ и других. Методы сжатия информации были разработаны как математическая теория, которая долгое время (до первой половины 80-х годов), мало использовалась в компьютерах на практике. Сжатие данных не может быть большим некоторого теоретические предела. Для формального определения этого предела рассматриваем любое информационное сообщение длины n как последовательность независимых, 47 одинаково распределенных дискретная СВ Xi или как выборки длины значений одной дискретной СВ X. Доказано, что среднее количество бит, приходящихся на одно кодируемое значение дискретная СВ, не может быть меньшим, чем энтропия этой дискретная СВ, т.е. ML(X)>HX для любой дискретная СВ X и любого ее кода. Кроме того, доказано утверждение о том, что существует такое кодирование (Шеннона-Фэно, Fano), что HX≥ ML(X)-1. Рассмотрим дискретная СВ X1 и X2, независимые и одинаково распреHX1 = HX2 деленные, и I(X1, X2)=0, следовательно, H(X1, X2) = HX1 + HX2 - I(X1, X2) = 2HX1. Вместо X1 и X2 можно говорить о двумерной дискретная СВ X (X1, X 2 ) . Аналогичным образом для n-мерной X ( X 1 , X 2 ,..., X n ) можно получить, что H X = nHX 1 . ( ) ( ) дискретная СВ ( ) Пусть L1 X = L X n , где X ( X 1 , X 2 ,..., X n ) , т.е. L1 X - это количество ( ) бит кода на единицу сообщения X . Тогда M L1 X - это среднее количество бит кода на единицу сообщения при передаче бесконечного множества со- ( ) ( ) общений X . Из M L X −1 ≤ HX ≤ M L X для кода Шеннона-Фэно для X ( ) ( ) cледует M L1 X − 1 n ≤ HX 1 ≤ M L1 X для этого же кода. Таким образом, доказана основная теорема о кодировании при отсутствии помех, а именно то, что с ростом длины n сообщения, при кодировании методом Шеннона-Фэно всего сообщения целиком среднее количество бит на единицу сообщения будет сколь угодно мало отличаться от энтропии единицы сообщения. Подобное кодирование практически не реализуемо изза того, что с ростом длины сообщения трудоемкость построения этого кода становится недопустимо большой. Кроме того, такое кодирование делает невозможным отправку сообщения по частям, что необходимо для непрерывных процессов передачи данных. Дополнительным недостатком этого спосо48 ба кодирования является необходимость отправки или хранения собственно полученного кода вместе с его исходной длиной, что снижает эффект от сжатия. На практике для повышения степени сжатия используют метод блокирования. По выбранному значению ε>0 можно выбрать такое s, что если разбить все сообщение на блоки длиной s (всего будет n/s блоков), то кодированием Шеннона-Фэно таких блоков, рассматриваемых как единицы сообщения, можно сделать среднее количество бит на единицу сообщения большим энтропии менее, чем на Действительно, ε. Y =  Y1 , Y2 ,..., Yn , Y1 = ( X 1 , X 2 ,..., X s ), Y2 = ( X s +1 , X s + 2 ,..., X 2 s ) s   Yi = (X s (i −1)+1 , X s (i −1)+ 2 ,..., X si ) . ( ) Тогда и т.д., H Y1 = sHX 1 ( ) пусть т.е. и sML1 Y1 = ML Y1 ≤ HY1 + 1 = sHX 1 + 1 , следовательно, () M L1 Y1 ≤ H X 1 + 1 , s т.е. достаточно брать s=1/ε. Минимум s по заданному ε может быть гораздо меньшим 1/ε. Пример. Пусть дискретные СВ X1, X2,…, Xn независимы, одинаково распределены и могут принимать только два значения P(Xi=0)=p=3/4 и P(Xi=1)=q=1/4 при i от 1 до n. Тогда HXi=3/4⋅log24/3+1/4⋅log24=2-3/4⋅log23≈0,811 бит/сим. Минимальное кодирование здесь - это коды 0 и 1 с длиной 1 бит каждый. При таком кодировании количество бит в среднем на единицу сообщения равно 1. Разобьем сообщение на блоки длины 2. Закон распределения вероятностей и кодирование для 2-мерной дискретной СВ X = ( X 1 , X 2 ) X 00 01 10 11 p 9/16 0 1 3/16 10 2 3/16 110 3 1/16 111 3 ( ) code X ( ) LX 49 Тогда при таком минимальном кодировании количество бит в среднем на единицу сообщения будет уже ( ) 3 3 1 27  9 = 0,84375 M L1 X ≤ 1 + 2 + 3 + 3  2 = 16 16 16  32  16 т.е. меньше, чем для неблочного кодирования. Для блоков длины 3 количество бит в среднем на единицу сообщения можно сделать ≈0,823, для блоков длины 4 - ≈0,818 и т.д. Все изложенное ранее подразумевало, что рассматриваемые дискретные СВ кодируются только двумя значениями (обычно 0 и 1). Пусть дискретная СВ кодируются m значениями. Тогда для дискретной СВ X и любо- ( ) ( ) го ее кодирования верно, что ML X ≥ H X log 2 m и ML1 X ≥ HX 1 log 2 m . ( ) Кроме того, существует кодирование такое, что ML X − 1 ≤ H X log 2 m и ( ) ( ) ML1 X − 1 ≤ HX 1 log 2 m , где n = dim X . n Формулы теоретических пределов уровня сжатия, рассмотренные ранее, задают предел для средней длины кода на единицу сообщений, передаваемых много раз, т.е. они ничего не говорят о нижней границе уровня сжатия, которая может достигаться на некоторых сообщениях и быть меньшей энтропии дискретной СВ, реализующей сообщение. 2.6.1 Простейшие алгоритмы сжатия информации Метод Шеннона-Фэно состоит в следующем, значения дискретной СВ располагают в порядке убывания их вероятностей, а затем последовательно делят на две части с приблизительно равными вероятностями, к коду первой части добавляют 0, а к коду второй - 1. Для предшествующего примера получим ( ) X p code X 00 01 10 11 9/16 3/16 3/16 1/16 0 10 110 111 50 ( ) ML1 X = 27 32 = 0,84375 бит сим. Еще один пример. Код составляется после сортировки, т.е. после перестановки значений B и C. X p code(X) A B C 0,4 0,2 0,4 0 11 10 ML(X)=ML1(X)=1,6 бит/сим. HX=log25-0,8≈1,523 бит/сим. Метод Хаффмена (Huffman) разработан в 1952 году. Он более практичен и никогда по степени сжатия не уступает методу Шеннона-Фэно, более того, он сжимает максимально плотно. Код строится при помощи двоичного (бинарного) дерева. Вероятности значений дискретной СВ приписываются его листьям; все дерево строится, опираясь на листья. Величина, приписанная к узлу дерева, называется весом узла. Два листа с наименьшими весами создают родительский узел с весом, равным сумме их весов; в дальнейшем этот узел учитывается наравне с оставшимися листьями, а образовавшие его узлы от такого рассмотрения устраняются. После постройки корня нужно приписать каждой из ветвей, исходящих из родительских узлов, значения 0 или 1. Код каждого значения дискретной СВ - это число, получаемое при обходе ветвей от корня к листу, соответствующему данному значению. Для методов Хаффмена и Шеннона-Фэно каждый раз вместе с собственно сообщением нужно передавать и таблицу кодов. Например, для случая из примера 2 нужно сообщить, что коду 10 соответствует символ C, коду 0 - A и т.д. Построим коды Хаффмена для значений дискретной СВ из двух предыдущих примеров. 51 00 9/16 X p 01 3/16 0 0 ( ) code X ( ) ( ) ML1 X = ML X X p 1 0 2 = 27 32 1 A 0,4 code(X) 0 7/16 10 = 0,84375 бит 0 10 3/16 0 1 110 111 сим. B 0,2 0 1 4/16 11 1/16 1 1 10 0,6 C 0,4 1 11 ML1(X)=ML(X)= 1,6 бит/сим. 2.6.2 Арифметическое кодирование Алгоритм кодирования Хаффмена, в лучшем случае, не может передавать на каждый символ сообщения менее одного бита информации. Предположим, известно, что в сообщении, состоящем из нулей и единиц, единицы встречаются в 10 раз чаще нулей. При кодировании методом Хаффмена и на 0 и на 1 придется тратить не менее одного бита. Но энтропия дискретной СВ, генерирующей такие сообщения ≈0.469 бит/сим. Неблочный метод Хаффмена дает для минимального среднего количества бит на один символ сообщения значение 1 бит. Хотелось бы иметь такую схему кодирования, которая позволяла бы кодировать некоторые символы менее чем одним битом. Одной из лучших среди таких схем является арифметическое кодирование, разработанное в 70-х годах XX века. По исходному распределению вероятностей для выбранной для кодирования дискретной СВ строится таблица, состоящая из пересекающихся только в граничных точках отрезков для каждого из значений этой дискрет52 ной СВ; объединение этих отрезков должно образовывать отрезок [0,1], а их длины должны быть пропорциональны вероятностям соответствующих значений дискретной СВ Алгоритм кодирования заключается в построении отрезка, однозначно определяющего данную последовательность значений дискретной СВ Затем для построенного отрезка находится число, принадлежащее его внутренней части и равное целому числу, деленному на минимально возможную положительную целую степень двойки. Это число и будет кодом для рассматриваемой последовательности. Все возможные конкретные коды - это числа строго большие нуля и строго меньшие одного, поэтому можно отбрасывать лидирующий ноль и десятичную точку, но нужен еще один специальный код-маркер, сигнализирующий о конце сообщения. Отрезки строятся так. Если имеется отрезок для сообщения длины n-1, то для построения отрезка для сообщения длины n, разбиваем его на столько же частей, сколько значений имеет рассматриваемая дискретная СВ Это разбиение делается совершенно также как и самое первое (с сохранением порядка). Затем выбирается из полученных отрезков тот, который соответствует заданной конкретной последовательности длины n. Принципиальное отличие этого кодирования от рассмотренных ранее методов в его непрерывности, т.е. в ненужности блокирования. Код здесь строится не для отдельных значений дискретной СВ или их групп фиксированного размера, а для всего предшествующего сообщения в целом. Эффективность арифметического кодирования растет с ростом длины сжимаемого сообщения (для кодирования Хаффмена или Шеннона-Фэно этого не происходит). Хотя арифметическое кодирование дает обычно лучшее сжатие, чем кодирование Хаффмена, оно пока используется на практике сравнительно редко, т.к. оно появилось гораздо позже и требует больших вычислительных ресурсов. При сжатии заданных данных, например, из файла все рассмотренные методы требуют двух проходов. Первый для сбора частот символов, исполь- 53 зуемых как приближенные значения вероятностей символов, и второй для собственно сжатия. Пример арифметического кодирования. Пусть дискретная СВ X может принимать только два значения 0 и 1 с вероятностями 2/3 и 1/3 соответственно. Сопоставим значению 0 отрезок [0, 2/3], а 1-[2/3, 1]. Тогда для дискретной ( ) СВ X , dim X = 3, H X = HX 3 = log 2 3 − 2 3 ≈ 0,9183 бит сим. . Ниже представлена таблица построения кодов. Интервалы и коды  26  31 111 , 1 ∋ = 0,11111  27  32 8   8 26  15 11 , 1 110  ,  ∋ = 0,1111 9   9 27  16  22 8  7 101 ,  ∋ = 0,111  27 9  8 2  2 8  2 22  3 1 , 1 10  ,  100  ,  ∋ = 0,1111 3  3 9  3 27  4  16 2  5 011 ,  ∋ = 0,101  27 3  8 4 2  4 16  1 01 ,  010  ,  ∋ = 0,1 9 3  9 27  2  8 4 3 001 ,  ∋ = 0,011  27 9  8  2  4  8 1 0 0,  00 0,  000 0,  ∋ = 0,01  3  9  27  4 Вероятность Код Хаффмена 1/27 0000 2/27 0001 2/27 010 4/27 001 2/27 011 4/27 100 4/27 101 8/27 11 () M L (X ) = 76 81 ≈ 0,9383 бит сим. (арифметическое), (блочный Хаффмена), ( Хаффмена). M L1 X = 65 81 ≈ 0,8025 бит сим. 1 M L1 ( X ) = M L( X ) = 1 бит сим. Среднее количество бит на единицу сообщения для арифметического кодирования получилось меньше, чем энтропия. Это связано с тем, что в рассмотренной простейшей схеме кодирования, не описан код-маркер конца со54 общения, введение которого неминуемо сделает это среднее количество бит большим энтропии. Получение исходного сообщения из его арифметического кода происходит по следующему алгоритму. Шаг 1. В таблице для кодирования значений дискретной СВ определяется интервал, содержащий текущий код, - по этому интервалу однозначно определяется один символ исходного сообщения. Если этот символ - это маркер конца сообщения, то конец. Шаг 2. Из текущего кода вычитается нижняя граница содержащего его интервала, полученная разность делится на длину этого же интервала. Полученное число считается новым текущим значением кода. Переход к шагу 1. Рассмотрим, например, распаковку сообщения 111. Этому сообщению соответствует число 7/8∈[2/3, 1], что означает, что первый знак декодируемого сообщения - это 1. Далее от 7/8 вычитается 2/3 и результат делится на 1/3, что дает 5/8∈[0, 2/3], что означает, что следующий знак - 0. Теперь, вычислив (5/8-0)⋅3/2=15/16∈[2/3, 1], получим следующий знак - 1, т.е. все исходное сообщение 101 декодировано. Однако, из-за того, что условие остановки не определенно, алгоритм декодирования здесь не остановится и получит «следующий символ» 1 и т.д. 2.7 Качество информации Возможность и эффективность использования информации обусловливаются такими основными ее потребительскими показателями качества, как репрезентативность, содержательность, достаточность, доступность, актуальность, своевременность, точность, достоверность, устойчивость. Репрезентативность информации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта. Важнейшее значение здесь имеют: • правильность концепции, на базе которой сформулировано исходное понятие; 55 • обоснованность отбора существенных признаков и связей отображаемого явления. Нарушение репрезентативности информации приводит нередко к существенным ее погрешностям. Содержательность информации отражает семантическую емкость, равную отношению количества семантической информации в сообщении к объему обрабатываемых данных. С увеличением содержательности информации растет семантическая пропускная способность информационной системы, так как для получения одних и тех же сведений требуется преобразовать меньший объем данных. Наряду с коэффициентом содержательности, отражающим семантический аспект, можно использовать и коэффициент информативности, характеризующийся отношением количества синтаксической информации к объему данных. Достаточность (полнота) информации означает, что она содержит минимальный, но достаточный для принятия правильного решения состав (набор показателей). Понятие полноты информации связано с ее смысловым содержанием (семантикой) и прагматикой. Как неполная, т.е. недостаточная для принятия правильного решения, так и избыточная информация снижает эффективность принимаемых пользователем решений. Доступность информации восприятию пользователя обеспечивается выполнением соответствующих процедур ее получения и преобразования. Например, в информационной системе информация преобразовывается к доступной и удобной для восприятия пользователя форме. Это достигается, в частности, и путем согласования ее семантической формы с тезаурусом пользователя. Актуальность информации определяется степенью сохранения ценности информации для управления в момент ее использования и зависит от динамики изменения ее характеристик и от интервала времени, прошедшего с момента возникновения данной информации. 56 Своевременность информации означает ее поступление не позже заранее назначенного момента времени, согласованного с временем решения поставленной задачи. Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т.п. Для информации, отображаемой цифровым кодом, известны четыре классификационных понятия точности: • формальная точность, измеряемая значением единицы младшего разряда числа; • реальная точность, определяемая значением единицы последнего разряда числа, верность которого гарантируется; • максимальная точность, которую можно получить в конкретных условиях функционирования системы; • необходимая точность, определяемая функциональным назначением показателя. Достоверность информации определяется ее свойством отражать реально существующие объекты с необходимой точностью. Измеряется достоверность информации доверительной вероятностью необходимой точности, т.е. вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности. Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлена выбранной методикой ее отбора и формирования. Необходимо также отметить, что такие параметры качества информации, как репрезентативность, содержательность, достаточность, доступность, устойчивость, целиком определяются на методическом уровне разработки информационных систем. Параметры актуальности, своевременности, точности и достоверности обусловливаются в большей степени также на методиче57 ском уровне, однако на их величину существенно влияет и характер функционирования системы, в первую очередь ее надежность. При этом параметры актуальности и точности жестко связаны соответственно с параметрами своевременности и достоверности. 2.8 Классификация экономической информации Любая классификация всегда относительна. Один и тот же объект может быть классифицирован по разным признакам или критериям. Часто встречаются ситуации, когда в зависимости от условий внешней среды объект может быть отнесен к разным классификационным группировкам. Эти рассуждения особенно актуальны при классификации видов информации без учета ее предметной ориентации, так как она часто может быть использована в разных условиях, разными потребителями, для разных целей. Приведем одну из схем классификации циркулирующей в организации (фирме) информации. В основу классификации положено пять наиболее общих признаков: место возникновения, стадия обработки, способ отображения, стабильность, функция управления. Место возникновения. По этому признаку информацию можно разделить на входную выходную, внутреннюю, внешнюю. Входная информация — это информация, поступающая в фирму или ее подразделения. Выходная информация — это информация, поступающая из фирмы в другую фирму, организацию (подразделение). Одна и та же информация может являться входной для одной фирмы, а для другой, ее вырабатывающей, выходной. По отношению к объекту управления (фирма или ее подразделение: цех, отдел, лаборатория) информация может быть определена как внутренняя, так и внешняя. Внутренняя информация возникает внутри объекта, внешняя информация — за пределами объекта. 58 Стадия обработки. По стадии обработки информация может быть первичной, вторичной, промежуточной, результатной. Первичная информация — это информация, которая возникает непосредственно в процессе деятельности объекта и регистрируется на начальной стадии. Вторичная информация — это информация, которая получается в результате обработки первичной информации и может быть промежуточной и результатной. Промежуточная информация используется в качестве исходных данных для последующих расчетов. Результатная информация получается в процессе обработки первичной и промежуточной информации и используется для выработки управленческих решений. Способ отображения. По способу отображения информация подразделяется на текстовую и графическую. Текстовая информация — это совокупность алфавитных, цифровых и специальных символов, с помощью которых представляется информация на физическом носителе (бумага, изображение на экране дисплея). Графическая информация — это различного рода графики, диаграммы, схемы, рисунки и т.д. Стабильность. По стабильности информация может быть переменной (текущей) и постоянной (условно-постоянной). Переменная информация отражает фактические количественные и качественные характеристики производственно-хозяйственной деятельности фирмы. Она может меняться для каждого случая как по назначению, так и по количеству. Например, количество произведенной продукции за смену, еженедельные затраты на доставку сырья, количество исправных станков и т.п. Постоянная (условно-постоянная) информация — это неизменная и многократно используемая в течение длительного периода времени инфор- 59 мация. Постоянная информация может быть справочной, нормативной, плановой: • постоянная справочная информация включает описание постоянных свойств объекта в виде устойчивых длительное время признаков. Например, табельный номер служащего, профессия работника, номер цеха и т.п.; • постоянная нормативная информация содержит местные, отраслевые и общегосударственные нормативы. Например, размер налога на прибыль, стандарт на качество продуктов определенного вида, размер минимальной оплаты труда, тарифная сетка оплаты государственным служащим; • постоянная плановая информация содержит многократно используемые в фирме плановые показатели. Например, план выпуска автомобилей, план подготовки специалистов определенной квалификации. Функция управления. При классификации по функциям управления обычно выделяют следующие группы: плановую, нормативно-справочную, учетную и оперативную (текущую). Плановая информация — информация о параметрах объекта управления на будущий период. На эту информацию идет ориентация всей деятельности фирмы. Нормативно-справочная информация содержит различные нормативные и справочные данные. Ее обновление происходит достаточно редко. Учетная информация — это информация, которая характеризует деятельность фирмы за определенный прошлый период времени. На основании этой информации могут быть проведены следующие действия: скорректирована плановая информация, сделан анализ хозяйственной деятельности фирмы, приняты решения по более эффективному управлению работами и пр. На практике в качестве учетной информации может выступать информация бухгалтерского учета, статистическая информация и информация оперативного учета. Оперативная (текущая) информация — это информация, используемая в оперативном управлении и характеризующая производственные про60 цессы в текущий (данный) период времени. К оперативной информации предъявляются серьезные требования по скорости поступления и обработки, а также по степени ее достоверности. От того, насколько быстро и качественно проводится ее обработка, во многом зависит успех фирмы на рынке. Резюме Основным видом обработки первичных сигналов, полученных различными приборами, является преобразование в форму, обеспечивающую её восприятие органами чувств человека. Так, рентгеновский снимок преобразуются в обычную фотографию с использованием специальных фотоматериалов. Обработка информации всегда производится с некоторой целью. Для её достижения должен быть известен порядок действий над информацией, приводящий к заданной цели. Такой порядок действий называется алгоритмом. Кроме самого алгоритма необходимо также некоторое устройство, реализующее этот алгоритм. В научных теориях такое устройство называется автоматом. При обработке данных и/или информации может возникать новая информация без изменения старой. Следовательно, в информационном взаимодействии не могут действовать законы подобные закону сохранения энергии в материальном мире. Определение смысла (содержания) является основной задачей семантической обработки информации, применяемый в информационно- поисковых системах и системах машинного перевода. В отличие от данных информация должна оцениваться не статистическии характеристиками, а смысловым содержанием, которое описывается с помощью искусственных языков, отражающих смысловые связи между словами исходного текста. Словарь такого языка, называется тезаурусом. Смысл сообщения определяется путем отнесения слов или словосочетаний в нем с тезаурусом. 61 Вопросы для самопроверки 1. Вид адекватностей информации? 2. Что такое система классификации? 3. Формула Шеннона. 4. Понятие экономической информации. 5. Что такое энтропия? 6. Какие знаете алгоритмы сжатия информации? 7. Какие существуют меры информации? 8. Виды систем кодирования информации. 9. Виды связи между дескрипторами. 10. Показатели качества информации. 11. Классификация информации по функциям управления. 62 ГЛАВА 3. КЛАССИФИКАЦИЯ ИНФОРМАЦИОННЫХ СИСТЕМ Из первой главы видно, что не существует единого подхода в понимании информационной системы. В силу этого, классификация информационных систем затруднена. Информационная система состоит из ряда подсистем, в тоже время ее элементы входят в состав других систем. Построим классификацию ИС на основе выявления общих элементов взаимодействия ее с другими системами. Сама информационная система - система людей, хранимых данных и процессов обработки данных и информации в контексте конкретной организации. Люди участвуют в бизнес - процессе6 с помощью программных средств. Следовательно, можно выделить систему – процесс. В данном процессе участвует информационная система. Процесс является составляющей в жизненном цикле продукции7, поэтому можно рассматривать в качестве системы жизненный цикл продукции. Жизненный цикл продукции определен в различных стандартах. Если использовать термины «система разработки» и «постановка продукции на производство (СРПП)», то можно выделить следующие взаимосвязанные группы работ: исследования (аванпроект); опытноконструкторские работы (ОКР), опытно-технологические работы (ОТР); производство (постановка на производство, единичное повторяющееся, серийное, массовое производство); поставка (обращение); эксплуатация (примене- 6 Процесс совокупность взаимосвязанных или взаимодействующих видов деятельности, преобразу- ющих входы в выходы. Выходом процесса является продукция. Имеются четыре общие категории продукции: услуги (например, перевозки); программные средства (например компьютерная программа, словарь); технические средства (например, узел двигателя); перерабатываемые материалы (например смазка) /41/. 7 Совокупность взаимосвязанных процессов последовательного изменения состояния продукции от формирования исходных требований к ней до окончания ее эксплуатации или применения /44/. 63 ние, хранение); ремонт; обеспечение эксплуатации и ремонта предприятиями промышленности; снятие с производства /55/. В дальнейшем, чаще всего, будут рассматривать бизнес-процессы. Бизнес-процесс - последовательность взаимосвязанных задач, решающих специфическую проблему. Есть три типа бизнес-процесса. − Процессы управления - процессы, которые управляют действием системы. Типичные процессы управления включают «общее управление» и «стратегическое управление». − Операционные процессы – в этих процессах создаются первичные потоки данных, они - часть основного бизнеса. Типичные операционные процессы - покупка, производство, маркетинг и продажа. − Вспомогательные процессы - поддерживают основные процессы. Например, бухгалтерский учет, наем работников, ИТподдержка. Люди, кроме того, работают в соответствующих подразделениях предприятия, поэтому еще одна система, с которой соприкасается информационная система, это организация 8. В информационной системе можно выделить компьютерную подсистему (computer –based information system), которая состоит из программнотехнического обеспечения (это hard и soft) информационной системы (именно эту подсистему часто называют информационной системой). Компьютерные подсистемы на предприятии образуют компьютерную систему. Отношение организации, компьютерной системы и бизнес - процессов показано на рисунок 3.1. Информационная система является конкретной комбинацией технических средств, компьютеров, программных средств, материалов, персонала и 8 Организация: группа работников и необходимых средств с распределением ответственности, пол- номочий и взаимоотношений /41/. 64 возможностей. Программные средства служат для обеспечения выполнения некоторых функций данных процессов с помощью компьютеров. Программные средства могут быть постоянно (резидентно) размещены в компьютерах, встроены как программы, реализованные техническими средствами, или интегрированы в объект технических средств (рисунок 4.2). Технические средства могут представлять сложно - организованную систему персональных компьютеров, рабочих станций, майн фреймы, сервера, сетевые коммуникации и телекоммуникационное оборудование. Рисунок 3.1 – Отношение компьютерной системы, бизнес процессов и организации /42/. Автоматизация бизнес - процессов, как цель использования информационной системы, хорошо прослеживается на рисунке 3.2. Автоматизация не единственная цель, которую можно преследовать при внедрении информационной системы. Многие бизнес - процессы не могут быть реализованы без использования информационных технологий, как, например, системы elearning, системы электронной коммерции и т.д. 65 Применение информационных систем может привести к полному изменению бизнес - процессов (реинжиниринг бизнес - процессов). Реальные процессы в системе Автоматизированные процессы Технические средства Программные средства Ручные операции Средства Информационная система Компьютерная система Рисунок 3.2 – Соотношение между информационной системой, программными средствами и компьютерной системой. Современное предприятие настолько глубоко пронизано информационными технологиями 9, что организацию предприятия следует рассматривать в контексте организации информационных систем. В этом случае рекомендуется описывать архитектуру 10 предприятия с точки зрения использования ИТ средств (рисунок 3.3). Такой подход, при рассмотрении организации, дает нам возможность обобщить задачи ИТ инфраструктуры. ИТ инфраструктура предприятия образует систему, которая должна рассматриваться 9 Технология (от греч. téchne - искусство, мастерство, умение и ...логия), совокупность приёмов и способов получения, обработки или переработки сырья, материалов, полуфабрикатов или изделий, осуществляемых в различных отраслях промышленности, в строительстве и т. д.; научная дисциплина, разрабатывающая и совершенствующая такие приёмы и способы /1/. Информационная технология, как определено ИТ Ассоциацией США (Information Technology Association of America - ITAA), является «изучением, проектированием, развитием, разработкой, поддержкой или управлением компьютерных информационных систем (computer-based information systems), в особенности применениям программного обеспечения и компьютерного оборудования» /15/. 10 Понятие архитектура будет рассмотрено ниже. Пока будем считать архитектурой системы неко- торое обобщенное описание этой системы. 66 вместе с информационными системами. В данную систему входит организация ИТ департамента предприятия. Перечислим еще раз все системы, которые мы выделили: − информационная система; − система жизненного цикла продукции; − процессы, как системы; − система организации предприятия; − ИТ инфраструктура предприятия, как подсистема предприятия; − компьютерная система (computer –based information system); − техническая система (система технических средств); − программное обеспечение. Бизнес архитектура Архитектура информации (данных) Архитектура Приложений Технологическая архитектура (инфраструктура: программное, аппаратное обеспечение ) Рисунок 3.3 – Архитектура предприятия. Компьютерной систему иногда называют программно-технический комплекс информационной системы 11 (ПТК ИС). Только компьютерная система и программное обеспечение являются подсистемами информационной системы. 11 ПТК ИС: Продукция, представляющая собой совокупность средств вычислительной техники, программного обеспечения и средств создания и заполнения машинной информационной базы при вводе системы в действие достаточных для выполнения одной или более задач 67 В первой главе информационные системы сравнивались с автоматизированными системами (АС). Было определено, что информационные системы являются подмножеством автоматизированных систем. Так, например, промышленные роботы обычно относятся к автоматизированным системам, но не относят к информационным система. Функциональные возможности АС ничем не ограничиваются, в то время, как в информационных системах должны присутствовать функции сбора, хранения и обработки информации. В современном мире компьютерных технологий проблемы классификации информационных систем нет. Каждый вид информационных систем исторически возникал либо по мере появления новых технологий обработки информации, либо по мере развития бизнес - процессов, интегрив с которыми интегрировалась ИС. В соответствии с этим появлялись новые информационные системы с немыслимыми аббревиатурами (например, АДФИПС СНМОУ). Задача систематизации информационных систем возникает, обычно, в учебных целях. С другой стороны, определение структуры информационных систем дает возможность выявить общие тенденции их развития. Исходя из выше приведенного перечня систем, можно выделить следующие признаки классификации: − место, занимаемое информационной системой в жизненном цикле продукции (ИС поддержки жизненного цикла продукции (CALS), ИС управления релизами и т.д.); − процесс, в котором используется данная информационная система (процесс закупки, процесс управления, процесс продажи, процесс производства); − уровень организационных структур предприятия, использующих ИС (классификация в современных условиях не приемлема, так как противоречит процессному подходу стандарта ISO 9000, в тоже время, сохранилось понятие корпоративная информаци- 68 онная система 12 (КИС), используемое, чтобы подчеркнуть, что данная ИС охватывает процессы всей компании или корпорации); − уровень управления государственных структур, использующих ИС; − степень влияния информационных систем на бизнес - процесс; − доля ручного труда при выполнении процесса (чаще используют понятие степень автоматизации); − форма представления информации; − ИТ технологии, используемые при построении ИС (данный классификационный признак трудно отделить от предыдущего); − методология или стандарт, реализуемые в процессе. Выбор классификационных признаков можно продолжить и дальше (отрасль производства, вид деятельности человека и т.д.). 3.1 Классификация ИС по форме представления информации. В литературе используются различные способы классификации. Наиболее популярна классификация /46/, основанная на различном представлении информационных систем в различных ГОСТах. Можно выделить три представления информационных систем в отечественных стандартах (примерно, 90-х годов). Надо оговориться, что стандарты зафиксировали уровень развития информационных систем на момент своего появления. Мы привязываем информационные системы к стандартам 12 Корпорация - в правовой терминологии США и ряда других стран понятие, обычно означающее юридическое лицо, организацию. Термином «корпорация» пользуются всякий раз, когда хотят подчеркнуть, что организация, называемая этим именем, рассматривается как единое целое и может выступать участником в гражданском обороте. В законодательстве РФ термин «корпорация» употребляется только как составная часть собственного названия государственных коммерческих организаций. Корпоративная информационная система обычно означает информационную систему, интегрированную в различных бизнес процессах организации. 69 только потому, что именно в них зафиксированы наиболее актуальные направления развития информационных систем. Первое направление связано с группой стандартов ГОСТ 24, а затем ГОСТ 34 (ГОСТ34 заменял стандарты ГОСТ 24). Данная группа стандартов обобщала разнородные нормативные материалы разработки автоматизированных систем, существующих в различных отраслях. Все АС рассмотрены в ГОСТ 34 с единых позиций, унифицирована их структура и процесс разработки. Второе направление логично вытекало из задач поиска и систематизации информации, представленных в виде текстов. Данная задача наиболее актуальна в библиотечной деятельности, поэтому второе направление связано с «Системой стандартов по информации, библиотечному и издательскому делу» (СИБИД), которая объединяет в себе общетехнические и организационно-методические стандарты, регламентирующие правила представления данных, описания документов, функционирования библиотечных фондов, оформления печатных и электронных изданий и т.д. В этой группе стандартов определяются информационно - поисковые системы (ИПС) и информационно-поисковые языки (ИПЯ). Третья группа стандартов связана с гибкими производственными системами 13 (ГПС). От внедрения ГПС ожидалось: уменьшение размеров предприятий, увеличение коэффициента использования оборудования и снижение накладных расходов, значительное уменьшение объема незавершенного производства, сокращение затрат на рабочую силу в результате организации «безлюдного» производства, ускорение сменяемости моделей выпускаемой продукции в соответствии с требованиями рынка, сокращение сроков поста13 ГПС – управляемая средствами вычислительной техники совокупность технологического обору- дования, состоящего из разных сочетаний гибких производственных модулей и (или) гибких производственных ячеек, автоматизированной системы технологической подготовки производства и системы обеспечения функционирования, обладающая свойством автоматизированной переналадки при изменении программы производства изделий, разновидности которых ограничены технологическими возможностями оборудования /47/. 70 вок продукции и повышение ее качества. Третья группа являлась развитием концепции АС. АС, по мнению авторов данной классификации, объединяла представление информации в виде различных данных (в данном случае -данные - синоним факта). Данные хранились либо в обычном файлах (с произвольным или последовательными доступами), либо в файлах баз данных (в этом случае хранилось и мета-описание данных). ИПС работали с текстовой информацией, в которой требовалось реализовать алгоритмы представления текстовой информации в структуры данных. Естественное разделение систем было связано с формой представления информации, отсюда и деление информационных систем на документальные и фактографические. К фактографическим системам отнесли все виды АС, а к документальным - все виды ИПС и ИПЯ (хотя, странно относить языки к информационным системам). В данной классификации есть некоторые нестыковки. Наиболее серьезная нестыковка - АС могли работать и с текстовой информацией (правильнее сказать, то ИПС являлось подмножеством АС). Поэтому в дальнейшем были выделены автоматизированные документально-фактографические информационно - поисковые системы (АДФИПС), которые относились к автоматизированным системам, использующим алгоритмы и методы поисковых систем при работе с документами. Современные технологии внесли коррективы в такое представление. Появление HTML, а затем XML-файлов дают возможность разметить текстовый документ, но, самое главное, развитие web - сервисов кардинально поменяли представление о технологии работы с документом. Исходя из вышесказанного, предлагается разделить ИС, в зависимости от формы представления данных, на документальные (основным носителем информации является текстовый документ), фактографические (информаци- 71 онными объектами являются данные) и XML- документальные (информационные объектами являются XML14- файлы). 3.1.1 Фактографические системы Отличительной особенностью этих подсистем является использование данных, как способа представления фактов, концепций или инструкций. Данные могут быть представлены в виде текста. При этом не ставится задача автоматического структурирования этого текста. Другими словами, если описание факта и имеет структуру, то автоматический поиск этой структуры не является задачей фактографической системы. Фактографические системы берут свое начало с, так называемых, систем обработки данных. Системы обработки данных (СОД) - комплекс взаимосвязанных методов и средств сбора и обработки данных, необходимых для организации управления объектами. СОД основываются на применении ЭВМ и других современных средств информационной техники, поэтому их также называют автоматизированными системами обработки данных (АСОД) /1/. СОД – это часть и первая ступень развития автоматизированной системы управления (АСУ). Комплекс стандартов ГОСТ 24, вышедший в 70-е г., регламентировал требования к данным системам. АСУ предназначена для обеспечения эффективного функционирования объекта управления путем автоматизированного выполнения функций управления /48/. Основными классификационными признаками, определяющими вид АСУ, являются: 14 XML (англ. eXtensible Markup Language — расширяемый язык разметки; произносится [экс-эм- э́л]) — рекомендованный Консорциумом Всемирной паутины язык разметки, фактически представляющий собой свод общих синтаксических правил. XML предназначен для хранения структурированных данных (взамен существующих файлов баз данных), для обмена информацией между программами, а также для создания на его основе более специализированных языков разметки (например, XHTML), иногда называемых словарями /14/. 72 • сфера функционирования объекта управления (промышленность, строительство, транспорт, сельское хозяйство, непромышленная сфера и т.д.) • вид управляемого процесса (технологический, организационный, экономический и т.д.); • уровень в системе государственного управления, включая управление народным хозяйством в соответствии с действующими схемами управления отраслями (для промышленности: отрасль (министерство), всесоюзное объединение, всесоюзное промышленное объединение, научно-производственное объединение, предприятие (организация), производство, цех, участок, технологический агрегат). Функции АСУ в общем случае включают в себя следующие элементы (действия): • планирование и (или) прогнозирование; • учет, контроль, анализ; • координацию и (или) регулирование. ГОСТ 34 отменил положения некоторых стандартов ГОСТ 24 и ввел концепцию автоматизированных систем (АС). АС - система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций. В зависимости от вида деятельности выделяют следующие виды АС: автоматизированные системы управления (АСУ), системы автоматизированного проектирования (САПР), автоматизированные системы научных исследований (АСНИ) и др. /19/ АСУ стало подмножеством АС. Необходимо отметить, что создатели ГОСТ не устанавливали ограничения на вид используемой информации, поэтому понятие АС покрывало и большинство документальных систем. Развитие фактографических систем связано с развитием технологий хранения и обработки информации. 73 Из истории развития технологии хранения можно выделить следующие этапы. Первый этап - хранение данных в файлах. В том случае использовались файлы последовательного доступа и файлы с произвольным доступом. Отличительной особенностью этого этапа - работа программиста с низкоуровневыми операциями ввода, вывода, поиска и т.д. Второй этап - использования баз данных. Используются также файлы, хранящие кроме данных еще и структуру данных. Развитие баз данных и систем управления базами данных (СУБД) является одним из основных факторов развития современных фактографических систем. Появление OLAP – систем (описание OLAP см. ниже) и хранилищ данных (Data Warehouse - DW) связано с появлением технологий работы с многомерными таблицами данных. Вместе с тем, развиваются не только технологии программного уровня, но и технологии аппаратного уровня. Если в 70-80-х годах прошлого столетия емкость систем хранения выражалась в основном в мегабайтах, то в наши дни речь нередко идет уже о тера- и петабайтах. Сегодня системы хранения - одна из самых быстроразвивающихся областей в ИТ. В настоящее время на рынке присутствуют несколько систем хранения. Наиболее известные из них: системы прямого подключения типа DAS (Direct-Attached Storage); устройства хранения данных, подключаемые к сети – NAS (Network Attached Storage), а также сети хранения данных – SAN (Storage Area Network) (рисунок 3.4). 74 Приложение Клиент Клиент Клиент Клиент LAN LAN Файловая система Сервер Сервер Дисковое устройство Файловое хранение DAS Сервер SAN Ленточный накопитель NAS Хранилище данных SAN Рисунок 3.4 – Архитектура построения систем хранения данных В технологии Network Attached Storage (NAS), аналогично тому, как принт-сервер берет на себя функции печати, NAS-сервер берет на себя хранение общих файлов пользователей локальной сети. Storage Area Network (SAN) - это специальная выделенная сеть, объединяющая устройства хранения данных с серверами приложений. В отличие от NAS, SAN не имеет понятия о файлах: файловые операции выполняются на подключенных к SAN серверах. SAN оперирует блоками, как некий гигантский жесткий диск. Идеальный результат работы сетей хранения данных - возможность доступа любого сервера под любой операционной системой к любой части дисковой емкости, находящейся в этой системе. Появление SAN дало возможность предавать хранение данных на аутсорсинг. Функциональное развитие автоматизированных систем продолжается с появлением новых концепций обработки и представления информации, использованных в фактографических информационных системах. С пoявлeниeм кoнцeпций информационно-управляющих систем (management information systems-- MIS), былa дoбaвлeнa фyнкция, нaпpaвлeннaя нa oбecпeчeниe мeнeджepoв нeoбxoдимыми для пpинятия yпpaвлeнчecкиx peшeний oтчeтaми, cocтaвлeнными нa ocнoвe coбpaнныx o пpoцecce дaнныx (information reporting systems). Очень часто к информационно-управляющим 75 системам относят системы принятия решений (СППР), экспертные системы (ЭС) и управленческие информационные системы. Концепция систем поддержки принятия решений (СППР, decision support systems - DDS) отражала потребность менеджеров в специализированном инструменте, обеспечивающего интepaктивную пoддepжку пpoцeccoв принятия yникaльныx рeшeний. Современные системы поддержки принятия решения (СППР), возникшие как естественное развитие и продолжение управленческих информационных систем и систем управления базами данных, представляют собой системы, максимально приспособленные к решению задач повседневной управленческой деятельности. Они являются инструментом, призванным оказать помощь лицам, принимающим решения (ЛПР). Обобщенная архитектура СППР, предложенная Marakas /15/, состоит из 5 различных частей: • система управления данными (the data management system DBMS), • система управления моделями (the model management system – MBMS), • машина знаний (the knowledge engine (KE)), • интерфейс пользователя (the user interface), • пользователь (the user(s)). Система поддержки принятия решений обладает следующими четырьмя основными характеристиками: • использование и данных, и моделей; • помощь менеджерам в принятии решений для слабоструктурированных и неструктурированных задач; • поддержка, а не замена, выработки решений менеджерами (лицо, принимающее решение - ЛПР); • применение с целью улучшения эффективности решений. В 1993 г Е. Коддом (E.F. Codd) для СППР специального вида был предложен термин OLAP (Online Analytical Processing)- оперативный анализ дан76 ных, онлайновая аналитическая обработка данных для поддержки принятия важных решений. Одним из направлений развития СППР стали Информационные системы руководства (ИСР, executive information systems – EIS). ИСР определили тип информационно-управляющих систем, которые обеспечивают высшее руководство нужной информацией для выработки стратегических целей организации. Можно рассматривать данную систему как специализацию СППР. В ИСР акцентируется внимание на графической интерпретации данных. Они предлагают отчеты, дающие возможность топ-менеджерам проводить анализ деятельности с акцентом на тенденциях изменения параметров, по которым они могли бы контролировать выполнение работы и идентифицировать риски и открывающиеся возможности. Для ИСР характерны следующие основные черты: • отчеты, базируются на стандартных для организации запросах, число которых относительно невелико; • отчеты представляется в максимально удобном виде, включающем таблицы, деловую графику, мультимедийные возможности и т. п.; • ориентация на конкретный вертикальный рынок, например, финансы, маркетинг, управление ресурсами. Крупным дocтижeниeм былo coздaниe и пpимeнeниe cиcтeм и мeтoдoв иcкyccтвeннoгo интeллeктa (artifical intellegence - AI). Искусственный интеллект - раздел информатики, изучающий возможность обеспечения разумных рассуждений и действий с помощью вычислительных систем и иных искусственных устройств. Явно не определено, что именно считать необходимыми и достаточными условиями достижения интеллектуальности. Обычно к реализации интеллектуальных систем подходят именно с точки зрения моделирования человеческой интеллектуальности. Таким образом, в рамках искусственного интеллекта различают два основных направления: 77 • символьное (семиотическое, нисходящее) основано на моделировании высокоуровневых процессов мышления человека, на представлении и использовании знаний; • нейрокибернетическое (нейросетевое, восходящее) основано на моделировании отдельных низкоуровневых структур мозга (нейронов) /14/. В рамках этих направлений применяются следующие методы. • Экспертные системы: программы, которые, действуя по определенным правилам, обрабатывают большое количество информации и выдают заключение на её основе. • Рассуждение на основе аналогичных случаев (Case-based reasoning). • Байесовские сети. • Поведенческий подход: модульный метод построения систем искусственного интеллекта, при котором система разбивается на автономные программы поведения, которые запускаются, в зависимости от изменений внешней среды. • Нейронные сети: системы с отличными способностями к распознаванию. • Нечёткие системы: методики для рассуждений в условиях неопределенности (широко используются в современных промышленных и потребительских системах контроля). • Эволюционные вычисления: здесь применяются понятия, традиционно относящиеся к биологии, такие как популяция, мутация и естественный отбор для создания лучших решений задачи. Эти методы делятся на эволюционные алгоритмы (например, генетические алгоритмы) и методы роевого интеллекта (например, муравьиный алгоритм). Все перечисленные методы используются в настоящее время в СППР подсистемах анализа данных, как, например, Business Intelligenc. 78 Обратите внимание, что экспертная система (ЭС, expert system) - это компьютерная программа, а не информационная система. Ее цель - заменить специалиста-эксперта в решении проблемной ситуации. Можно определить следующую структуру экспертной системы: • база знаний; • интерфейс пользователя; • решатель или система вывода; • подсистема объяснений; • интеллектуальный редактор базы знаний; • пользователь; • эксперт; • инженер по знаниям. База знаний состоит из правил анализа информации от пользователя по конкретной проблеме. Задача инженера по знаниям - отобразить знания экспертов в предметной области в формальную структуру базы знаний. Экспертная система может использоваться как самостоятельная программа или встраиваться в бизнес - процесс принятия решения. В последнем случае она преобразуется в информационную систему. Мы проследили историю развития СППР. СППР проделали длинный эволюционный путь от СОД и сиcтeмы гeнepaции oтчeтoв (information reporting systems (IRS) - нaибoлee pacпpocтpaнeнная фopма yпpaвлeнчecкиx инфopмaциoнныx cиcтeм) до систем, использующих алгоритмы искусственного интеллекта15. В первых системах СППР требовалось хранение больших массивов данных и выполнение с большой скоростью транзакций в распределенных системах. Это направление развития СППР привело к созданию систем опе- 15 Наиболее ярким представителем последних систем являются системы анализа данных (см. ниже системы BI - Business Intelligenc) 79 ративной обработки транзакции (OLTP 16 - Online Transaction Processing). OLTP-системы проектируются для управления большим потоком транзакций, каждый из которых сопровождался внесением незначительных изменений в оперативные данные предприятий. Данные системы должны иметь инструмент обработки информации (операций, документов) в режиме реального времени. Объем данных может колебаться от нескольких мегабайт до терабайт и петабайт. В тоже время, такие системы трудно использовать для анализа хранимых данных. В 1993 году Е. Коддом была предложена концепция инструментов, реализующая оперативную аналитическую обработку данных (On-Line Analysis Processing -OLAP). OLAP состаит из многочисленных умозрительных сценариев прогнозируемого развития модели данных ("что - если” и/или "почему" ) в контексте некоторого определенного базиса (ретраспективные данные, точных в данный момент времени) и определенных временных перспектив /121/. Были поределены 12 правил оценки OLAP системы, которые позже были переработаны в, так называемый, тест Быстрый Анализ Разделяемой Многомерной Информации - или кратко – тест FASMI (Fast Analysis of Shared Multidimensional Information) (см. http://www.basegroup.ru - глоссарий): • Fast (быстрый) — предоставление пользователю результатов анализа за приемлемое время (обычно не более 5 с), пусть даже ценой менее детального анализа; • Analysis (анализ) — возможность осуществления любого логического и статистического анализа, характерного для данного приложения и его сохранения в доступном для конечного пользователя виде; 16 Понятие OLTP (Online Transaction Processing — онлайновая обработка транзакций) относится также к способу организации БД, при котором система работает с транзакциями небольшими по размерам, но идущими большим потоком, и при этом клиенту требуется от системы максимально быстрое время ответа /14/. 80 • Shared (разделяемой) — многопользовательский доступ к данным с поддержкой соответствующих механизмов блокировок и средств авторизованного доступа; • Multidimensional (многомерной) — многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий (ключевое требование OLAP); • Information (информации) — возможность обращаться к любой нужной информации независимо от ее объема и места хранения. В силу принципа «Multidimensional», OLAP ассоциируется с многомерным кубом или гиперкубом17 (рисунок 3.5). Например, при использовании модели данных о таварах гиперкуб может строиться по следующим измерениям: товар, адрес, покупатель, время. На пересечениях измерений (dimensions) — находятся данные с опредленной размерностью (measures), или же агрегатные функции (min, max, avg, дисперсия, ср. отклонение и пр.). Каждое dimensions включает направления консолидации данных, состоящее из серии последовательных уровней обобщения (уровней иерархии), где каждый вышестоящий уровень соответствует большей степени агрегации данных по соответствующему измерению (различные уровни их детализации). Тюмень Москва Рязань Рисунок 3.5 - Пример гиперкуба 17 Гиперкуб является концептуальной логической моделью организации данных, а не физической реализацией их хранения, поскольку храниться такие данные могут и в реляционных таблицах 81 Над гиперкубом производятся аналитические OLAP-операции, перечисленные ниже. Сечение. Фиксируется (задается одно или несколько значений) измерения и формируется новый гипер куб. Например если задать название товара, время и адрес магазина, то мы получим цену (скаляр), если задать название товара и адрес магазина, то получим значение цены в различное время (двумерная таблица). Вращение (rolling). Изменяется порядок представления измерений, что обеспечивает удобстово восприятия. Например, для таблицы это транспонирование. Углубление в данные (Drill Down/Up - Drill Down) или Консолидация (обобщение) (Drill Up) как отдельных измерений, так и выбранных элементов измерений) - техника анализа,которая дает возможность переходить вверх по направлению от детального (down) представления данных к агрегированному (up) и наоборот. Направление детализации (обобщения) может быть задано иерархией измерений, так и различными отношениями, установленным в данной модели. Например, при анализе данных об объемах продаж в г.Тюмени выполнить операцию down для измерения «Адрес», то на экране будут отображены его различные магазины в гю Тюмени. Разбиение с поворотом (slicing and dicing). Термин, используемый для описания функции сложного анализа данных: выборка данных из многомерного куба с использованием операций вращения концептуального куба данных и детализации/агрегирования данных. Физическая организация концептуальной модели возможна в трех вариантах: • MOLAP (Multidimensional OLAP); • ROLAP (Relational OLAP); • HOLAP (Hybrid OLAP). MOLAP (Multidimensional OLAP) 82 В MOLAP-модели многомерное представление данных реализуется физически. В специализированных СУБД, основанных на многомерном представлении данных, данные организованы не в форме реляционных таблиц, а в виде упорядоченных многомерных массивов. Достоинства: • высокая производительность, т.к. в случае использования многомерных СУБД поиск и выборка данных осуществляется значительно быстрее, чем при использовании реляционных баз данных; • в МOLAP легко встраиваются различные функции, которые трудно реализовать в SQL. Недостатки MOLAP-модели: • не позволяют работать с большими массивами данных; • трудности хранения и обработки разреженных данных (данные или неизвестны или нулевые); Область применения: • объем исходных данных для анализа не слишком велик (не более нескольких гигабайт); • набор информационных измерений стабилен (поскольку любое изменение в их структуре почти всегда требует полной перестройки гиперкуба); • время ответа системы на нерегламентированные запросы является наиболее критичным параметром. ROLAP (Relational OLAP) Системы оперативной аналитической обработки реляционных данных (ROLAP) позволяют представлять данные, хранимые в реляционной базе в многомерной форме, обеспечивая преобразование информации в многомерную модель через промежуточный слой метаданных. В этом случае гиперкуб эмулируется СУБД на логическом уровне. 83 Для большинства хранилищ данных наиболее эффективным способом моделирования N-мерного куба фактов является схема «звезда» (star schema) (рисунок 3.6). Рисунок 3.6 – Пример реализации схемы «звезда». Основными составляющими структуры хранилищ данных являются таблица фактов (fact table) и таблицы измерений (dimension tables). В сложных задачах с многоуровневыми измерениями используются различные расширения схемы «звезда» — схема «снежинка» (snowflake schema). Достоинства: • размер хранилища не является критичным параметром, как в случае MOLAP; • внесение изменений в структуру измерений не требует физической реорганизации базы данных, как в случае MOLAP; • реляционные СУБД обеспечивают высокий уровень защиты данных. Недостаток: • меньшая производительность. HOLAP (Hybrid OLAP) Гибридные системы (Hybrid OLAP, HOLAP) разработаны с целью совмещения достоинств и минимизации недостатков, присущих предыдущим 84 классам. В книге Т. Конноли /49/ данная технология описана как инструмент, управляемый средой запросов (MQE) c промежуточным MOLAP кубом. Основные данные хранятся в реляционной базе (ROLAP), агрегированные - в многомерной структуре (кубе MOLAP), так как ситуация, когда для анализа нужны все данные, возникает достаточно редко. Многомерные данные представляются в виде киосков данных (рисунок 3.7). Построенный куб данных анализируется средствами многомерного OLAP. Достоинства: • относительная простота инсталляции, администрирования и сопровождения; • способность каждого пользователя создавать свои собственные кубы данных. Рисунок 3.7 – Архитектура HOLAP. С OLAP - технологией тесно связано понятие хранилищ данных 18. Изначально хранилища данных (тогда их называли информационные хранилища) были предложены фирмой IBM как решение, обеспечивающее доступ к данным, накопленным в нереляционных системах. В настоящее время хранилища данных являются рабочей средой для СППР, которая включает не только технологию управления данными, но и их анализ. В таблице 3.1 приведены данные сравнения OLTP - систем и хранилищ данных. Таблица 3.1 18 Хранилище данных (DW - data warehouse) - предметно-ориентированная информационная корпо- ративная база данных, предназначенная для подготовки отчетов, анализа бизнес-процессов и поддержки принятия решений. 85 Сравнение основных характеристик типичной OLTP - системы и хранилища данных /49/ OLTP система Хранилище данных Содержит текущие данные Содержит исторические данные Хранит подробные сведения Хранит подробные сведения, а также частично и значительно обобщенные данные Данные являются динамическими Данные в основном являются статическими Повторяющийся способ обработки данных Нерегламентированный, неструктурированный и эвристический способ обработки данных Высокая интенсивность обработки транзакций Средняя и низкая интенсивность обработки транзакций Предсказуемый способ использования данных Непредсказуемый способ использования данных Предназначена для обработки транзакций Предназначена для проведения анализа Ориентирована на прикладные области Ориентирована на предметные области Поддержка принятия повседневных решений Поддержка принятия стратегических решений Обслуживает большое количество работников исполнительного звена Обслуживает малое количество работников руководящего звена На сегодняшний день существует два основных подхода к архитектуре Хранилищ данных. Это, так называемая, корпоративная информационная фабрика (Corporate Information Factory - CIF) и хранилище данных с архитектурой шины (Data Warehouse Bus - BUS). В архитектуре CIF данные представляются в виде киосков данных, ориентированных на организационные структуры. В архитектуре BUS представление данных осуществляется в виде 86 киосков, ориентированных на процессы /50/. Архитектура хранилища данных приведена на рисунке 3.8. Источник данных 1 Источник данных 2 Инструменты OLAP Менеджер загрузки Менеджер запросов Источник данных 3 Архивное и резервное копирование Средства доступа конечных пользователей Запросы генерации отчетов EIS Менеджер хранения Инструменты разработки данных Рисунок 3.8 – Архитектура хранилища данных /49/. Логическим продолжением применения хранилища данных являются системы бизнес - анализа (Business Intelligence). Business Intelligence - интеллектуальный инструментарий, позволяющий решать проблемы доступа к разнородным данным, построению отчетов пользователей и анализу данных. Данные системы могут включать: хранилища данных, запросы конечного пользователя и инструмент для создания отчетов, OLAP инструменты, Data Mining инструменты. Архитектура Business Intelligence представлена на рисунке 3.9. Knowledge Discovery in Databases (KDD) - процесс поиска полезных знаний в «сырых данных». KDD включает в себя процессы: подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining (DM), постобработки данных. KDD не задает набор методов обработки и алгоритмов, он определяет последовательность действий, 87 которые необходимо сделать для того, чтобы из исходных данных получить знания. Системы учета Интернет Сторонние источники Документы Хранилище данных Семантический слой Система отчетности Knowledge Discuvery in Databases Очитка данных Нерагламентированные запросы Регулярные отчеты Трансформация данных Таблицы Data Mining Диаграммы и графики Интерпретация результатов Рисунок 3.9 – Архитектура организации Business Intelligence. Data mining19 Добыча данных - процесс аналитического исследования больших массивов информации (обычно экономического характера) с целью выявления определенных закономерностей и систематических взаимосвязей между переменными, которые затем можно применить к новым совокупностям данных. Этот процесс включает три основных этапа: исследование, построение прогнозирующей модели или структуры и ее проверку В основу data mining заложены готовые фрагменты, отражающие фрагменты данных (паттерны данных). Он позволяет определить заранее неиз19 http://ru.wikipedia.org/wiki/Data_mining 88 вестные типы закономерности из известных. При этом применяются различные алгоритмы для нахождения знаний: • нейронные сети, • деревья решений, • алгоритмы кластеризации, • установления ассоциаций, • фильтрации, • нечеткая логика, • ассоциативные правила и т.д. 3.1.2 Документальные системы Документальные системы, термин весьма размыт. Мы используем его для того, чтобы обозначить системы, в которых выполняется преобразование информации документальной (ИДП). ИДП - процесс аналитико- синтетического изучения документов20 (текстов) и подготовки вторичной информации, отражающей наиболее существенные элементы содержания этих документов. Наиболее распространённые формы представления результатов ИДП - библиографическое описание, аннотация, реферат, конспект, обзор и т. п. Преобразование может осуществляться в виде индексирования21, извлечения из документов необходимых фактографических данных, свёртывания объёма текста при относительном сохранении объёма смысловой информации, представления данных в наиболее рациональной для хранения и восприятия форме и т. д. В общем смысле ИДП включает также перевод текстов с одного языка на другой /1/. Кроме того, к документальным системам мы будем относить документные системы. Документная система или система управления документа20 Документ (document, records): Зафиксированная на материальном носителе идентифицируемая информация, созданная, полученная и сохраняемая организацией или частным лицом в качестве доказательства при подтверждении правовых обязательств или деловой деятельности 21 Индексирование (indexing): Процесс проставления условных обозначений и составления указате- лей, служащих для упрощения доступа к документам и (или) информации /50/ 89 ми (records system) - информационная система, обеспечивающая сбор документов (включение документов в систему), управление документами и доступ к ним в течение времени /50/. Большинство систем управления документами используют ИДП. Документальные системы ведут свое происхождение от библиотечнореферативных служб или информационных центров, выпускающих реферативную информацию (обзоры, экспресс-информацию, реферативные журналы). В СССР в начале 50-х г. была создана система НТИ22, которая представляет совокупность организаций, осуществляющих обработку первичных и создание потоков вторичных документов. В РФ Государственная система научно-технической информации (ГСНТИ) — это средство создания и эффективного использования государственных ресурсов научно-технической информации. ГСНТИ осуществляет сбор, хранение и обработку отечественных и зарубежных источников НТИ; ведение информационных фондов, баз и банков данных; организацию информационного обслуживания на их основе. В ГСНТИ входят федеральные, отраслевые, региональные органы НТИ и научно-технические библиотеки. Так, например, ВИНИТИ (Всесоюзном институте научно-технической информации) - осуществляет координацию СНТИ РФ, выпуск РЖ 23, экспресс-информации, обзоров «Итоги науки и техники». С 1979 г. РЖ выпускается в виде машиночитаемых баз данных. Годовой комплект РЖ ВИНИТИ «Техническая кибернетика» состоит из 12 выпусков Собственно РЖ и двух указателей. Каждый выпуск содержит более 500 статей, описывающих либо первоисточники, либо их фрагменты (журнальные статьи и др.). В статье указаны автор, заглавие, библиографические данные (год, том, номер, классификационный индекс, место издания и др.), реферат. Запись имеет уникальный внутренний номер, идентифициру22 Научно-техническая информация; НТИ: Информация, получаемая и (или) используемая в области науки и (или) техники /4/ 23 РЖ – реферативный журнал 90 ющий внутренний данный документ (реферат) в авторском и предметном указателях. Обработку такого большого информационного массива необходимо было формализовать и автоматизировать. Система стандартов по информации, библиотечному и издательскому делу (СИБИД) призвана была регламентировать ИДП в информационно- библиотечных системах. Первыми документальными системами , созданными в ВИНИТИ, были системы информационного поиска. К этому времени уже существовала первая компьютерная информационно-поисковая система SMART, созданная профессором Корнеллского университета Джерарданом Солтоном. В данной системе впервые применялась плоская векторная модель, и поныне широко используемая в поисковых машинах, наряду с алгоритмами релевантной обратной связи. Несколько позднее появились поисковые системы, призванные автоматизировать поиск информации по FTP и Gopher протоколу. В 1989 году Алан Эмтадж написал программу Archie, впоследствии признанную первой поисковой машиной. Одним из самых первых инструментов для поиска в Интернете стала программа «Скиталец» (World Wide Web Wanderer), разработанная Мэтью Греем. Он первый выдвинул идею об Internet-роботах, которые сканировали сеть www. В последующие годы появилось большое число поисковых систем, из которых наиболее яркой в настоящее время является система Google. 45% запросов в Интернете обрабатываются этой поисковой системой. В России были созданы свои поисковые системы. Компанией «Стек» (Пущино) была создана собственная поисковая система, которую назвали Rambler — «скиталец». Осенью 1996 года был готов окончательный вариант, 26 сентября был зарегистрирован домен rambler.ru. 23 сентября 1997 года заработал Yandex, выросший из компаний Comptek и «Аркадия»; вскоре в нем были реализованы запросы на естественном языке. Параллельно с разработкой поисковых машин начались попытки создать каталоги ресурсов. В 1994 году открылся EINet Galaxy. В апреле того 91 же года Дэвид Фило и Джерри Янг создали каталог Yahoo! Directory, который в последствии был трансформирован в одноименную поисковую машину. Создание каталогов, в отличие от индексации страниц интернета в поисковых системах, осуществляется обычно не в автоматическом режиме, а в автоматизированном. Yahoo! до сих пор содержит штат, состоящий примерно из 150 модераторов. Поисковые системы являются основным модулем информационнобиблиотечных систем. Многие документные системы содержат модули полнотекстовой индексации и поиска информации. Наряду с решением задач поиска и классификации информации, в документальных системах решались лингвистические задачи. Эти задачи приходилось решать и разработчикам поисковых систем. Тогда же появились самостоятельные документальные информационные системы, которые решали вопросы автоматического перевода, реферирования текста, проверки орфографии и т.д. Документальные системы получили широкое развитие в библиотечнопоисковых системах и системах документооборота. 3.1.3 Информационно-поисковые системы Информационно-поисковая система (Information retrieval system), ИПС - совокупность справочно-информационного фонда и технических средств информационного поиска в нем /54/. Информационный поиск осуществляется с целью распространения информации24, Распространенная информации является составной частью справочно-информационного обслуживания (СИО). Необходимо отметить, что ИПС может не использовать компьютерные технологии, но нас эти системы интересовать не будут. В силу этого термины «Автоматизированная ИПС» и «ИПС» будем считать синонимами. 24 Распространение информации: процесс предоставления информации, имеющейся в информаци- онно-поисковых системах, потребителям информации /54/. 92 Основная терминология, используемая в ИПС, регламентирована СИБИД (Система стандартов по информации, библиотечному и издательскому делу). На основе СИБИД можно выделить группы поисковых систем, представленных на рисунке 3.10. На рисунке 3.11 приведена схема функционирования ИПС. ИПС Совокупность справочноинформационного фонда и технических средств информационного поиска в нем Документальные ИПС Фактографические ИПС Документальнофактографические ИПС ИПС, предназначенные для поиска документов и / или сведений о них ИПС, предназначенные для поиска фактов Интегрированные документальные и фактографические ИПС Библиографические ИПС Документальные ИПС, обеспечивающая поиск библиографической информации Рисунок 3.10 – Классификация информационно- поисковой системы. 93 Документы Документы Документы Индексирование документов Информационно-поисковый масив N документа ПОД/ ПОФ Обработка документов Поисковое хранилище Словарь и грамматика ИПЯ Поиск Коэффициенты эффективности поиска Поиск Документы Документы Поток запросов Индексирование запроса ПОЗ/ПП Список документов отвечающих критериям эффективности Обработка запросов Выбор документов Документы Документы Выбранные документы Доставка контента Рисунок 3.11 – Схема функционирования ИПС. ИПЯ - информационно-поисковый язык 25; ПОД/ПОД - поисковый образ документа/факта26; ПОЗ поисковый образ запроса27; ПП - поисковое предписание28. 25 Информационно-поисковый язык - формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска /55/. 26 Поисковый образ документа/факта - поисковый образ, выражающий основное смысловое содер- жание документа или конкретное сведение. Поисковый образ - текст, состоящий из лексических единиц информационно-поискового языка, выражающий содержание документа или информационного запроса и предназначенный для реализации информационного поиска /55/. 27 Поисковый образ запроса - поисковый образ, выражающий смысловое содержание информацион- ного запроса /55/. 28 Поисковое предписание - текст, включающий поисковый образ запроса и указания о логических операциях, подлежащих выполнению в процессе информационного поиска /55/. 94 Основной операцией выполняемой поисковой системой является индексирование, под которым понимается выражение содержания документа и/или смысла информационного запроса на информационно-поисковом языке. Выделяют следующие виды индексирования: классификационное (систематизация), предметное, сводное и фактографическое индексирование. Индексирование должно проводиться на основе непосредственного анализа документа с учетом характера информационно-поискового массива, элементом которого становится ПОД, с учетом характера информационных потребностей пользователей данной информационно-поисковой системы (ИПС) в соответствии с общими принципами индексирования и особенностями их применения в конкретной организации. Различают два основных принципа индексирования — классификационный и предметизационный. Классификационный принцип29 индексирования базируется из представления содержания документа в некоторой специально разработанной классификационной системе и использовании в качестве терминов индексирования классификационных индексов, в которых отношения между классами этой системы выражены в явном виде. Предметизационный принцип индексирования базируется на представлении содержания документа в понятийной системе определенного естественного языка и на использовании, в качестве, терминов индексирования лексических единиц (ЛЕ) естественного языка. К особому виду поисковых языков относят дескрипторные ИПЯ, предназначенные для координатного индексирования документов и информационных запросов посредством дескрипторов30 и/или ключевых слов. Более подробно об ИПЯ, индексировании и информационно- поисковых системах смотрите главу шестую. 29 ИПЯ может решать задачи классификации и/или рубрикации. 30 Дескриптор - лексическая единица, выраженная информативным словом (вербально) или кодом, являющаяся именем класса синонимичных или близких по смыслу ключевых слов. 95 Выше уже отмечалась условность границы между фактографическими и документальными системами31. Во-первых, полнотекстовая индексация текста может проводиться не только для документального поиска, но и поиска фактов. Именно поэтому поисковые системы разделяются на документальные, фактографические32 и документально-фактографические поисковые системы. Во-вторых, определение в СИБИД фактографического поиска полностью соответствует поиску данных, выполняемых СУБД, следовательно, фактографические поисковые системы могут относиться к фактографическим системам. Фактографические поисковые системы относят к системам выборки данных (data retrieval systems) - СВД, ярким представителем которых является СУБД. В таблице 3.2 приведен сравнительный анализ СВД и ИПС. Таблица 3.2 Сравнительный анализ СВД и ИПС Свойства СВД ИПС Соответствие данных поисковому запросу Точное Частичное Классификация документов Детерминированная Вероятностная Язык запросов Искусственный Естественный Критерии выборки документов Булева функция релевантности Вероятностная функция релевантности Устойчивость к ошибНеустойчивы Устойчивы кам в данных и запросах Основной задачей СВД является обеспечение надёжного и эффективного хранения данных, а также высокой скорости выполнения поисковых запросов пользователей. Основная задача ИПС - выбор релевантной33 поисковому запросу информации. В идеальном случае степень релевантности может 31 Мы используем эту классификацию только потому, что она широко применяется в литературе. 32 Не надо путать фактографические информационные системы, рассмотренные выше, и фактогра- фические поисковые системы, которые относятся к документальным системам. 33 Релевантность - соответствие полученной информации информационному запросу. 96 определяться как смысловая близость к поисковому запросу. В этом случае поисковые запросы в ИПС должны быть основаны на естественном языке, т.е. на языке, в котором сформулирована исходная информация. Вместе с тем, ИПС и ВД не могут быть строго разделены, т. к. и в тех, и других системах используются общие концепции и алгоритмы. Так, например, в ИПС выборка данных чаще всего производится по ключевому слову (сравните с СУБД). В фактографическом поиске пользователь может искать не просто информацию на тему, а конкретный ответ на вопрос, например: «Когда построена пирамида Хеопса?» Обеспечение такой функциональности поисковой системой подразумевает обработку вопроса на естественном языке, его переформулировку в стандартные запросы для данной системы, нахождение документа, содержащего нужный фрагмент и извлечение ответа. В этом случае фактографическая поисковая система относится к документальным системам. К отличительным особенностям поисковых систем можно отнести структуру или, лучше сказать, отсутствие структуры в информации, с которой они работают. Под структурой тут понимается реляционная или концептуальная (семантическая) структура. Примером такой информации может быть текст, аудио, видео, изображения и т.д. Данная информация имеет смысловое содержание, может иметь парадигматическую ценность для потребителя, но не может быть автоматически преобразована в реляционную базу данных, к которой можно сделать запрос. Отсутствие этой структуры и отличает алгоритмы работы поисковых систем. Из этого многообразия выделены тексты по двум причинам. Во-первых, объем этой информации намного больше, поэтому актуальность поиска в документах несравненна выше. Вовторых, алгоритмы поиска мультимедийной информации основываются на текстовых поисковых системах (сначала мультимедийная информация преобразуется в текст). 97 Классическая задача информационного поиска, с которой и началось развитие этой области, - это поиск документов, содержащих информацию, релевантную запросу в рамках некоторой статической (на момент выполнения поиска) коллекции документов. Будем считать, что релевантная запросу информация - это информация, которая нужна пользователю 34. Для того, чтобы сравнивать эффективность различных методов решения задач информационного поиска необходимо определить, какие критерии будут использованы для оценки эффективности. Конечно, вычислительная производительность метода является одним из критериев оценки эффективности, однако, более важными критериями обычно являются критерии, характеризующие качество результатов поиска. На рисунке 3.12 схематично показан результат поиска. А R S А - множество всех документов, на котором ведется поиск, R - множество релевантных запросу документов, S - множество документов, выбранных поисковой системой. Рисунок 3.12 – Схематическое отображение результатов поиска. В терминах теории множеств точность (precision) - доля истинно релевантных документов в общем числе найденных, и полнота (recall) - доля обнаруженных истинно релевантных документов определяется по формулам: Precision = 34 R ∩S R ∩S . ; Recall = S R Обратите внимания, что пока мы ничего не говорим о смысловом соответствии. 98 Можно также рассматривать долю нерелевантной информации: Junk = S \ (R ∩ S) S В идеале хотелось бы получить точность и полноту равными единице. На практике чем выше точность, тем меньше полнота и наоборот. Принцип, по которому строится релевантность, определяет модель поисковой системы. Выделяют три основные модели, различные расширения которых осуществлены в сегодняшних поисковых системах /56-58/: Булева (логическая). В булевой модели документы и запрос рассматриваются как логические множества. Если документ пересекается с запросом, то он ему релевантен. Таким образом, в классическом представлении булевой модели релевантность - это как раз бинарная классификация, что влечет за собой много неудобств. Например, неправильное употребление терма (слова) в запросе или же опечатка в тексте может классифицировать релевантный документ как нерелевантный. Поэтому дальнейшие расшире- ния/модификации модели были направлены на преодоление данной проблемы. Например, учет весов (значимости) слов в тексте документов и запроса сделал возможным ранжирование результатов булева поиска. Реализация булевой модели - самая простая и эффективная, что сделало популярным ее применение в web. Векторная (алгебраическая). В рамках векторной модели поиска документы и запрос преобразуются в вектора, где компоненты вектора - это веса слов. Наиболее популярной схемой взвешивания слов является произведение: wik=tfik × idfk, где idf k = количество документов, в которых встречается k − терм - это мера количество документов того, насколько часто данное слово встречается во всей коллекции документов, 99 tf ik = частота встречи в i − документе k − терма частота встречи в i − документе всех термов - мера того, насколько часто данное слово встречается в данном документе. Возможно использование бинарной схемы взвешивания: «1» - слово присутствует в документе, «0» - отсутствует. Близость вектора запроса и документа (например, их корреляция) и определяет ранг документа в списке результатов поиска. Векторная модель получила большое распространение, как среди классических поисковых систем, так и среди поисковых систем в web. Вероятностная. В вероятностной модели поиска вероятность того, что данный документ релевантен данному запросу, основывается на предположении, что термы 35 запроса по-разному распределены среди релевантных и нерелевантных документов. Используемая формула вероятности, как правило, исходит из теоремы Байеса: P (R | d ) = P(d | R ) ⋅ P(R ) P(d ) где: P(R) – вероятность того, что случайно выбранный из коллекции документ D является релевантным; P(d|R) – вероятность случайного выбора документа d из множества релевантных документов; P(d) – вероятность случайного выбора документа d из коллекции А. Из перечисленных выше моделей реализуются основные функции поисковой системы: нормализация документа, индексирование, поиск. Нормализация и индексирование на рисунке 3.11 объединены в процессе индексирования. Нормализация документа выполняется с соблюдением грамматики ИПЯ. Процесс нормализации может включать в себя: • транслирование (перевод текстовых документов в определенную кодировку, графических - в определенный формат файла), 35 Под «Термом» могут пониматься ключевые слова или же n-граммы (последовательность n симво- лов), или же ключевые слова с отброшенными суффиксами. 100 • зонирование (разбиение документа на логические части, используемые в данной системе, например, название документа, аннотация к нему). • дополнительные операции, необходимые для преобразования документа в удобную для поиска структуру: o выделение лексических единиц или токенов (семантически значимых слов), o нормализация самих лексических единиц (отбрасывание окончаний и т.п.). При нормализации могут применяться различные лингвистические методы: • автоматическое определение языка документа; • токенизация (графематический анализ): выделение слов, границ предложений; • исключение неинформативных слов (стоп-слов); • лемматизация (нормализация, стемминг): приведение словоизменительных форм к «словарной». В том числе и для слов, не входящих в словарь системы; • разделение сложных слов (компаундов) для некоторых языков (например, немецкого); • амбигуация: полное или частичное снятие -нимии (омонимия, синонимия). Между статистическим методом и лингвистическим точные границы провести трудно. Условно можно считать лингвистическими методы, опирающиеся на словари (морфологические, синтаксические, семантические), созданные человеком. Также как и в СУБД, для достижения приемлемой эффективности поиск производится не напрямую по документам в коллекции, а по информации о них в избыточной индексной структуре. Существует несколько способов индексирования текстов: инвертированный файл, файл сигнатур и т.п. 101 Поисковый модуль отвечает за получение и выполнение запросов пользователей. Ранжирование результатов поиска, как правило, основывается на степени релевантности документа запросу. Однако, возможно использование других критериев (таких, как новизна документа). Более того, при поиске в интернете, ранжирование по релевантности показало свою неэффективность, что потребовало разработку иных подходов к задаче ранжирования (см. поиск в интернете). Поиск в интернете Сегодня, более 75% пользователей Интернет используют поисковые системы для доступа к информации /56/. Специфика Интернета обусловила необходимость модификации классических методов поиска. Необходимо принимать во внимание, что поиск в Интернете - это поиск информации на серверах различного типа: http, ftp, gopher. Кроме поиска во Всемирной паутине (WWW) остается актуальным поиск на FTP- серверах. В дальнейшем обсуждается поиск в www. Специфика web-поисковых систем обусловлена некоторыми факторами: особенностью данными, представленными в интернете; особенностью поведения пользователей интернета; целенаправленное создание алгоритмов обмана поисковых систем. Методы поиска, используемые в классических ПС, разрабатывались и тестировались на относительно небольших и однородных коллекциях документов. Можно выделить следующие особенности Web-информации /56/. • Размер. Размер всемирной паутины оценивается в несколько тысяч террабайт. • Динамика развития. Ежемесячно изменяется около 40% информации. Объем всей информации растет по экспоненциальному закону (объем информации за последние два года удвоился). • Неструктурированность и избыточность. Гипертекстовая структура страниц создается часто без концептуальной модели. Около 102 30% информации в Веб являются точными или приблизительными копиями других документов. • Неконтролируемое качество. В интернете содержится масса ложной информации, непроверенные данные, орфографические ошибки (запрос в google «инфармация» дает примерно тысячу!! ссылок). • Экспертные оценки web- информации. Экспертные оценки могут быть как явными (публикация на том, или ином сайте), так и не явными (подобие индекса цитируемости). Важным источником экспертных оценок в Веб являются гипертекстовые ссылки. • Тематическая локальность. Эмпирически доказано интуитивное предположение о том, что ссылки со страниц в Веб в основном ведут на страницы близкой тематики. К особенностям поведения пользователей поисковых систем в Веб можно отнести следующие. • «Плохие» запросы. Более 60% поисковых запросов в Веб состоят из 1-2 слов, что очень отличается от 7-9 слов в классических ПС. Большая часть пользователей не используют расширенные возможности поиска. • Разнородный контингент. В отличие от классических ИПС, пользователи Интернета обладают разными знаниями, потребностями и т.д. • Требование быстрого поиска. Более 50% пользователей не идут дальше первого экрана, а 67% не предпринимают попыток модифицировать свой первоначальный запрос. Хотя размер базы в Интернете на поверхностный взгляд не кажется критическим фактором, это не так. Недаром рост посещаемости таких машин, как Google и Fast, хорошо коррелируют именно с ростом их баз. Основная причины: «редкие» запросы, то есть те, по которым находится менее 100 документов, составляют в сумме около 30% от всей массы поисков. 103 Указанные особенности нашли отражения в архитектуре поисковых систем в Интернете (рисунок 3.13) /56/. WWW Поисковая машина Стратегия сканирования Сетевые роботы Ранжирование Индексы текстовые структурные Хранилище Модуль индексирования вспомогательные Рисунок 3.13 - Обобщенная схема поисковой системы для Веб. Ключевым архитектурным отличием от классических ПС является наличие сетевых роботов. Сетевые роботы - это программы, которые, исходя из некоторого начального множества ссылок (URL), рекурсивно сканируют Веб-страницы, извлекая из них новые ссылки. Как правило, извлеченные ссылки сначала передаются модулю стратегии сканирования, который определяет, какие из них стоит посещать и отдает соответствующие ссылки обратно сетевым роботам. Этот выбор напрямую зависит от направленности поисковой системы. Собранные роботами документы складываются в хранилище. Хранилище содержит большое количество объектов данных (Веб-страниц) и, в этом смысле, очень похоже на СУБД или файловую систему. Однако, многие возможности этих систем в этом случае совершено не нужны (например, транзакции или иерархия директорий), зато очень важны другие: масштабируемость, эффективная поддержка двух режимов доступа: случайного - для того, чтобы быстро найти конкретную страницу по ее идентификатору 104 (например, для создания копии страницы из кэша ПС), и потокового - для того, чтобы вынуть значительную часть всей коллекции (например, для индексирования или анализа), эффективная поддержка обновлений, сборка ``мусора'' (устаревших страниц). Для повышения эффективности поиска используются индексные структуры. За создание этих структур отвечает модуль индексирования. Кроме текстовых индексов, часто дополнительно строятся структурный и вспомогательный индексы. В структурном индексе описывается структура графа Веб, и эта информация может быть полезна модулю стратегии сканирования. Во вспомогательном индексе хранится любая другая нужная конкретная ПС информация, которая, как правило, используется для ранжирования результатов поиска, например, размер Веб-страниц, количество используемых графических изображений, PageRank метрика. Получение и выполнение запросов пользователей - это задача модуля поисковая машина. В основном, поиск осуществляется по индексным структурам, но может - и напрямую по документам в хранилище (пунктирная связь на рисунке). Информацию о том, какие ресурсы наиболее часто посещаемы пользователями, поисковая машина передает модулю стратегии сканирования. В силу перечисленных выше особенностей, важной задачей в контексте Веб является упорядочивание результатов поиска так, чтобы первыми оказались те результаты, которые вероятнее всего интересны для пользователя. За этот процесс отвечает модуль ранжирования. Классические подходы к ранжированию, опирающиеся на понятие релевантности, как меру схожести текста запроса и текста документа, работают плохо. Поэтому, оказалось более перспективным, использовать в дополнение к релевантности, еще и меру важности (полезности, популярности) Вебстраницы при ранжировании результатов поиска. Типичным примером такой метрики является индекс цитирования, т.е. количество ссылок на данную страницу, при этом учитывается важность ссылающихся страниц. 105 Первым, и наиболее известным, расширением индекса цитирования в Веб стала метрика , PageRank реализованная в Google (http://www.google.com). Метрика PageRank рекурсивно определяет важность страницы p на основе информации о ссылках со страниц q на нее: PageRank ( p ) = (1 − d ) + d × ∑ по всем q страницам ссылющимся на p PageRank (q ) , количество ссылок с q страницы где d -- это некоторый параметр (обычно порядка 0.85). Еще одним примером модифицированного индекса цитирования в Веб является Яндекс цитирования в поисковой системе Яндекс (http://www.yandex.ru). Другой популярной метрикой определения важности Веб-страницы является HITS (Hyperlink-Induced Topic Search). Если PageRank вычисляется один раз глобально для всех страниц в индексе, то в рамках модели HITS предполагается, что важность страницы зависит от запроса, т.к. в разных тематических сообществах - разные авторитеты. Поэтому HITS вычисляется локально для каждого запроса. Примером поисковой системы, использующей HITS, является Teoma (http://www.teoma.com). На рисунке 3.14 показана архитектура наиболее популярной поисковой системы в Интернете /59/. В Google, выгрузка данных из интернета осуществляется несколькими «пауками». Есть URLserver, который направляет списки URL, которые нужно выбрать пауку. После того, как паук посетил страницу, она отправляется на сервер хранения, в котором производится сжатие и отправка страницы в репозиторий. Каждая web - страница имеет связанный ID номер, называемый docID. Он назначается каждый раз, когда новый URL анализируется из web - страницы. Функция индексации выполнена модулем индексации и сортировщиком. Модуль индексации выполняет множество функций: чтение из репозитория, распаковка документов и их анализ. Каждый документ конвертируется во множество экземпляров слова, называемых хитами. Хиты регистрируют слова, положение в документе, аппрокси106 мацию размера шрифта и выделение прописных букв. Модуль индексации распределяет эти хиты на множество «цилиндров», создавая частично отсортированный прямой индекс. Модуль индексации выполняет еще другую важную функцию анализа всех внешних связей с web - страниц. Информация об этих связях сохраняется в файле анкеров (анкер - элемент HTML, связывающий веб-документы). Этот файл содержит достаточно информации, чтобы определить текст связи и какая web - страница с какой связана. Пауки Сервер хранилища URL Серверы Репозиторий Анкера Модуль индексирования URLresolver Словарь Цилиндры Связи Doc Index Сортировщик PageRank Поиск Рисунок 3.14 – Архитектура ИПС Google. URLresolver читает файл анкеров и конвертирует относительный URL адрес в абсолютный URL связывает его с docIDs. При этом текст анкера помещается в прямой индекс, связанный с docID, на который анкер указывает. При этом генерируется база данных связей, состоящая из пар docIDs. База данных связей используется при вычислении PageRanks для всех документов. 107 Сортировщик выбирает цилиндры, сортирует, обращает их, и генерирует инвертированный индекс, в котором отсортированные wordID указывают на docID. Инвертированный индекс дает возможность ускорить процесс поиска web страниц по ключевому слову. Сортировщик также генерирует список wordIDs и смещение в инвертированном индексе. Программа DumpLexicon берет этот список вместе со словарем, созданный модулем индексации и генерирует новый словарь, который будет использоваться при поиске. Поиск выполняется web сервером, используя словарь, сгенерированный DumpLexicon совместно с инвертируемым индексом и PageRanks. Системы электронного документооборота (СЭД) Системы электронного документооборота – CЭД, русскаоязычный термин, иногда его употребляют как синоним системы управления документом. В англоязычной литературе существует довольно большое количество терминов, которые используются как синонимы СЭД. В конце 80-х и начале 90-х годов получили широкое развитие Системы управления электронными документами (EDMS — Electronic Document Management Systems). В последствие их чаще называют Системами управления документами ( DMS (Document Management Systems). EDMS развивались как автономные системы, в одном из четырех направлений /15/: отображения документов (Document imaging), поддержка рабочих процессов или делопроизводства (Workflow), управление документов (document management) и управление электронными архивами (Electronic Records Management). Каждое из этих направлений решало ту или иную узкую задачу. Так, например, отображения документов (или управление изображениями документов- Document Imaging Management) решало проблемы сканирования бумажных документов и/или микрофильмов и хранение этих изображений. Assocation for Information and Imaging Management (AIIM) разработала новые технологии описания и хранения изображений. Многие требования порождались на уровне подразделений. Развитие методов отображе108 ния документов определялось обработкой бланков, рабочих процессов - обработкой претензий по гарантиям, управление документов - инжинирингом документов, управление электронными архивами – распространением и хранением ежемесячных финансовых отчетов. Внедрения первых автономных EDMS технологий показало основные достоинства: • снижение обращений бумаги и ошибок ручной обработки; • сокращение бумажных хранилищ; • уменьшение потерь документов; • быстрый доступ к информации, • диалоговый доступ к информации, которая прежде была доступна только на бумаге, микрофильмах или микрофишах • улучшенный контроль над документами и процессами, ориентируемых на документы, • уменьшение ручного рутинного труда, • обеспечение безопасность доступа к документам и их модификации, • обеспечение надежного и точного аудиторского анализа, • совершенствование технологии мониторинга и контроля, позволяющей определить узкие места и изменить систему, с целью повышения ее эффективности. В конце 90-х г. и рынок и поставщики программного обеспечения начали понимать стратегический потенциал ПО, который объединил независимые технологии EDMS и web - технологии в интегрированное решение. Начиная с 2001г., промышленность начала использовать термин Управление контентом предприятия (enterprise content management - ECM), обозначая интегрированное решение, объединяющее EDMS технологий. Использование термина «enterprise» говорит о том, что данное решение охватывает процессы всего предприятия (ECM). Одними из первых решений (2005-2006 г.) на рынке были продукты Microsoft (семейство продуктов SharePoint) и Oracle Corporation (Oracle Content Management). Требование масштабируемости 109 средств просмотра и поддержки для сотен миллионов документов обеспечивается файловыми хранилищами (размером Тбайт, Пбайт, Ебайт), которые соответствуют стандартами типа HIPAA, SAS 70, BS7799 и ISO/IEC 27001. Управления контентом может иметь множество аспектов: управление контентом предприятия, управление web-контентом или контент- менеджмент (Web content management –WCM, очень часто управление контеном ассоциируется именно с этим аспектом), синдикация контента (публикация контента в нескольких web-узлах), управление цифровыми и медиа ресурсами. ECM можно рассматривать как некоторый обобщенный термин различных технологий, существующий параллельно с технологиями связанных документов (DRT - Document Related Technologies) или управление жизненным циклом документов (DLM- Document Lifecycle Management). Различие в ECM и WCM весьма условно. Обе технологии строятся на разворачиваемом интернет - портале. Управление web-контентом решает задачи, связанные с представлением контента через web-портал в Интернете. В то время изначально ECM использовала web-портал для представления информации в интранете. В его статье /61, 15/ определено три ключевых отличия ECM и WCM. ECM - интегральный middleware 36 . ECM предполагает инфраструк- туру, основанную на web-технологиях, и активно использует архитектурные решения EAI 37 и SOA 38. ECM - независимые сервисы. ECM используется, чтобы управлять информацией, не связывая ее с источником или требуемым представлением. 36 middleware -межплатформенное ПО (ПО промежуточного слоя), работающее поверх операцион- ной системы и обеспечивающее за счёт унифицированной поддержки функций прозрачную работу приложений в неоднородной сетевой среде. Предоставляет услуги (API - application programming interface, программный интерфейс приложения) по объединению частей приложения, распределенных по разным машинам сети /62/ 37 Enterprise Application Integration - интеграция приложений предприятия, объединение в одну си- стему «старых» и вновь создаваемых прикладных систем предприятия /62/. 38 Service-oriented architecture: сервис-ориентированная архитектура, современное направление раз- работки инструментальных средств ПО /62/. 110 Например, когда мы представляем электронный документ в виде бумажной копии или в виде pdf-файла, то в системе документооборота регистрируются различные документы: электронный документ системы, бумажный документ и внешний документ- pdf-файл. По сути, это один и тот же документ только в трех различных формах, но система документооборота представляет его как три различных документа. В EMC системе информация отделена от формы представления, поэтому в EMC это один документ в трех формах представления 39. Функциональные возможности EMC обеспечиваются в виде сервисов, которые можно использовать из всех видов приложений. Преимущество концепции сервисов состоит в том, что для любой заданной функциональной возможности является доступным только один общий сервис, что устраняет избыточные, дорогостоящие и трудно поддерживаемые параллельные функции. ECM- однородный репозиторий для всех типов информации. ECM используется как контент-хранилище (хранилище данных и хранилище документов), которое объединяет информацию компании в репозитории с однородной структурой. Поэтому, интеграция контента и Управление жизненным циклом информации (ILM - Information Lifecycle Management) играют важную роль в реализации и использовании ECM. В 2005 г. AIIM (Association for Information and Image Management) определил ECM следующим образом: Управление информационными ресурсами предприятия (Enterprise Content Management) - технологии, применяющие сбор данных (Capture), управление, хранение, долгосрочное хранение статической информации (например, микрофильмов) и доставка контента и документов, связанных с организационными процессами. В 2006 г. AIIM добавила еще один параграф к определению: 39 Интересно, что закон о цифровой подписи не определяет разницу в подтверждении данных доку- мента и подтверждении электронного документа /63/. 111 ECM комплекс инструментов и стратегий, позволяющий управлять неструктурированной информацией организации, везде, где эта информация используется /61/. Термин «Управление информационными ресурсами предприятия» относится к решениям, нацеленным на обеспечение корпоративной информации, при этом обычно используются web-технологии. Решение предусматривает предоставление intranet-услуги для служащих (B2E40), а также включает портал предприятия, в котором реализовано взаимодействие B2B 41, B2G42, G2B 43 и т.д. Данная категория включает большинство решений управления документами (DM). Например, включаются средства автоматизации коллективной работы (groupware) и технологические процессы (workflow). Управление цифровыми ресурсами (DAM) - также относится к одной из форм ECM, связанной с хранилищем электронно-цифрового контента. К сфере традиционного применения ECM можно отнести: • управление документами (Document management -DM), • совместная работа (сollaboration) или же ПО, обеспечивающее и/или автоматизирующее коллективную работу, • управление web- контентом (Web content management - WCM), может включать web - портал, • управление записями (Records management -RM), включают системы управления архивацией и формированием файлов для долгосрочных аудио-, видео-хранилищ, 40 B2E, business-to-employee - «бизнес для персонала»: взаимодействие предприятия со своим персо- налом; схема организации такого взаимодействия и совместной деятельности сотрудников с использованием информационных технологий 41 B2B, business-to-business; - «бизнес для бизнеса»: взаимодействие между предприятиями; схема организации такого взаимодействия, в т.ч. с привлечением интернет-ресурсов. 42 B2G, business-to-government: «бизнес для правительства»: взаимодействие между бизнесом и пра- вительством, схема организации такого взаимодействия. 43 G2B, government-to-business: взаимодействие правительства с бизнесом общее обозначение мето- дов электронного взаимодействия государственных структур с компаниями. 112 • технологический процесс (Workflow) / управление бизнес процессами (Business process management - BPM) Рассмотрим пять ведущих категорий, составляющих, согласно AIIM, Управление информационными ресурсами предприятия: сбор данных (Capture), управление (Manage), хранение (Store), долговременное хранение статической информации (Preserve) и доставка контента и документов (Deliver). Сбор данных можно условно разделить на ручной режим и автоматизированный режим. Ручной режим включает все формы информации, от бумажных документов до электронных документов, подготовленных в офисных приложениях, электронную почту, формы, объекты мультимедийных средств информации, оцифрованную речь, видео и микрофильм Автоматический или полуавтоматический сбор информации может использовать EDI44 или XML 45 документы бизнес приложений и ERP - систем или же данные существующих специализированных приложений. При сборе информации могут использоваться следующие технологии: оптическое распознавание символов (Optical character recognition -OCR), распознавание рукописных символов (Handprint Character Recognition - HCR), интеллектуальное распознавание символов (Intelligent Character Recognition ICR), оптическое распознавание отметок на специально подготовленных бланках (Optical Mark Recognition - OMR), штрих код (Barcode). Сбор информации может использовать следующие модули: отображение документов, обработка форм (как электронных, так и бумажных), COLD/ERM – модуль для автоматической обработки структурированных входных данных, объединение данных из различных источников, а также компонент, включающий индексирования, классификации и категоризацию. 44 Electronic Data Interchange - электронный обмен данными, набор стандартов для пересылки фи- нансовых документов по телекоммуникационным сетям. Разработан ассоциацией DISA. 45 XML (Extensible Markup Language) - расширяемый язык разметки (гипертекста), язык XML пред- ложенный W3C метаязык форматирования документов World-Wide Web, подмножество языка SGML. 113 Категория менеджмент определяется для управления, обработки и использования информации. Она объединяет базы данных для администрирования и выборки, а также системы разрешения доступа. Эти два модуля предоставляют услуги для всех компонентов управления, таких как: Управление документами, Совместная работа, Управления web-контентом, Управление записями и Технологический процесс/ Управление бизнес процессами. Объединяя различные компоненты управления, модули реализуют стандартизацию интерфейса и общий процесс обеспечения безопасности. Категория хранилище используется для временного хранения информации. Хранилище - специальный фильтр для долговременного хранения статической информации (Preserve). Компонент «хранилище» можно разделить на три категории: репозиторий, как место хранения; библиотека сервисов, как компонент администрирования репозитория; технологии хранения. Долговременное хранение статической информации (Preserve) компоненты ECM идентифицирует долгосрочное и безопасное хранение и резервирование статической, неизменяемой информации. Иногда этот компонент называют «электронным архивом». Решающий фактор для всех долгосрочных систем хранения - своевременное планирование и правильное выполнение работ по перемещению, содержание доступной информации в актуальном состоянии. Компоненты Доставки ECM используются для того, чтобы представить информацию от компонентов Управление, Хранения и Долговременного хранения. Функциональные возможности категории доставки известны также как «выход», поэтому для компонент Доставки может использоваться термин Управление выходом. Компоненты включают аудиовизуальную среду и три группы функций: технологий преобразования, технологий безопасности, распространение. Функции преобразования и безопасность, поскольку эти услуги принадлежат ПО промежуточного слоя, должны быть доступны всем ECM компонентам. 114 Учитывая, что ECM включает управление всем контентом предприятия, очень часто к управлению информационными ресурсами предприятия относят и Управления знаниями (Knowledge Management - KM). Управление знаниями включает комплекс методов, применяемых организациями, для идентификации, создания, представления и распространения знаний при повторном использовании, понимании и изучении. Эта дисциплина существует с 1995, но только при повсеместном внедрении информационных технологий создана возможность реализовать управления знаниями как единый процесс, пронизывающий все предприятие. Информационные системы управления знаниями составляют многомиллиардный рынок программных продуктов. Выше были рассмотрены различные технологии и системы документооборота, получившие широкое распространение в мире. Многообразие аббревиатур определяется многообразием концепций, технологий и историей создания тех или иных систем. Большая часть систем трудно вписать в русскоязычный термин СЭД. Принятый ГОСТ Р ИСО15489-1— 2007 определил понятие документных систем 46, а также регламент их разработки и внедрения. Данный стандарт регулирует процессы управления документами государственных или коммерческих организаций, предназначаемыми для внутреннего или внешнего пользования. Следовательно, регламент работы с документами, описанный в нем, может использоваться и для автоматизированных систем. Документ должен отвечать потребностям деловой деятельности, к которой он относится, и использоваться в целях отчетности. Помимо содержания, документ должен иметь метаданные, отражающие операции деловой деятельности или быть постоянно связанным или объединенным с ними. В организации должна быть утверждена политика управления документами, реализующая следующие свойства документов: 46 Документная система; система управления документами (records system): Информационная си- стема, обеспечивающая сбор документов (включение документов систему), управление документами и доступ к ним в течение времени. 115 • аутентичность - документы должны быть защищены от несанкционированного дополнения, удаления, изменения, использования и сокрытия (засекречивания); • достоверность - полное и точное представление подтверждаемых операций; • целостность - любые санкционированные примечания, добавления или удаления в документе следует четко обозначать и контролировать; • пригодность для использования – документ можно локализовать, найти, воспроизвести и интерпретировать, причем при воспроизведении он должен отражать связь с деловой деятельностью или операцией, в результате которой он был создан. Жизненный цикл документов в документных системах состоит из следующих процессов: • экспертиза информации, подлежащей включению в документную систему; • назначение сроков хранения документов; • включение документов в систему; • регистрация; • классификация; o классификация деловой деятельности; o создание и ведение контрольных словарей и классификаторов; o индексирование; o кодирование документов; • хранение и обращение с документами; • управление доступом; • контроль и мониторинг; • отбор и передача документов на последующее хранение или уничтожение; 116 • документирование процессов управления документами. 3.1.3 Системы, основанные на XML – документах Выделение информационных систем, использующих XML-документы, с нашей точки зрения, оправдано по следующим причинам. • XML-документы, это не просто структурированные документы. XML-документ состоит из вложенных элементов, некоторые из которых имеют атрибуты и содержимое. • XML является упрощённым подмножеством языка SGML. • Словари, основанные на XML (например, RDF, RSS, MathML, XHTML, SVG), сами по себе формально описаны, что позволяет программно изменять и проверять документы на основе этих словарей, не зная их семантики, то есть, не зная смыслового значения элементов. На рисунке 3.15 приведена выдержка из XML-документа курса созданного в среде Lotus Workplace Collaboration Learning и сжатого в стандарте SCORM1.2, а на рисунке 3.16 приведен пример из Википедии /8/. <?xml version=«1.0»?>  <manifest identifier=«MANIFEST_6525DD156E0B45199BEC889EA9169793» xmlns=«http://www.imsglobal.org/xsd/imscp_v1p1» xmlns:adlcp=«http://www.adlnet.org/xsd/adlcp_rootv1p2» xmlns:ibmls=«http://www.ibm.com/learningspace» xmlns:imsmd=«http://www.imsglobal.org/xsd/imsmd_v1p2» xmlns:imsss=«http://www.imsglobal.org/xsd/imsss» xmlns:xsi=«http://www.w3.org/2001/XMLSchema-instance» xsi:schemaLocation=«http://www.imsglobal.org/xsd/imscp_v1p1 imscp_v1p1p3.xsd http://www.imsglobal.org/xsd/imsmd_v1p2 imsmd_v1p2p2.xsd http://www.adlnet.org/xsd/adlcp_rootv1p2 adlcp_rootv1p2.xsd http://www.ibm.com/learningspace ibmls_0p1.xsd http://www.imsglobal.org/xsd/imsss imsss_v0p8p2.xsd»> <metadata> <schema>ADL SCORM</schema> <schemaversion>1.2</schemaversion> <imsmd:lom> <imsmd:general> <ibmls:identifier>6525DD156E0B45199BEC889EA9169793</ibmls:identifier> Рисунок 3.15 – Фрагмент файла imsmanifest.xml, открытого в блокноте. 117 <?xml version=«1.0» encoding=«UTF-8»?> <recipe name=«хлеб» preptime=«5» cooktime=«180»> <title>Простой хлеб</title> <ingredient amount=«3» unit=«стакан»>Мука</ingredient> <ingredient amount=«0.25» unit=«грамм»>Дрожжи</ingredient> <ingredient amount=«1.5» unit=«стакан»>Тёплая вода</ingredient> <ingredient amount=«1» unit=«чайная ложка»>Соль</ingredient> <Instructions> <step>Смешать все ингредиенты и тщательно замесить.</step> <step>Закрыть тканью и оставить на один час в тёплом помещении.</step> <step>Замесить ещё раз, положить на противень и поставить в духовку.</step> </Instructions> </recipe> Рисунок 3.16 – Фрагмент XML- документа. Рисунок 3.15 демонстрирует описательную часть контента, выполненную в стандарте SCORM1.2, а рисунок 3.16 показывает возможности языка, используемые для структурирования контента. Для более подробного ознакомления можно обратиться к книге Д. Шеперд /64/. Достоинства XML: • XML(человеко-ориентированный) — это формат, одновременно понятный и человеку и компьютеру; • XML поддерживает Юникод; • в формате XML могут быть описаны основные структуры данных — такие, как записи, списки и деревья; • XML — это самодокументируемый формат, который описывает структуру и имена полей также как и значения полей; • XML имеет строго определённый синтаксис и требования к анализу, что позволяет ему оставаться простым, эффективным и непротиворечивым; • XML широко используется для хранения и обработки документов; • XML — формат, основанный на международных стандартах; • иерархическая структура XML подходит для описания практически любых типов документов; • XML представляет собой простой текст, свободный от лицензирования и каких-либо ограничений; 118 • XML не зависит от платформы; • XML является подмножеством SGML (используется с 1986 года). Уже накоплен большой опыт работы с языком и созданы специализированные приложения; • XML не накладывает требований на расположение символов на строке. Недостатки XML: • синтаксис XML избыточен; • размер XML документа существенно больше бинарного представления тех же данных (примерно в 10 раз); • размер XML документа существенно больше, чем документ в альтернативных текстовых форматах передачи данных, особенно в форматах данных оптимизированных для конкретного случая использования; • избыточность XML может повлиять на эффективность приложения, возрастает стоимость хранения, обработки и передачи данных; • для большого количества задач не нужна вся мощь синтаксиса XML. Можно использовать значительно более простые и производительные решения. XML- документ дает возможность построить универсальный формат обмена данными между различными приложениями. Использование XML в качестве открытого стандарта обмена данными между приложениями позволяет эффективно использовать отдельные модули различных производителей в рамках одной информационной системы, тем самым, достигая их комбинации, наиболее оптимальной как с точки зрения функциональности, так и с точки зрения финансовых вложений. Современные СУБД, такие как SQL Server, Oracle, DB2, поддерживают анализ, обработку и выгрузку XMLдокументов. Язык XML дал возможность реализовать технологию взаимодействия различных программ в разнородных средах на качественно-новом уровне аб119 стракции, используя веб - сервисы47. Уровень абстракции, на котором оперируют веб - сервисы, предполагает такие виды взаимодействия, как эмуляцию удаленного вызова процедуры (RPC), асинхронный обмен сообщениями, однонаправленную передачу сообщений, широковещание и публикацию. Для пользователя взаимодействие с веб - сервисами может проявляться в интерактивной или пакетной форме, поддерживающей асинхронную и синхронную модели связи. Такое взаимодействие может привязываться к любому типу базовой программной системы более низкого уровня (рисунок 3.17). UDDI Посредник Web-сервис WSDL WSDL Программа формирующая запрос на Webсервис SOAP Поставщик Web-сервис Рисунок 3.17 – Взаимодействие систем при использовании веб - сервисов. Треугольник Publish - Find - Bind (публикация - поиск - связывание). Стандарты веб - сервисов разрабатываются совместно такими компаниями, как IBM, Microsoft, Ariba и некоторыми другими, и обсуждаются комитетом World Wide Web Consortium (W3C). 47 Веб-служба, веб-сервис (англ. web service) — программная система, идентифицируемая строкой URI, чьи публичные интерфейсы и привязки определены и описаны языком XML. Описание этой программной системы может быть найдено другими программными системами, которые могут взаимодействовать с ней согласно этому описанию посредством сообщений, основанных на XML, и передаваемых с помощью интернет-протоколов. 120 Веб-сервисы базируются на трех основных веб-стандартах: • SOAP (Simple Object Access Protocol) - на протоколе для посылки сообщений по протоколу HTTP и другим Internet-протоколам; • WSDL (Web Services Description Language) - на языке для описания программных интерфейсов веб - сервисов; • UDDI (Universal Description, Discovery and Integration) - на стандарте для индексации веб - сервисов. Web-сервисы, как правило, представляют собой независимые элементы с абстрактным бизнес - интерфейсом, который не зависит от, лежащей в его основе, реализации; а процесс разработки подразумевает комфортабельность и удобство доступа для клиентов. С точки зрения сервера нужно иметь возможность создать любой пользовательский Web-сервис и представить WSDL (описание метаданных Web-сервиса) клиенту, который сможет соответствующим образом подключиться к нему. Для такой архитектуры необходим унифицированный и простой механизм принятия и распространения исправлений и изменений. Провайдеры сервисов публикуют свои сервисы в UDDI, где инициаторы запросов могут найти эти сервисы и установить связь с ними с помощью соответствующих механизмов. Веб-сервисы стали основой реализации сервис-ориентированной архитектуры. Сервис-ориентированная архитектура 48 (Service-Oriented Architecture или SOA) - это компонентная модель, которая связывает различные функциональные модули приложений, называемые сервисами (или службами), посредством четко определенных интерфейсов и соглашений между этими сервисами. Интерфейсы не зависят от аппаратной платформы, операционной системы или языка программирования, на котором реализован сервис. Такой подход позволяет создавать сервисы на различных системах, которые взаимодействуют друг с другом единообразным и стандартным образом. 48 http://ru.wikipedia.org/wiki/ 121 SOA – это архитектура, которая позволяет компаниям раздробить монолитные приложения на меньшие компоненты или сервисы, которые могут быть использованы для обеспечения или изменения функциональности. Преимущество в том, что, написав меньшую программу и собрав сервисы вместе, используя потоки документов, основанных на бизнес-процессах, можно получить новую функциональность быстрее, увеличить производительность разработки и сделать приложения более гибкими в реакции на изменения бизнеса. Определение интерфейсов, не связанных с конкретной реализацией, определяет, так называемую, слабую связь (loose coupling) между сервисами. Достоинством слабосвязных систем является быстрота адаптации бизнесприложений в соответствии с изменением требований бизнес - окружения (изменение политик, объем бизнеса, партнерство, репутация в индустрии и т.д.), а также возможность выдерживать эволюционные изменения в структуре и реализации каждого отдельно взятого сервиса, которые составляют приложение в целом. Одним из достоинств языка XML является удивительная «бизнесгибкость» XML, появляющаяся в том, что XML постоянно находит новое практическое применение. Ниже перечислены некоторые из приложений XML языка. Стандарт SDMX. Стандарт SDMX определяет форматы для обмена агрегированных статистических данных и метаданных, необходимых для понимания того, как эти данные структурированы. Основное внимание обращается на данные, представленные в виде временных рядов, но также поддерживаются и, так называемые, перекрестные XML-форматы. Языка разметки для прогнозного моделирования (predictive modeling mark-up language, сокр. PMML). PMML - это XML-диалект, который используется для описания статистических моделей и моделей data mining. Его главное преимущество заключается в том, что PMML-совместимые приложения позволяют легко обмениваться моделями данных с другими PMML- 122 инструментами. Разработка и внедрение PMML осуществляется ITконсорциумом Data Mining Group. Язык моделирования бизнес-процессов (Business Process Modeling Language, сокр. BPML) и спецификация для графического представления моделирования бизнес-процессов (Business Process Modeling Notation, сокр. BPMN), стандарты на основе XML языка для поддержки и развития систем BPM (Business Process Management - управление бизнес-процессами) /65/. RSS (Really Simple Syndication (RSS 2.x) — очень простое приобретение информации) — семейство XML-форматов, предназначенных для описания лент новостей, анонсов статей, изменений в блоках и т. п. Информация из различных источников, представленная в формате RSS, может быть собрана, обработана и представлена пользователю в удобном для него виде специальными программами - агрегаторами. RSS это формат, предназначенный для публикации новостей на новостных и подобных им сайтах, начиная от таких ведущих новостных сайтов, как Wired, Slashdot, и кончая личными сетевыми дневниками (weblog-ами). RDF (Resource Description Framework) — это разработанная консорциумом W3C модель для описания ресурсов, в особенности —метаданных о ресурсах. RDF предназначен для представления знаний в распределённом мире. Стандарты, основанные на RDF, описывают логические выводы, связывающие факты, и указывают, каким образом находятся сами факты в огромной базе данных всех знаний, представленных в RDF. RDF подходит для работы с распределёнными знаниями потому, что приложения могут собирать воедино RDF-файлы, размещённые в Интернете различными пользователями, и легко узнавать из собранного документа даже те новые вещи, которых не было ни в одной из его частей. В RDF это осуществляется благодаря двум предусмотренным процессам: • объединяются документы, использующие общие языки, • допускается использование любого языка в каждом документе. 123 Стандарт SCORM (Sharable Content Object Reference Model) разработан для систем дистанционного обучения. Он содержит требования к организации учебного материала и всей системе дистанционного обучения. SCORM позволяет обеспечить совместимость компонентов и возможность их многократного использования: учебный материал представлен отдельными небольшими блоками, которые могут включаться в разные учебные курсы и использоваться системой дистанционного обучения независимо от того, кем, где и с помощью каких средств были созданы. 3.2 Классификация систем по типу процесса автоматизации Наиболее естественный способ классификации информационных систем основан на определение того бизнес - процесса, который автоматизируется в данной информационной системе. Разобранные выше системы документооборота или поисковые системы называются по типу процесса, который они предназначены автоматизировать. Требуется снова обратить внимание на различие программных и информационных систем. Допустим, существует программный комплекс «Бухгалтерский учет». Данный программный комплекс реализован с целью автоматизации функций, выполняемых бухгалтером, по обработке данных первичных бухгалтерских документов и составлению налоговых и бухгалтерских отчетов (назовем его «Бух»). Сам по себе «Бух» ничего не может сделать, ведь это программа, которая позволяет внести данные, их обработать и сформировать выходные отчеты. Для того, чтобы данный программный комплекс работал в бизнес - процессе «Бухгалтерский учет» необходимо выполнить целый ряд организационно - технических мероприятий. По крайне мере, некоторый бухгалтер должен внести данные первичных бухгалтерских документов в комплекс «Бух», выполнить проверку и в конце отчетного периода сгенерировать отчеты. После того как комплекс «Бух» был внедрен на данном предприятии, а под этим мы будем понимать то, что генерация отчетов производится данным комплексом, можно говорить о существовании инфор124 мационной системы бухгалтерского учета на данном предприятии. Информационная система включает: • людей, работающих с комплексом «Бух», в соответствии с порядком выполнения бизнес - процесса (бухгалтеры, формирующие первичные данные; бухгалтер, который генерирует с помощью «Бух» отчеты; проверяющий и, может быть, формирующий требования на изменение первичных данных, главный бухгалтер, использующий «Бух» для контроля выполнения данного бизнес процесса, и т.д.); • техническую систему, на которой развернута работа с «Бух» (пользовательские компьютеры, серверы, сетевые устройства и т.д.); • данные, хранимые в различных хранилищах «Бух» (В информационную систему могут быть включены и данные, хранимые в бумажных документах, более того, в соответствие с Российским налоговым законодательством, требующие обязательное представление первичных бухгалтерских документов на твердом носителе, т.е. в бумажном виде, будет правильно включать в информационную систему архивы бумажных документов); • программный комплекс «Бух», установленный и настроенный для данной организации; • документация, специфицирующая информационную систему, включая спецификацию «Бух», должностные инструкции лиц, работающих в данной информационной системе и т.д. Более подробно о составе информационной системе смотрите в следующей главе. Обратите внимание, что состав информационной системы почти полностью определен спецификой выполнения данного бизнес - процесса на конкретном предприятии. Даже программный комплекс «Бух» может быть видоизменен для конкретного предприятия (например, определенным образом сконфигурирован). Следовательно, количество информационных систем, использующих данный программный комплекс, будет пропорционально ко125 личеству предприятий, на которых используется «Бух» (в пределе равно количеству предприятий). Поэтому, при описании информационных систем основное внимание уделяют программно-техническому комплексу или правильнее сказать, функциональной части информационных систем. Именно так будет построено описание информационных систем. В данном параграфе используется классификация по типу бизнес процессов, предложенная компанией «Институт типовых решений - Производство» /63/. Как следует из выше приведенного описания, будут рассмотрены программные комплексы, на основе которых строятся информационные системы. В учебном пособии не ставится задача дать исчерпывающий обзор различных информационных систем. По типу бизнес – процессов, информационные системы, участвующие в автоматизации управления, можно разделить на следующие группы: • ИС стратегического маркетинга и управления предприятием; • финансовые ИС; • ИС управления производством; • ИС управления запасами и сбытом; • ИС поддержки жизненного цикла продукции. Внутри каждой группы информационные системы подразделяются, как правило, в зависимости от реализованной концепции или алгоритма. Многие информационные системы реализуют концепции, закрепленные в стандартах (ISO, APICS и др.), или же реализуют алгоритмы, широко используемые в бизнес - процессах, или выделены аналитическими и консалтинговыми агентствами (Gartner, IDC и др.). Используемая классификация не лишена недостатков. Во-первых, многие информационные системы входят в состав информационной системы, которая интегрирует несколько функций, при этом интегрирование может затронуть информационные системы, позиционированные в различных разделах. Например, Business intelligence (BI) включают Data mining (DM) и OLAP (online analytical processing). Во-вторых, некоторые информационные систе126 мы не имеют четко разделенных границ. Например, в литературе часто считают, что разделение информационных систем на ERP (Enterprise Resource Planning) системы и MRP II (Manufacturing Resource Planning) системы имеет явно выраженный рекламный характер. Далее будут рассмотрены только часть систем, перечисленных выше. Более полное описание многообразия систем приводится в /64, 71/. 3.2.1 ИС стратегического маркетинга и управления предприятием К данным информационным системам относятся автоматизированные системы управления предприятием (АСУП). Данные информационные системы охватывают бизнес - процессы всего предприятия. В зависимости от деятельности предприятия некоторые информационные системы могут как рассматриваться на этом уровне, так и быть исключены из него. Например, системы электронного документооборота (СЭД или EDMS) для учреждений, основной деятельностью которых является работа с документами. Такая система может рассматриваться на уровне управления предприятием, в то время, как для производственных предприятий система документооборота может рассматриваться на уровне оперативного учета. К данным системам могут быть отнесены системы электронного документооборота (рассмотрены выше), Business Intelligence (рассмотрены выше), планирование ресурсов производителя (MRPII- Manufacturing Resource Planning), планирование ресурсов предприятия (ERP - Enterprise Resource Planning), системы процессноориентированного управления и системы учета затрат по видам деятельности (ABM/С – Activity-Based Management/ Activity-Based Costing). Системы процессно-ориентированного управления ABM/С Методология АВM/C концентрируется на вопросах: • Какие производственные процессы происходят в компании и как они задействованы в производстве продукции и услуг? • Какие факторы влияют на структуру и объем потребляемых бизнес - процессами ресурсов ? 127 • Какова достигнутая ресурсоемкость и прибыльность объектов затрат, и почему она такая, а не ниже или выше ? • Есть ли у производственного процесса потенциал повышения производительности (отдачи) при тех же затратах ресурсов ? • Обратная задача: есть ли у производственного процесса потенциал снижения ресурсоемкости, и если есть, то как лучше реорганизовать бизнес - процессы, чтобы уменьшить ресурсоемкость объектов затрат без потери их качества ? • Сколько и какие ресурсы нужно иметь, чтобы обеспечить плановый выпуск продукции и услуг с требуемыми экономическими характеристиками ? Базовыми элементами в АВC/М являются (рисунок 3.18) /67/: • модель ресурсов, • модель организационно-производственных процессов (бизнес процессов), • модель объектов затрат, • модель (правила) разнесения затрат ресурсов по процессам, • модель (правила) разнесения интенсивностей процессов по объектам затрат. В отличие от нормативной финансовой бухгалтерской отчетности, которая регламентирует состав аналитических показателей при учете издержек производства и себестоимости произведенной продукции, выполненных работ и услуг, в подходе ABC/M моделирование предметных областей, а также правила разнесения затрат, не регламентировано жестко. Не требуется, чтобы указанные модели и правила разнесения строго соответствовали учетной политике компании. Более того, в зависимости от целей анализа могут быть использованы разные по уровню детализации и принципам разнесения затрат модели. Например, на этапе предплановых расчетов целесообразно отойти от стандартных принципов распределения, предусмотренных учетной полити128 кой, и использовать альтернативные варианты, допускающие реинжиниринг действующих бизнес-процессов. Рисунок 3.18 – Основные компоненты процессно-ориентированного управления. MRPII – ERP системы Широкое применение получили методы управления производством и организации сбыта товара, объединенные в стандарт MRP II (Manufacturing Resourse Planning), который был разработанн в США и поддерживается американским обществом по контролю за производством и запасами - American Production and Inventory Control Society (APICS). Данный стандарт представляет широкий спектр проверенных на практике принципов, моделей и процедур управления и контроля, применение которых дает возможность повысить показатели экономической деятельности предприятия (рисунок 3.19). MRP II Standart System содержит описание 16 групп функций системы /65/: 129 Стратегия, маркетинг, разработка, диверсификация Бизнес план Бюджет, прогноз, уровень запасов, заказ клиента Главный график работ Генеральное планирование Ресурсы MRP1 Количество/ дата независимых требований на изделие План продукции Ведомость материалов, фонды, незавершенное производство, правила обработки, время выполнение Потребность в материаллах График, маршрутизация, рабочие места, мощности, эффективность Расчет объема работ Детальное планирование MRP2 Ресурсы Доступные материалы, доступные мощности производительность поставщиков Релиз заказа на производства и покупку Темпы, брак, время Мониторинг исполнения Внутренние и внешние приоритеты, цехов, календарное планирование Приоритетное управление Выполнение и управление Управление Рисунок 3.19 – Схема функционирования MRP II системы /4/ 1. Sales and Operation Planning (Планирование продаж и производства). 2. Demand Management (Управление спросом). 3. Master Production Scheduling (Составление плана производства). 4. Material Requirement Planning (Планирование материальных потребностей). 5. Bill of Materials (Спецификации продуктов). 130 6. Inventory Transaction Subsystem (Управление складом). 7. Scheduled Receipts Subsystem (Плановые поставки). 8. Shop Flow Control (Управление на уровне производственного цеха). 9. Capacity Requirement Planning (Планирование производственных мощностей). 10.Input/output control (Контроль входа/выхода). 11.Purchasing (Материально - техническое снабжение). 12.Distribution Resourse Planning (Планирование ресурсов распределения). 13.Tooling Planning and Control (Планирование и контроль производственных операций). 14.Financial Planning (Управление финансами). 15.Simulation (Моделирование). 16.Performance Measurement (Оценка результатов деятельности). Цель построения систем MRP II: интеграция всех основных процессов, реализуемых предприятием (снабжение, запасы, производство, продажа и дистрибьюция, планирование, контроль выполнения плана, затраты, финансы, основные средства и т.д.). К задачам, решаемых в информационных системах класса MRP II, можно отнести: оптимальное формирование потока материалов (сырья), полуфабрикатов (в том числе находящихся в производстве) и готовых изделий. Концепция ERP (Enterprise Resource Planning) была предложена компанией GartnerGroup в начале 90-х годов и на сегодняшний день уже доказала свою эффективность. ERP 49 - организационная стратегия интеграции производства и операций, управления трудовыми ресурсами, финансового менеджмента и управления активами, ориентированная на непрерывную балансировку и оптими- 49 http://ru.wikipedia.org/wiki/ERP 131 зацию ресурсов предприятия посредством специализированного интегрированного пакета прикладного программного обеспечения, обеспечивающего общую модель данных и процессов для всех сфер деятельности. Также как и в MRP системах операции в ERP на отдельные функциональные модули: планирование ресурсов (финансовых, людских, материальных), оперативный контроль выполнения планов (снабжения, сбыта), контроль выполнения договоров, анализ результатов хозяйственной деятельности. Основные отличия ERP от MRP заключаются в следующем: • ERP -системы охватывают все процессы предприятии (MRP - только производство). • ERP включают механизмы управления компаниями, функционирующими в различных часовых поясов, в различных странах, в различных системах бухгалтерского учета и отчетности. • ERP строится как базисная платформа, на основе которой выполняется интеграция с другими приложениями. • В ERP системах большое внимание уделяется средствам ППР (поддержки принятия решений), а также средствам интеграции с хранилищами данных. • В ERP больше внимания уделяется финансовым подсистемам. • Системы ERP ориентированы на управление географически распределенным предприятием. 3.2.2 Финансовые50 ИС К финансовым информационным системам относятся все системы бухгалтерского учета. На сегодняшний день, наверное, это самые продаваемые (по числу продаж) в России информационные системы. Кроме того, к данно- 50 Финансовый учет - процесс подготовки учетной информации, которая используется внутренними и внешними пользователями. Финансовый учет основывается на общепринятых международных стандартах и принципах. Правила ведения и порядок составления бухгалтерской (финансовой) отчетности регламентируются государством /4/. 132 му виду систем относятся информационные системы бюджетирования и системы финансово-экономического анализа предприятий. ИС Бухгалтерского учета Бухгалтерский учет представляет собой упорядоченную систему сбора, регистрации и обобщения информации в денежном выражении об имуществе, обязательствах организаций и их движении путем сплошного, непрерывного и документального учета всех хозяйственных операций. Объектами бухгалтерского учета являются имущество организаций, их обязательства и хозяйственные операции, осуществляемые организациями в процессе их деятельности. Основной задачей бухгалтерского учета является формирование достоверной информации о деятельности предприятия и, в частности, формирование внутренней и внешней отчетности, в том числе и в налоговые органы, в соответствии с Налоговый кодекс Российской федерации. В состав данных информационных систем могут включаться модули расчета заработной платы, складского учета, учет работы с банками и т.д., в которых проводится первичный учет имущества организаций, начислений и отчислений на заработную плату, движения финансовых средств через банк и т.д. Современные бухгалтерские информационные системы предполагают интеграцию модулей, автоматизирующие различные аспекты бухгалтерского учета, в тоже время, допускается их автономное использование. ИС бюджетирования Бюджеты - это планы деятельности предприятия и различных его структурных единиц, выраженные в финансовых показателях. Основное назначение бюджетов - поддержка решения трех управленческих задач: • прогноз финансового состояния; • сравнительный анализ запланированных и, фактически, полученных результатов; • оценка и анализ выявленных отклонений. 133 Бюджеты только инструменты корпоративного управления. Наличие каких-то бюджетов еще не означает, что ими можно эффективно пользоваться, что они реально «работают» в контуре управления предприятием. Бюджетирование - это технология управления бизнесом на всех уровнях компании, обеспечивающая достижение ее стратегических целей с помощью бюджетов, на основе сбалансированных финансовых показателей. Информационная система бюджетирования обеспечивает данные технологии соответствующими прогнозами, формируемыми в виде управленческих отчетов. Так, например, система «Бюджетирование 2.0» компании ЗАО «КИС» (http://www.cis2000.ru/) обеспечивает среднесрочное, краткосрочное и оперативное планирования: • расчет бюджета по ограниченным ресурсам; • любой интервал и горизонт планирования; • бюджет группы предприятий; • территориально удаленная работа; • конфигуратор бизнес - модели; • редактор печатных форм; • шлюзы информационного обмена. Можно было бы привести в качестве примера реализацию бюджетирования в «1С: Предприятие 8.0», «Галактика» и т.д. В некоторых ERP системах бюджетирование реализуется с помощью систем Business Intelligence. Некоторые предприятия внедряют процессно-ориентированное управление (ABM/ ABC -Activity-Based Management/ Activity-Based Costing), а в связи с тем, что обычные методы бюджетирования плохо работают, применяется процессно-ориентированное бюджетирование (ABB -Activity-Based Budgeting). Принципиальное отличие процессно-ориентированного бюджетирования от традиционного, заключается в планировании ресурсов, исходя из перечня выполняемых работ и их объемов. Последние определяются для каждой работы отдельно. Процессно-ориентированное бюджетирование - следу134 ющий логический шаг на пути внедрения нового управленческого инструментария для компаний, которые уже адаптировали процессное управление организацией /70/. Системы финансово экономического анализа Системы финансово - экономического анализа подразделяются в зависимости от алгоритмов, применяемых в данных системах. Наиболее известные методы: функционально-стоимостный анализ (ФСА, ABC -Activity Based Costing), метод экономической добавленной стоимости (EVA - economical value added) и концепция стратегического управления издержками (SCM Strategic Cost Management). Так, например, функционально-стоимостной анализ51 позволяет выполнить следующие виды работ: • общий анализ себестоимости бизнес-процессов на предприятии (маркетинг, производство продукции и оказание услуг, сбыт, менеджмент качества, техническое и гарантийное обслуживание и др.); • функциональный анализ деятельности предприятия, обоснование выполняемых структурными подразделениями предприятий функций с целью обеспечения выпуска высокого качества продукции и оказания услуг; • определение и анализ основных и дополнительных затрат; • сравнительный анализ альтернативных вариантов снижения затрат в производстве, сбыте и управлении за счет упорядочения функций структурных подразделений предприятия. 3.2.3 ИС управление производством Выделение ИС в определенные группы осуществляется в зависимости от того, какой вид производства поддерживают информационные системы. 51 http://ru.wikipedia.org/wiki/ 135 Можно выделить, например, системы автоматизированного проектирования (САПР), системы поддержки выполнения программных проектов, системы поддержки подготовки производства, системы поддержки информационных технологий на предприятии (системы ITSM – IT service management), автоматизированные системы управления технологическим процессом (АСУТП) и т.д. В данной главе мы рассмотрим только некоторые из этих систем. Системы автоматизированного проектирования – САПР (CAD Computer-Aided Design) Системы автоматизированного проектирования (САПР) - общий термин для обозначения всех аспектов проектирования с использованием средств вычислительной техники. Обычно охватывает создание геометрических моделей изделия (твердотельных, трехмерных, составных), а также генерацию чертежей изделия и их сопровождение. Следует отметить, что отечественный термин «САПР» по отношению к промышленным системам имеет более широкое толкование, чем CAD. Он включает в себя как CAD, так и CAM, а иногда и элементы CAE (см. ниже). К наиболее известным CAD - система можно отнести AutoCAD (САПР фирмы Autodesk, реализующая решения для различных отраслей промышленности, начиная с машиностроительных проектов до геоинформационных систем - ГИС), ArchiCAD (программное обеспечение для архитектурного проектирования от компании Graphisoft). Системы автоматизированной подготовки производства (CAM Computer Aided Manufacturing) К системам автоматизированной подготовки производства (автоматизированные системы технологической подготовки производства - АСТПП) относятся программные комплексы, позволяющие автоматизировать следующие мероприятия: • обеспечение технологичности конструкции изделия; 136 • планирование и управление процессом технологической подготовки производства изделия; • разработка маршрутов изготовления изделий; • проектирование технологических процессов; • проектирование оснастки и инструмента; • разработка ЧПУ - программ; • нормирование изготовления изделия; • выпуск технологической документации; • расчет производственных мощностей. Системы автоматизированного инженерного анализа (CAE Computer-Aided Engineering) Общий термин для обозначения информационных технологий при поддержке инженерных задачах анализа, моделирования, проектирования, изготовления, планирования, диагностики и ремонта. Например, CAE используется для анализа отказоустойчивости деталей и агрегата. При этом охватываются вопросы моделирования, проверки и оптимизации изделий. В будущем, CAE - системы будут главными поставщиками информации, чтобы помощь в поддержке команде проекта в принятии решения. CAE охватывают следующие области: • анализ напряжения деталей и сборочных единиц (используется анализ с использованием метода конечных элементов); • анализ тепловых и гидродинамических потоков (вычислительная гидродинамика и тепло-, массоперенос); • кинематические расчеты; • моделирование механических элементов. 137 Компьютеризированное интегрированное производство (CIM Computer Integrated Manufacturing) CIM - использование информационных технологий для полного цикла производства предприятия, включая все филиалы и подразделения. Интегрирует в себя управление планированием, проектированием, производством, управление качеством, контроль и регулирование технологических процессов. В CIM - системе интегрируются различные программные продукты, имеющие, как правило, разную идеологию, разные операционные системы и форматы данных. Концепция CIM отличается от концепции гибких производственных систем (ГПС), рассмотренных ранее. ГПС - управляемая средствами вычислительной техники, совокупность технологического оборудования /47/. Следовательно, ГПС - автоматическое производство, в то время, как для CIM не требуется использования полной автоматизации. Тем не менее, модули, определенные в ГПС по функциональному составу, аналогичны модулям CIM. 3.2.4 ИС управления снабжением, запасами и сбытом Информационные системы, отнесенные к этой группе, классифицируются в зависимости от алгоритмов, используемых для автоматизации данных бизнес - процессов. В качестве примера можно привести: управление пополнением запасов (PDS -Pond-Draining System), статистическое управление запасами (SIC - Statistical inventory control), оптимальный размер заказа (EOQ Economic order quantity), управление цепочками поставок (SCM - Supply Chain Management), управление взаимоотношениями с клиентами (CRM Customer Relationships Management) и т.д. Управление цепочками поставок (SCM - Supply Chain Management) SCM подразумевает новую стратегию компании, которая предполагает формирование оптимальной сети сбыта, обеспечивающую доставку товара в нужное место, в нужное время, с наименьшими издержками. 138 SCM направлен на создание оптимальных каналов, которые взаимодействуют с дистрибуторами и конечными потребителями (рисунок 3.20). SCM изучает спрос и предлагает на рынок товары, которые оптимально отвечают потребностям покупателей; быстро обрабатывает заказы и запросы; планирует поставки таким образом, чтобы товар «не залеживался» или, наоборот, не возникало неудовлетворенного спроса на товар; создает долгосрочные отношения с дистрибуторами и постоянно расширяет сеть сбыта. Поставщик Предприятие Клиенты Стратегическое планирование Совместное планирование поставок Планирование цепочек поставок Планирование производства Совместное планирование спроса Диспетчеризация заданий Рисунок 3.20 - Управление цепочками поставок (Supply Chain Management). Можно выделить 7 основных принципов SCM: 1. производить сегментирование потребителей на основе потребности в сервисах; 2. ориентировать логистическую 52 сеть на клиента; 3. внимательно следить за рыночным спросом и производить планирование, опираясь на них; 4. изучать спрос потребителей; 5. стратегически планировать поставки; 6. разрабатывать стратегию цепи снабжения; 52 Логистика - теория и практика управления материальными и информационными потоками в про- цессе товародвижения /4/. 139 7. использовать методы привлечения (захвата) новых каналов распределения. Управление взаимоотношениями с клиентами (CRM - Customer Relationships Management) CRM - это стратегия компании, касательно взаимодействия с клиентами во всех организационных аспектах - рекламе, продаже, доставке и обслуживанию клиентов, дизайне и производстве новых продуктов, выставлении счетов и т.п. Это стратегия, основанная на: • наличии единого хранилища информации и системы, в которые мгновенно помещаются и из которых немедленно доступны все сведения о всех случаях взаимодействия с клиентами; • синхронизированности управления множественными каналами взаимодействия, т.е. существуют организационные процедуры, которые регламентируют использование этой системы и информации в каждом подразделении компании; • постоянном анализе собранной информации о клиентах и принятии соответствующих организационных решений - например, приоритизации клиентов на основе их значимости для компании, выработке индивидуального подхода к клиентам в соответствии с их специфическими потребностями и запросами. CRM - концептуально новый подход к взаимодействию с клиентом. Данный модуль интегрирован, как правило, в системах ERP II53 (Enterprise Resource & Relationship Processing) 3.2.5 ИС поддержки жизненного цикла продукции В данную группу попало всего две концепции CALS (Continuous Acqusition and Life cycle Support - непрерывные поставки и информационная 53 ERP II -Управление ресурсами и взаимоотношениями предприятия. Термин ERP II, как и ERP, предложен Gartner Group. 140 поддержка жизненного цикла продукции) и PLM (Product Lifecycle Management - управление жизненным циклом изделия). В то же время, эти концепции охватывают весь жизненный цикл продукции. CALS инициирован в 80-х годах, Министерством обороны США, которое стояло перед рядом проблем, связанных со снабжением, производством и поддержкой систем вооружения. CALS-технологии - современный подход к проектированию и производству высокотехнологичной и наукоемкой продукции, заключающийся в использовании компьютерной техники и современных информационных технологиях на всех стадиях жизненного цикла изделия. В соответствии с требованиями системы международных стандартов CALS обеспечивает единый подход управления процессами и взаимодействием всех участников жизненного цикла (заказчиков, поставщиков/производителей, эксплуатационного и ремонтного персонала) и регламентирует правила электронного обмена данными между ними. Отражением концепции CALS-технологии являются стандарты, регламентирующие правила представления информации и информационного взаимодействия участников жизненного цикла изделия. К ним относится группа международных стандартов ISO 10303 (STEP) (отечественный аналог ГОСТ Р ИСО 10303), регламентирующая компьютерное представление и обмен данных о продукте. Цель данного стандарта - разработать механизм описания данных о продукте на всех стадиях его ЖЦ, не зависящий от конкретной системы. Предметом CALS являются методы и средства взаимодействия разных автоматизированных систем (АС) и их подсистем с учетом всех видов их обеспечения, поэтому CALS - это методология создания единого информационного пространства промышленной продукции, обеспечивающего взаимодействие всех промышленных АС. В литературе используется термин PLM (Product Lifecycle Management), который является синонимом CALS. 141 Под PLM понимают процесс управления информацией об изделии на протяжении всего его жизненного цикла (рисунок 3.21). Маркетинговые исследования CAD CAE CRM Проектирование PDM CAM SCM Подготовка производства ERP PLM MES SCADA CNC IETM Производство MRP II Эксплуатация Утилизация АСУТП АСУП PDM - Product Data Management система управления данными изделия; MES - Manufacturing Execution Systems системы управления производством; IETM - Interactive Electronic Technical Manual - интерактивные электронные технические руководства. Рисунок 3.21 - Этапы жизненного цикла промышленной продукции и используемые автоматизированные системы /73/ 142 Отметим, что понятие PLM-систем имеет различную интерпретацию: • совокупность интегрированных автоматизированных систем CAE/CAD/CAM/PDM 54 и ERP/CRM/SCM (рисунок 3.20), • совокупность средств информационной поддержки проектирования и производства изделий, что практически совпадает с определением понятия CALS. Характерная особенность PLM - возможность поддержки взаимодействия различных автоматизированных систем многих предприятий. Технологии PLM являются интегрирующим информационным пространством, в котором функционируют САПР, ERP, PDM, SCM, CRM и другие автоматизированные системы многих предприятий. Резюме Информационные системы могут значительно различаться по типам объектов, характером и объемом решаемых задач и рядом других признаков. Общепринятой классификации ИС до сих пор не существует, поэтому их можно классифицировать по разным признаками, что вызвало существование нескольких различных классификаций ИС. Задача классификации — создать некие удобные образы, позволяющие, например, при выборе систем ограничиться определенным классом или типом. В зависимости от признаков, положенных в основу классификации, могут быть выделены различные подходы к построению классификационных моделей. Классификации всегда относительны. Цель любой классификации ограничить выбор подходов к отображению системы и дать рекомендации по выбору методов. 54 PDM (product data management) - управление данными об изделии. 143 Вопросы для самопроверки 1. Какие критерии Вы могли бы предложить для классификации информационных систем? 2. Как Вы считаете, для чего требуется классифицировать информацию? 3. Что может отличить документальные системы от фактографических систем? 4. Какие функции требуются для поисковых машин? 5. Чем классические системы поиска информации отличаются от поисковых систем интернета? 6. Наличие каких функций у информационных систем дают возможность отнести ее к фактографическим системам? 7. Чем отличается фактографический поиск в ИПС от поиска данных в фактографических системах? 8. Что отличает документы текстовые от XML –документов? 9. Что отличает web-сервисы от обычных функций системы? 10. Как Вы считаете, правомерна ли классификация систем на документальные, фактографические и системы с XML –документами? 144 ГЛАВА 4. СОСТАВ И СТРУКТУРА ИС Материал этой главы основан на едином комплексе стандартов автоматизированных систем (ЕКС АС) и ЕСПД (Единая система проектной документации) /19, 48, 74-92/. Стандартизация — это деятельность, направленная на разработку и установление требований, норм, правил, характеристик, как обязательных для выполнения, так и рекомендуемых; обеспечивающая право потребителя на приобретение товаров надлежащего качества, а также право на безопасность и комфортность труда. Цель стандартизации — достижение оптимальной степени упорядочения в той или иной области посредством широкого и многократного использования установленных положений, требований, норм для решения реально существующих, планируемых или потенциальных задач. Основными результатами деятельности по стандартизации должны быть повышение степени соответствия продукта (услуги), процессов их функционального назначения, устранение технических барьеров в международном товарообмене, содействие научно-техническому прогрессу и сотрудничеству в различных областях. Стандарты удешевляют совокупную стоимость владения системами, облегчают возможность расширения, модификации и масштабирования систем. Следование стандартам позволяет производителям техники наладить не мелкосерийное, а массовое производство продукции, повысить ее качество. Использование стандартов помогает снизить квалификационные требования к персоналу, сформировать четкие программы обучения, лучше подготовить персонал к решению практических задач. Итак, стандарты нужны: потребителям информационных систем (ИС) для выбора техники, для упорядочения своей деятельности и взаимодействия с поставщиками; поставщикам продуктов и услуг – для снижения себестоимости продукции и следования требованиям рынка; разработчикам и эксплуатационникам ИС — для повышения качества решений и обеспечения совме145 стимости с другими системами, а также для применения повторно используемых решений, для снижения трудоемкости и себестоимости работ, повышения их качества. Кроме того, стандарты - это знания и опыт профессионалов, которые помогают начинающим специалистам выбрать пути решений насущных задач. С другой стороны, стандарты содержат правила и рекомендации, исполнение которых возможно только тогда, когда, по крайне, мере эти правила и рекомендации знаешь и понимаешь. Выполнение стандартов требует определенной культуры организации, а также дисциплины ее сотрудников. Дивиденды, которые может принести применение стандартов, требует довольно кропотливой работы, направленной на поддержание их использования. Различные виды профессиональной деятельности попадают под действия закона Федерального закона «О лицензировании отдельных видов деятельности» N 128-ФЗ. Кроме того, существуют системы сертификации. В нашей стране действует более 100 систем сертификации, 20 из них - обязательные. Сертификация — процедура подтверждения соответствия, посредством которой независимая от изготовителя (продавца, исполнителя) и потребителя (покупателя) организация удостоверяет в письменной форме, что продукция соответствует установленным требованиям. Лицензия — это право (разрешение) на осуществление какой-либо деятельности. Сертификат на услуги — документ, подтверждающий, что качество услуг соответствует определённым требованиям. Одной из основных систем сертификации является, например, ГОСТ Р, поднадзорная ГосСтандарту и ГосСтрою, переименованные в Федеральное агентство по техническому регулированию и метрологии и в Федеральное агентство по строительству и жилищно-коммунальному хозяйству, соответственно. Теперь понятно, что строительство без соблюдения соответствующих стандартов и нормативных актов невозможно, как и большинство видов инженерной деятельности в различных отраслях. В отличие от строительных 146 норм и правил, все стандарты в области информационных технологий имеют рекомендательный характер. Среди всего многообразия стандартов принято выделять следующие основные типы стандартов: Корпоративные стандарты разрабатываются крупными фирмами (корпорациями) с целью повышения качества своей продукции. Такие стандарты разрабатываются на основе собственного опыта и с учетом требований мировых стандартов. Корпоративные стандарты не сертифицируются, но являются обязательными для применения внутри корпорации. В условиях рыночной конкуренции могут иметь закрытый характер. В ИТ сфере известны стандарты, разработанные Microsoft, Intel, IBM. Отраслевые стандарты действуют в пределах организаций некоторой отрасли. Например, строительные нормы и правила разрабатываются с учетом требований мирового опыта и специфики отрасли. Подлежат сертификации. Государственные стандарты (ГОСТы) принимаются государственными органами, имеют силу закона. Разрабатываются с учетом мирового опыта или на основе отраслевых стандартов. Могут иметь как рекомендательный, так и обязательный характер (стандарты безопасности). Для сертификации создаются государственные или лицензированные органы сертификации. Международные стандарты. Разрабатываются, как правило, специальными международными организациями на основе мирового опыта и лучших корпоративных стандартов. Имеют сугубо рекомендательный характер. Право сертификации получают организации (государственные и частные), прошедшие лицензирование в международных организациях. Существует большое количество стандартов в области информационных технологий, которые могут быть применимы для информационных систем. Выше говорилось о том, что в данной главе материал будет основан на двух видах стандартах ЕКС АС и ЕСПД. 147 ЕКС АС представляет на сегодняшний день набор стандартов, входящих в ГОСТ 24 и ГОСТ 34. Первые стандарты в области автоматизированных систем (24-я система) распространялись на АСУ (автоматизированные системы управления ), АСУП (автоматизированные системы управления предприятием), АСУ ТП (автоматизированные системы управления технологическими процессами) и другие организационно-экономические системы. Кроме этого, существовали комплексы стандартов (система 23501); распространяющиеся на системы автоматизированного проектирования (САПР) и системы стандартов (четвертая группа 14-й системы), распространяющиеся на автоматизированные системы технологической подготовки производства (АСУТПП). Практика применения стандартов на АСУ, САПР, АСУ ТП, АСТПП показала, что в них используется одинаковый понятийный аппарат, имеется много общих объектов стандартизации, однако требования стандартов не согласованы между собой, имеются различия по составу и содержанию работ, различия по обозначению, составу, содержанию и оформлению документов и пр. Было принято решение разработки единого комплекса стандартов (34-я серия) и руководящих документов, которые должны были распространяться на автоматизированные системы различного назначения: АСНИ (автоматизированные системы научной информации), САПР, ОАСУ (отраслевые АСУ), АСУП, АСУТП, АСУГПС (автоматизированные системы управления гибких производственных систем), АСК (автоматизированные системы и комплексы), АСТПП, включая их интеграцию. В связи с этим, часть стандартов серии 24 (ГОСТ 24) была заменена стандартом серии 34 (ГОСТ 34). Стандарты 19 группы (ГОСТ 19) носят название ЕСПД. Единая система программной документации устанавливает взаимоувязанные правила разработки, оформления и обращения программ и программной документации. Необходимо обратить внимание, что комплекс ГОСТ 34 распространяется на автоматизированные системы (информационные системы являются 148 подмножеством АС), а комплекс ГОСТ 19 – только на часть объектов автоматизированных систем (программы и их документации). Т.е. ГОСТ 34 регламентирует системный подход 55 при создании ИС, а ГОСТ 19 определяет комплекс работ, связанных с разработкой и внедрением ПО, как составной части ИС. 4.1 Стандарты на АС Ниже приведен неполный перечень стандартов в области АС и АСУ. • ГОСТ 24.103-84 Автоматизированные системы управления. Общие положения. • ГОСТ 24.104-85 Автоматизированные системы управления. Общие требования (Раздел 3 заменен ГОСТ 34.603-92). • ГОСТ 24.202-80 Требования к содержанию документа Техникоэкономическое обоснование. • ГОСТ 24.203-80 Требования к содержанию общесистемных документов. • ГОСТ 24.204-80 Требования к содержанию документа Описание постановки задачи. • ГОСТ 24.205-80 Требования к содержанию документов по информационному обеспечению. • ГОСТ 24.206-80 Требования к содержанию документов по техническому обеспечению. • ГОСТ 24.207-80 Требования к содержанию документов по программному обеспечению. • ГОСТ 24.208-80 Требования к содержанию документов стадии Ввод в эксплуатацию. 55 Системный подход - совокупность методов и средств исследования сложных, многоуровневых и многокомпонентных систем, объектов, процессов, опирающихся на комплексный подход, учет взаимосвязей и взаимодействий между элементами системы. 149 • ГОСТ 24.209-80 Требования к содержанию документов по организационному обеспечению. • ГОСТ 24.210-82 Требования к содержанию документов по функциональной части. • ГОСТ 24.703-85 Типовые проектные решения. Основные положения. • ГОСТ 34.003-90 Информационная технология. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Термины и определения (Взамен ГОСТ 24.003-84, ГОСТ 22487-77). • ГОСТ 34.201-89 Информационная технология. Комплекс стандартов на автоматизированные системы. Виды, комплектность и обозначения документов при создании автоматизированных систем (Взамен ГОСТ 24.101-80, ГОСТ 24.102-80). • ГОСТ 34.601-90 Информационная технология. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Стадии создания. (Взамен ГОСТ 24.601-86, ГОСТ 24.602-86). • ГОСТ 34.602-89 Информационная технология. Комплекс стандартов на автоматизированные системы. Техническое задание на создание автоматизированной системы (Взамен ГОСТ 24.201-85). • ГОСТ 34.603-92 Информационная технология. Виды испытаний автоматизированных систем (Взамен ГОСТ 24.104-85 в части разд. 3.). Кроме того, на АС и АСУ распространяются различные руководящие документы (РД) и рекомендации (Р), некоторые из которых приведены ниже. • РД 50 - 34.698 – 90 «Методические указания. Информационная технология. Комплекс стандартов и руководящих документов на автоматизированные системы. Автоматизированные системы требования к содержанию документов». 150 • РД 50-682-89 Информационная технология. Комплекс стандартов и руководящих документов на автоматизированные системы. Общие положения. • РД 50-680-88 Автоматизированные системы. Основные положения. • Р 50-34.126-92. Информационная технология. Правила проведения работ при создании автоматизированных систем. В стандартах определено несколько важных положений, отражающих особенности АС как объекта стандартизации, например: «в общем случае АС состоит из программно-технических (ПТК), программно-методических (ПМК) комплексов и отдельных компонентов организационного, технического, программного и информационного обеспечений». Разделение понятий ПТК и АС закрепляло принцип, по которому АС есть не «ИС с БД», но: − «организационно-техническая система, обеспечивающая выработку решений на основе автоматизации информационных процессов в различных сферах деятельности (управление, проектирование, производство и т. д.) или их сочетаниях» (по РД 50-68088), что особенно актуально в аспектах бизнес-реинжиниринга; − «система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций» (по ГОСТ 34.003-90). Эти определения указывают на то, что АС - это, в первую очередь, персонал, принимающий решения и выполняющий другие управляющие действия, поддержанный организационно-техническими средствами. ГОСТ 34 выделяет в качестве компонента АС пользователя автоматизированной системой - «лицо, участвующее в функционировании АС или использующее результаты ее функционирования». Как основные компоненты можно выделить программно-технический комплекс автоматизированной системы и ее обеспечение. ПТК представляет собой совокупность средств вычислительной техники, программного обеспечения и средств создания и заполнения ма151 шинной информационной базы при вводе системы в действие достаточных для выполнения одной или более задач АС. В литературе часто определяют ПТК, как набор компонентов, реализующий функциональную часть автоматизированной системы. Определены различные виды обеспечения системы: организационные, методические, технические, математические, лингвистические, информационные, правовые, программные, эргономические /91/. Данный перечень может быть расширен. Например, в ГОСТ 34.602-89 определяется метрологическое обеспечение. Организационное обеспечение АС: Совокупность документов, устанавливающих организационную структуру, права и обязанности пользователей и эксплуатационного персонала АС в условиях функционирования, проверки и обеспечения работоспособности АС. Методическое обеспечение АС: Совокупность документов, описывающих технологию функционирования АС, методы выбора и применения пользователями технологических приемов для получения конкретных результатов при функционировании АС. Техническое обеспечение АС: Совокупность всех технических средств, используемых при функционировании АС. Математическое обеспечение АС: Совокупность математических методов, моделей и алгоритмов, примененных в АС. Программное обеспечение АС: Совокупность программ на носителях данных и программных документов, предназначенная для отладки, функционирования и проверки работоспособности АС. Информационное обеспечение АС: Совокупность форм документов, классификаторов, нормативной базы и реализованных решений по объемам, размещению и формам существования информации, применяемой в АС, при ее функционировании. Лингвистическое обеспечение АС: Совокупность средств и правил для формализации естественного языка, используемых при общении пользовате- 152 лей и эксплуатационного персонала АС с комплексом средств автоматизации при функционировании АС. Правовое обеспечение АС: Совокупность правовых норм, регламентирующих правовые отношения при функционировании АС и юридический статус результатов ее функционирования. Эргономическое обеспечение АС: Совокупность реализованных решений в АС по согласованию психологических, психофизиологических, антропометрических, физиологических характеристик и возможностей пользователей АС с техническими характеристиками комплекса средств автоматизации АС и параметрами рабочей среды на рабочих местах персонала АС. Стадии создания автоматизированных систем (ГОСТ 34.601-90) /86/ В стандарте не указана модель жизненного цикла, но процесс создания АС определяется как совокупность упорядоченных во времени, взаимосвязанных, объединённых в стадии и этапы работ. Если принять во внимание, что каждая стадия заканчивается завершающим комплектом документов, то становиться понятно, что представлена каскадная модель жизненного цикла. Выделяется восемь стадий выполнения проекта по созданию автоматизированной системы, приведенных в таблице 4.1. Таблица 4.1. Стадии и этапы создания АС Стадии Этапы работ 1. Формирование 1.1. Обследование объекта и обоснование необходимости требований к АС создания АС. 1.2. Формирование требований пользователя к АС. 1.3. Оформление отчёта о выполненной работе и заявки на разработку АС (тактико-технического задания) 2. Разработка концепции 2.1. Изучение объекта. АС. 2.2. Проведение необходимых научно-исследовательских 153 работ. 2.3. Разработка вариантов концепции АС, удовлетворяющего требованиям пользователя. 2.4. Оформление отчёта о выполненной работе. 3. Техническое задание. Разработка и утверждение технического задания на создание АС. 4. Эскизный проект. 4.1. Разработка предварительных проектных решений по системе и её частям. 4.2. Разработка документации на АС и её части. 5. Технический проект. 5.1. Разработка проектных решений по системе и её частям. 5.2. Разработка документации на АС и её части. 5.3. Разработка и оформление документации на поставку изделий для комплектования АС и (или) технических требований (технических заданий) на их разработку. 5.4. Разработка заданий на проектирование в смежных частях проекта объекта автоматизации. 6. Рабочая документация. 6.1. Разработка рабочей документации на систему и её части. 6.2. Разработка или адаптация программ. 7. Ввод в действие. 7.1. Подготовка объекта автоматизации к вводу АС в действие. 7.2. Подготовка персонала. 7.3. Комплектация АС поставляемыми изделиями (программными и техническими средствами, программнотехническими комплексами, информационными изделиями). 7.4. Строительно-монтажные работы. 7.5. Пусконаладочные работы. 7.6. Проведение предварительных испытаний. 7.7. Проведение опытной эксплуатации. 7.8. Проведение приёмочных испытаний. 8. Сопровождение АС 8.1. Выполнение работ в соответствии с гарантийными обязательствами. 8.2. Послегарантийное обслуживание. 154 Стандарт 34 не заменяет ЕСПД, более того, он ссылается на ЕСПД в части разработки программного обеспечения и программной документации, но в тоже время, создание и сопровождение программного обеспечения должно подчиняться задачам создания АС. Необходимо принимать во внимания, что в состав АС могут входить технические средства, требующие проектирования и строительства. В состав информационной системы обычно входят уже созданные технические средства (компьютеры, телекоммуникационные устройства и т.д.), но это не устраняет задачу развертывания технических средств и программного обеспечения, следовательно, и комплекс мероприятий, связанных с этим. При создании информационных систем, как правило, используется: компьютерная сеть, что требует создания рабочей документации на нее (чертежи и схемы соединения); создание серверной с соответствующим проектом энергообеспечения и возможным строительством, а также проектом организации пожарной безопасности и т.д. Содержание работ, определенное на каждом этапе, не конкретизирует детали реализации функциональной и обеспечивающей частей системы. Допускается объединять и опускать некоторые стадии или этапы, их перечень и задачи в каждом конкретном проекте, определенным договором, а не стандартом. Ключевым документом взаимодействия сторон является ТЗ техническое задание на создание АС. Техническое задание на создание автоматизированной системы (ГОСТ 34.602-89) /87/ ТЗ на АС является основным документом, определяющим требования и порядок создания (развития или модернизации) автоматизированной системы, в соответствии с которым проводится разработка АС и ее приемка при вводе в действие. При этом, ТЗ разрабатывает организация-разработчик (по ГОСТ 34.602-89), но формально ТЗ выдает разработчику заказчик (по РД 50680-88). 155 Стандарт определяет все работы, предшествующие ТЗ и направленные на создания ТЗ, как предпроектные работы. Это соответствует первым трем стадиям создания АС. Такое построение работ соответствует каскадной модели жизненного цикла. В тоже время, в стандарте определен инструмент, дающий возможность использовать другие модели жизненного цикла. Вопервых, есть возможность изменять требования с помощью документов «Дополнения». Во-вторых, если конкретные значения требований не могут быть установлены в процессе разработки ТЗ на АС, в нем можно сделать запись о порядке установления и согласования этих требований. При этом в текст ТЗ на АС изменений не вносят. ТЗ на АС содержит следующие разделы, которые могут быть разделены на подразделы: 1) общие сведения; 2) назначение и цели создания (развития) системы; 3) характеристика объектов автоматизации; 4) требования к системе; 5) состав и содержание работ по созданию системы; 6) порядок контроля и приемки системы; 7) требования к составу и содержанию работ по подготовке объекта автоматизации к вводу системы в действие; 8) требования к документированию; 9) источники разработки. В ТЗ на АС могут включаться приложения. Раздел «Назначение и цели создания (развития) системы» состоит из подразделов: 1) назначение системы, где указывают вид автоматизируемой деятельности (управление, проектирование и т.п.) и перечень объектов автоматизации (объектов), на которых предполагается ее использовать, кроме того, для АСУ дополнительно указывают перечень автоматизируемых органов (пунктов) управления и управляемых объектов; 156 2) цели создания системы, где приводят наименования и требуемые значения технических, технологических, производственно-экономических или других показателей объекта автоматизации, указывают критерии оценки достижения целей создания системы. Раздел «Требования к системе» состоит из следующих подразделов: 1) требования к системе в целом; 2) требования к функциям (задачам), выполняемым системой; 3) требования к видам обеспечения. Требование к функциям, выполняемой системой приводят: по каждой подсистеме перечень функций, задач или их комплексов, подлежащих автоматизации; временной регламент реализации каждой функции, задачи; требования к качеству реализации каждой функции, к форме представления выходной информации, достоверности выдачи результатов; перечень и критерии отказов для каждой функции, по которой задаются требования по надежности. Требования к обеспечению системы определены в стандарте для каждого вида. «Требования к документированию» приводят согласованный разработчиком и заказчиком системы перечень подлежащих разработке комплектов и видов документов. Требования к содержанию документов, разрабатываемых при создании АС, установлены указаниями РД 50-34.698-90, а также соответствующими государственными стандартами Единой системы программной документации (ЕСПД), Единой системы конструкторской документации (ЕСКД), Системы проектной документации для строительства (СПДС) и ГОСТ 34.602. Перечень документов приведен ниже. В разделе «Состав и содержание работ по созданию системы» определяются стадии и этапы создания АС, а также перечень документов, предъявляемых по окончанию соответствующих стадий и этапов работ. По согласованию между разработчиком и заказчиком системы в состав ТЗ на АС включают приложения, содержащие: расчет ожидаемой эффективности системы; оценку научно-технического уровня системы. 157 4.2 Состав информационных систем Как отмечалось в начале данного параграфа, состав, структура, стадии создания и документация информационной системы будет рассматриваться с точки зрения рекомендаций ЕКС АС (стандарты 34 и 24 группы, а также руководящие документы и рекомендации, посвященные АС). Информационные системы (ИС) являются подмножеством АС, поэтому и используется нормативная база АС. ИС, как правило, создают проектным путем с последующей комплектацией изделий серийного и единичного производства и проведением строительных, монтажных, наладочных и пусковых работ, необходимых для ввода в действие комплекса средств автоматизации. Составляющими информационной системы являются : • пользователь АС (лицо, участвующее в функционировании АС или использующее результаты ее функционирования) и эксплуатационный персонал АС, • программно-технический комплекс (ПТК), • компоненты обеспечения, • необходимая эксплуатационная документация (может быть включена в состав компонентов обеспечения). Пользователи информационной системы участвуют в выполнении бизнес - процесса (или в производственном процессе), в котором они обращаются с ПТК АС и используют результаты функционирования данной информационной системы. Описание бизнес - процесса и регламент работы пользователя с АС в нем должны быть изложены в документации организационного обеспечения. При создании АС в состав поставки могут входить следующие средства автоматизации /92/: • технические средства (в том числе приборы, контроллеры, средства вычислительной техники и т.п.) и необходимое дополни158 тельное оборудование (щиты, пульты, операторские кресла и т.п.); • программные средства, представляющие собой программы на машинном носителе, изготовленные в соответствии с утвержденной технологией и принятые службой технического контроля изготовителя; • информационные средства, представляющие собой данные, записанные на машинном носителе, принятые службой технического контроля изготовителя; • программно-технические комплексы (ПТК), представляющие собой совокупность технических и программных средств, реализующие заданный набор потребительских функций и предназначенные для реализации в АС или в отдельных ее частях. К основным видам услуг, которые могут быть представлены в ходе создания или применения АС, относят: • обследование объекта автоматизации; • научно-исследовательские работы; • проектные работы; • конструкторские работы; • монтажные работы; • наладочные работы; • обучение персонала пользователя; • экспертиза технической документации; • участие в проведении приемочных испытаний (опытной эксплуатации); • сопровождение готовой системы; • работы по модернизации и развитию действующей системы; • анализ функционирования действующей системы; • консультации заказчиков; 159 • сервисное обслуживание. Состав информационных систем определяется несколькими факторами: • стадией жизненного цикла информационной системы; • задачами, решаемыми при использовании ИС; • требованиями договоров регламентирующих разработку и внедрение ИС для данного предприятия. ГОСТ 34.201 регламентирует состав проекта информационной системы на всех этапах ее жизненного цикла. В том случае, если данная ИС разрабатывается проектным путем, проектная документация на компоненты, выполненная в рамках этого проекта, является неотъемлемой составляющей ИС. При выполнении проекта возможны следующие участники работ: • заказчик (пользователь); • генподрядчик (генпоставщик); • разработчик (проектировщик); • поставщик; • монтажник; • наладчик; • изготовитель. Данные участники могут рассматриваться в качестве ролей, которые допускается выполнять одному или нескольким юридическим или физическим лицам. В некоторых проектах возможно, как увеличение, так и уменьшение количества ролей. Заказчик финансирует создание (разработку, изготовление и т.п.) системы, формулирует требования к системе, обеспечивает оговоренные в договоре (контракте) условия деятельности генпоставщика, разработчика, поставщиков и других участников на объекте. Генподрядчик (генпоставщик) работает по договорам с заказчиком, разработчиками, поставщиками и другими участниками работ. Генподрядчик (генпоставщик) АС осуществляет предусмотренную договором, между ним и 160 заказчиком системы, поставку необходимых для создания АС изделий, организует выполнение порученных ему работ, несет гарантийные обязательства по всей системе в целом. Генподрядчик выдает задания головному разработчику или соисполнителям, заключает с ними договора на выполнение работ, принимает от них работу. В случае сдачи системы «под ключ» генподрядчик (генпоставщик) несет ответственность за своевременное выполнение всех работ, обеспечивающих ввод системы в постоянную эксплуатацию в заданном объеме в установленные сроки. Разберем пример. На конкретном предприятии «N» внедряется информационная система бухгалтерского учета. Для этого принято решение купить ПО «1С. Бухгалтерия 7.0» для автоматизации «всех функций» бухгалтерии. Предприятие небольшое: на нем работают три бухгалтера и главный бухгалтер. Решение по автоматизации принято руководством (на то оно и руководство, чтобы смотреть вперед). Далее события могут развиваться самым различным образом, но нас будет интересовать, как они должны были бы развиваться с точки зрения правильности использования рекомендаций ГОСТ 34. Будем считать для простоты, что договор по внедрению «1С. Бухгалтерия 7.0» будет выполнять специализированная фирма «ООО», которая и осуществляет поставку ПО. Договор на внедрение это и есть проект, в рамках которого будет создаваться информационная система. В данном примере организаций, участвующие в проекте - две, но ролей, выполняемые этими организациями, много. Предприятие «N» является: • покупателем, в договоре купли - продажи ПО «1С: Бухгалтерия»; • заказчиком, в договоре разработки и внедрения информационной системы бухгалтерского учета; • эксплуатирующей организацией ИС бухгалтерского учета. Фирма ООО является: • продавцом, в договоре купли - продажи ПО «1С: Бухгалтерия»; 161 • подрядчиком (он же генеральный подрядчик) в договоре разработки и внедрения информационной системы бухгалтерского учета; • организацией сопровождения данной информационной системы (возможно, в дальнейшем, организацией сопровождения ИС станет Предприятие «N», а фирма ООО будет сопровождать только ПО «1С: Бухгалтерия») 56. При составлении договора на разработку и внедрения ИС, фирма ООО подготовила техническое задание (ТЗ) в соответствии с ГОСТ 34.602 – 89 /87/ 57. В ТЗ нашли отражение: • назначение и цели создания системы; • краткие сведения об объекте автоматизации (объектом автоматизации в данной ИС являются функции бухгалтера по обработке информации и составлении отчетов); • требования к системе; o требования к численности и квалификации персонала системы и режиму его работы; o требования к надежности; o требования безопасности; o требования к защите информации от несанкционированного доступа; o перечень функций, задач или их комплексов (в том числе обеспечивающих взаимодействие частей системы), подлежащих автоматизации; o перечень и критерии отказов для каждой функции, по которой задаются требования по надежности; 56 Роли выделены по ГОСТ Р ИСО/МЭК 12207-99 /93/ 57 Техническое задание готовит подрядчик от лица заказчика. 162 o Требования к видам обеспечения:  информационное обеспечение: • к составу, структуре и способам организации данных в системе; • к информационному обмену между компонентами системы; • к информационной совместимости со смежными системами (совместимость с системой планового отдела); • к структуре процесса сбора, обработки, передачи данных в системе и представлению данных; • к контролю, хранению, обновлению и восстановлению данных; • к процедуре придания юридической силы документам, продуцируемым техническими средствами АС;  лингвистическое обеспечение: • средства описания предметной области; • применению в системе языков программирования высокого уровня;  программное обеспечение: • перечень покупных программных средств;  техническое обеспечение: • виды технических средств (требование к персональным компьютерам, к серверу, к телекоммуникационному оборудованию);  организационное обеспечение: • к структуре и функциям подразделений, участвующих в функционировании системы или обеспечивающих эксплуатацию; 163 • к организации функционирования системы и порядку взаимодействия персонала АС и персонала объекта автоматизации; • к защите от ошибочных действий персонала системы; • Перечень стадий и этапов работ по созданию системы; • Виды, состав, объем и методы испытаний системы; • Общие требования к приемке работ по стадиям; • Перечень основных мероприятий и их исполнителей, которые следует выполнить при подготовке объекта автоматизации к вводу ИС в действие; • Согласованный Фирмой ООО (разработчик) и Предприятием «N» (заказчик) перечень, подлежащих разработке, комплектов и видов документов. Далее, согласно определенному перечню этапов работ ФИРМА ООО выполняет проект создания ИС. 4.3 Структура и архитектура информационной системы Под архитектурой ИС понимается описание ее функций с точки зрения конечных пользователей и интерфейсов взаимодействия с внешней средой. Архитектура ИС - это внешний взгляд на описываемый объект, безотносительно к его реализации, в частности, к структуре. Декомпозиция заданных функций ИС, осуществляемая в процессе проектирования, дает структуру ИС в виде взаимодействующих между собой подсистем. Каждая из этих подсистем, в свою очередь, может быть подразделена на составные части, вплоть до неделимых модулей программ. Понятие структуры ИС является иерархическим, включающим в себя несколько уровней разбиения, число которых зависит от того, каким образом предполагается реализовать свойство расширяемости ИС по функциям. Структурные единицы на каждом уровне разбиения подлежат архитектурному описанию /94/. 164 ГОСТ 34 не регламентирует структуру ИС и вид архитектурного описания системы. Существуют два взаимодополняющих определения архитектуры: «архитектура как описание» и «архитектура как процесс». Первое определение говорит о том, что архитектура – это описание некоторой системы в определенный момент времени. Второе определение говорит, что архитектура – это процесс, т.е. набор правил и /или стандартов, которые применяются в процессе построения новых систем. В качестве примера можно привести модель описания архитектуры системы, предложенной Gartner. Данная модель дает представление архитектуры в виде матрицы, где для каждой из основных подсистем информационной системы, таких как: данные, приложения, интеграция, общие сервисы инфраструктура, последовательно накладываются несколько спецификаций, отличающихся по уровню детализации /43/: Бизнес потребности, определяющие ключевые требования к конкретной технологии для данной индустрии и организации. Принципы, включающие в себя основные подходы, которым придерживается руководство (использование покупных изделий или самостоятельная разработка, использование стандартных подходов или заказных разработок и т. д.). Процессы управления во всех областях жизненного цикла элементов архитектуры. Здесь могут определяться эталонные модели для организации пользовательского интерфейса, организации данных и т.д. Протоколы и стандарты. Описываются промышленные стандарты, которые должны поддерживаться в организации технологии. Используемые продукты и технологии. Утвержденный для организации список продуктов и технологий. Кроме того, в этом разделе определены доводы в пользу конкретных поставщиков. Другой подход к описанию архитектуры использовал Крачтен /94/ (рисунок 4.1). 165 Реализационное представление Логическое представление Аналитик/дизайнер Конечный Структуры пользователь Функциональные возможности Программист Управление разработкой и сопровождения ПО Прецедентное представление Представление развертывания Процедурное представление Системный интегратор Эффективность, масштабируемость, производительность Системотехника Топология системы , распространение, установка, связь Рисунок 4.1- Архитектура 4+1. Логическое представление (logical view ) основное внимание акцентирует на концептуальной структуре системы. Это абстракция модели проектируемой системы, определяющая главные пакеты, подсистемы и классы модели и их отношения. Это системное представление, с точки зрения аналитиков и проектировщиков. Данный уровень не затрагивает вопросы реализации системы. Представление реализации (implementation view ) описывает структуру статических программных модулей в среде разработки в терминах организации пакетов и уровней, а также управления конфигурацией. Данное представление выполнено с точки зрения программистов, реализующих основные модули системы. Представления развертывания (deployment view ) показывает каким образом различные исполняемые файлы и другие компоненты времени выполнения устанавливаются на используемых платформах или в узлах вычислительной сети. Данное представление выполнено с точки зрения системотехников, решающих вопросы топологии системы, ее развертывания и организации компьютерных сетей. 166 Процедурное представление (process view) акцентирует внимание на аспектах параллельного выполнения процессов системы: организация регламента решения задач, управления потоками или процессами, а также вопросами взаимодействия других элементов. Прецедентное представление (use-case view) или представления вариантов работы системы включает множество ключевых сценариев, выполняемых системой. По сути дела, в данном представлении задается функционал системы с точки зрения конечного пользователя. Считается, что данное представление должно определять реализацию всей системы, поэтому и выделено в особый вид представления, которое направляет и определяет остальные виды представления архитектуры. Резюме Стандартизация - это деятельность, направленная на разработку и установление требований, норм, правил, характеристик, как обязательных для выполнения, так и рекомендуемых; обеспечивающая право потребителя на приобретение товаров надлежащего качества, а также право на безопасность и комфортность труда. Цель стандартизации — достижение оптимальной степени упорядочения в той или иной области посредством широкого и многократного использования установленных положений, требований, норм для решения реально существующих, планируемых или потенциальных задач. Стандарты удешевляют совокупную стоимость владения системами, облегчают возможность расширения, модификации и масштабирования систем. Следование стандартам позволяет производителям техники наладить не мелкосерийное, а массовое производство продукции, повысить ее качество. Использование стандартов помогает снизить квалификационные требования к персоналу, сформировать четкие программы обучения, лучше подготовить персонал к решению практических задач. 167 Кроме того, стандарты - это знания и опыт профессионалов, которые помогают начинающим специалистам выбрать пути решений насущных задач. С другой стороны, стандарты содержат правила и рекомендации, исполнение которых возможно только тогда, когда, по крайне, мере эти правила и рекомендации знаешь и понимаешь. Выполнение стандартов требует определенной культуры организации, а также дисциплины ее сотрудников. Дивиденды, которые может принести применение стандартов, требует довольно кропотливой работы, направленной на поддержание их использования. Существует большое количество стандартов в области информационных технологий, которые могут быть применимы для информационных систем. Комплекс ГОСТ 34 распространяется на автоматизированные системы (информационные системы являются подмножеством АС), а комплекс ГОСТ 19 – только на часть объектов автоматизированных систем (программы и их документации). ГОСТ 34 регламентирует системный подход при создании ИС, а ГОСТ 19 определяет комплекс работ, связанных с разработкой и внедрением ПО, как составной части ИС. Под архитектурой ИС понимается описание ее функций с точки зрения конечных пользователей и интерфейсов взаимодействия с внешней средой. Архитектура ИС - это внешний взгляд на описываемый объект, безотносительно к его реализации, в частности, к структуре. Декомпозиция заданных функций ИС, осуществляемая в процессе проектирования, дает структуру ИС в виде взаимодействующих между собой подсистем. Каждая из этих подсистем, в свою очередь, может быть подразделена на составные части, вплоть до неделимых модулей программ. Понятие структуры ИС является иерархическим, включающим в себя несколько уровней разбиения, число которых зависит от того, каким образом предполагается реализовать свойство расширяемости ИС по функциям. 168 Вопросы для самопроверки 1. Что такое сертификация? 2. Как Вы думаете, для чеготребуется стандартизация? 3. Как связана стандартизация и лицензирование? 4. Что определяют стандарты на АС? 5. Чем отличаются стандарты ГОСТ 34 от ГОСТ 24? 6. Что такое ТЗ? 7. Что понимается под объектом автоматизации в ГОСТ 34.602? 8. Что такое АС и как она отличается от ИС? 9. Можно ли АСУ отнести к ИС? 10. Какой состав ИС? 11. Чем отличаются функциональные и обеспечивающие части ИС? 12. Что такое архитектура ИС? 13. Чем отличается архитектура от структуры ИС? 169 ГЛАВА 5. АВТОМАТИЗИРОВАННЫЕ ИНФОРМАЦИОННОПОИСКОВЫЕ СИСТЕМЫ И ИНФОРМАЦИОННОПОИСКОВЫЕ ЯЗЫКИ 5.1 Порядок функционирования автоматизированной информационнопоисковой системы Автоматизированная информационно-поисковая система (АИПС) предназначена для ввода, обработки, хранения и поиска семантической информации. Поиск семантической информации предполагает сравнение смыслового содержания запроса со смысловым содержанием хранящихся в АИПС документов. Такая операция возможна только в том случае, когда существует некоторый язык представления информации, позволяющий однозначно описывать смысловое содержание документов и запросов. Естественный язык для этой цели не подходит в силу своей многозначности и высокой сложности. При наличии такого языка, который носит название информационно – поискового языка (ИПЯ), процесс функционирования АИПС состоит в следующем: • перевод содержания документа и /или запроса с естественного языка на ИПЯ (процесс индексирования текстов). В результате индексирования полный текст документа (запроса) заменяется некоторой характеристикой, кратко отражающей его смысловое содержание. Эта характеристика носит название поискового образа документа (ПОД) и/или поискового образа запроса (ПОЗ). Иногда ПОЗ называют поисковым предписанием (ПП); • представление ПОДов и ПОЗов в машинных кодах (кодирование). Часто этот этап выполняется совместно с предыдущим. Организация массивов ПОДов и ПОЗов. Обработка элементов этих массивов и представление их в виде, наиболее удобном для поиска; 170 • поиск информации, т.е. выделение из поискового массива тех документов, содержание которых соответствует поисковому предписанию. Эта операция осуществляется в соответствии с некоторым критерием смыслового соответствия (КСС) поискового образа документа поисковому образу запроса (критерий выдачи); • выдача пользователю информации, соответствующей отобранным ПОДам; • корректировка запросов или ПП и повторение предыдущих этапов. Эта операция выполняется в том случае, если потребитель не удовлетворен работой АИПС, и может производиться либо в пакетном режиме, либо в режиме диалога. Выходной продукцией АИПС могут быть: оригиналы, копии или адреса документов; данные и факты, содержащиеся в документах в явном виде; факты, данные, сведения, которые в явном виде не содержатся во введенных документах. В связи с этим различают следующие АИПС: • документальные (выдают оригиналы, копии документов или адреса введенных документов); • фактографические (выдают данные, факты, сведения, содержащиеся в явном виде во введенных документах); • информационно-логические (выдают данные, факты, сведения, которые в явном виде не вводились в АИПС, а получены в результате некоторого логического вывода). 5.2 Состав и структура АИПС АИПС, также как и любая АИС является весьма сложной системой, представление которой линейным текстом весьма затруднительно. Можно выделить несколько различных декомпозиций и, соответственно, представлений АИПС, каждая из которых описывает систему с определенной точки зрения и на различных уровнях детализации. Наиболее необходимы для изу171 чения АИПС следующие пять декомпозиций: • функциональная декомпозиция, т.е. разбиение АИПС на функциональные составляющие (подсистемы); • покомпонентная декомпозиция, т.е. разбиение АИПС, позволяющее выделить ее информационные, программные, технические и трудовые компоненты; • декомпозиция на обеспечивающие составляющие, т.е. разбиение АИПС на обеспечивающие подсистемы; • организационная декомпозиция - декомпозиция АИПС на организационные составляющие; • методологическая декомпозиция - декомпозиция логико- семантических средств, обеспечивающих создание и функционирование АИПС. Рассмотрим каждую из предложенных АИПС. Функциональная декомпозиция - декомпозиция на функциональные подсистемы. При такой декомпозиции наиболее рационально выделять следующие функциональные подсистемы АИПС: • отбора информации из внешней среды; • предмашинной обработки и ввода информации; • обработки и хранения информации; • поиска и выдачи информации; • информационного обслуживания потребителей информации. Возможны и иные разбиения АИПС на функциональные составляющие. Покомпонентная декомпозиция. Такая декомпозиция вызвана необходимостью самостоятельного рассмотрения информационной, программной и технической среды АИПС. С этих позиций в составе АИПС целесообразно выделить: информационную базу (базу данных, словари, справочники и т.д.), программные средства (СУБД/ПС, пользовательские программы - software АИПС); технические средства (hardware АИПС), организационные средства 172 (рисунок 5.1). Ясно, что большинство функций предыдущей (функциональной) декомпозиции реализуются соответствующими техническими программными и информационными средствами покомпонентной декомпозиции. Например, база данных используется всеми подсистемами функциональной декомпозиции, но для реализации различных функций: подсистема ввода и хранения обеспечивает ввод и ведение информации в БД; наоборот подсистема поиска обеспечивает поиск в БД нужной информации. При этом почти все функциональные подсистемы (кроме подсистемы отбора) используют соответствующие программные и технические средства. Обе рассмотренные декомпозиции описывают один и тот же объект - АИПС, но с различных точек зрения. АИПС Информационная база Программные средства Словарный справочник тезаурус База данных Технические средства СУБД/ПС Организационные средства ПП Рисунок 5.1 - Покомпонентная декомпозиция АИПС Декомпозиция на обеспечивающие составляющие. Обеспечивающими составляющими или подсистемами АИПС называют элементы, которые обеспечивают реализацию заданных функций АИПС. В АИПС обычно выделяют следующие обеспечивающие подсистемы (рисунок 5.2): • информационного обеспечения; • лингвистического обеспечения; • математического и программного обеспечения; • технического обеспечения; 173 • организационного обеспечения. Подсистема информационного обеспечения. Подсистема включает совокупность средств и методов сбора, обработки, хранения и выдачи информации (в том числе и информации о пользователя АИПС) и обеспечивает формирование, ведение (обновление, актуализацию) и использование информационной базы АИПС. АИПС Информационное обеспечение Лингвистическое обеспечение Математическое и программное обеспечение Техническое обеспечение Организационное обеспечение Рисунок 5.2 - Декомпозиция АИПС на обеспечивающие подсистемы Подсистема лингвистического обеспечения включает совокупность словарей, справочников, положений и инструкций предмашинной и машинной обработки и поиска информации. Подсистема математического и программного обеспечения включает совокупность методов, алгоритмов, и программ ввода, обработки, поиска и выдачи информации. Подсистема технического обеспечения включает комплекс ЭВМ, технических средств сбора, ввода, передачи, отображения, хранения, диспетчеризации, телекоммуникации, поиска и выдачи информации. Организационная декомпозиция АИПС. Такая декомпозиция соответствует организационной структуре информационного института, центра или иной организации, в структуру которой входит АИПС. Среди элементов организационной декомпозиции могут быть: вычислительный центр, отделы или лаборатории. Декомпозиция на обеспечивающие подсистемы в чем-то 174 перекрываясь с покомпонентной декомпозицией, тем не менее представляет новую точку зрения на состав и структуру АИПС. Логико-семантический комплекс АИПС. Логико-семантический комплекс (ЛСК) - комплекс языковых, логических, и математических средств формализованного представления семантической информации с целью ее автоматизированной обработки и поиска (рисунок 5.3.). ЛСК представляет собой теоретическую и практическую базу создания и функционирования как каждой составляющей всех ранее рассмотренных декомпозиций АИПС, так и АИПС в целом. ЛСК Система индексирования ИПЯ Аппарат поиска Грамматика Алфавит Синтаксис Базисные Словарь Морфология Логика поиска отношени Тезаурус Критерий выдачи Рисунок 5.3 - Состав логико-семантического комплекса АИПС 5.3 Информационно-поисковые языки (ИПЯ) В последние годы создаются самые разнообразные искусственные языки, ориентированные на определенный аспект решаемых задач. Это языки описания данных, информационно-поисковые языки, языки моделирования, управления заданиями, автоматизации проектирования, языки манипулирования данными и т.д. Описать все разнообразие существующих языков или тем более дать их исчерпывающую классификацию не представляется воз- 175 можным. Среди множества классов искусственных языков нас интересуют только информационно-поисковые языки. 5.3.1 Основные элементы ИПЯ Для определения роли и места ИПЯ рассмотрим основные понятия языков, которые тесно связанны с информационно-поисковыми языками и некоторые из них описаны в стандарте ГОСТ 7.74–96. Язык - это знаковая система любой физической природы, выполняющая познавательную и коммуникативную функции и процессе человеческой деятельности. Естественный язык (ЕЯ) есть особого рода преобразователь заданных смыслов в тексты, и наоборот. Информационный язык - формальная семантическая система, включающая алфавит, правила образования конструкций, их преобразования и интерпретации и предназначенная для описания, обработки, логической переработки и поиска информации. Информационно-поисковый язык - специализированный искусственный язык, предназначенный для описания основного содержания (центральной темы) и формальных характеристик документов с целью информационного поиска. Алгоритмический язык - язык, предназначенный для записи информации и алгоритмов ее обработки в форме, воспринимаемой ЭВМ. Каждый из названных языков предназначен для описания языковых объектов и, следовательно, в той или иной мере обладает смысло-выразительной способностью, т.е. способностью выражать смысловое содержание текстов. Указанная способность зависит от того, на каких уровнях представляются языковые объекты средствами данного языка. Различают следующие уровни представления языковых объектов. Семантика - основные закономерности строения внутренней (смысловой) стороны языковых объектов. Семантический уровень представления языковых объектов позволяет отобразить их смысловое содержание, выра176 зить связь смыслов отдельных знаков со смыслом текста (связь смысла языковых объектов между собой и со смыслом образуемого ими более сложного языкового объекта). Синтаксис - основные закономерности, определяющие отношения между единицами языка в пределах конкретных текстов. Синтаксический уровень представления языковых объектов позволяет выразить их структуру, отношения знаков в тексте, закономерности построения текстов. Морфология - основные закономерности построения слов языка, т.е. система грамматических категорий и способов их выражения. Правописание - система правил, устанавливающая единообразные способы передачи речи на письме. Фонетика - основные закономерности поведения речевого аппарата и способы их использования. Указанные уровни представления языковых объектов позволяют описать преобразование: звук - фонема - морфема - слово - текст - смысл. ИПЯ представляют языковые объекты на 1, 2, 3, 4 уровнях. Однако арсенал средств ИПЯ для представления языковых объектов на семантическом уровне менее развит по сравнению с естественным языком. Основными элементами ИПЯ являются: алфавит, лексика и грамматика. Алфавит ИПЯ - система знаков, используемых для записи слов и выражений ИПЯ. Это могут быть буквы русского и/или английского языка, знаки препинания, арабские цифры, любые иные символы. Лексика /55/, или словарный состав ИПЯ, - совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ. В качестве лексических единиц ИПЯ могут быть использованы: • слова, фрагменты слов, словосочетания и выражения любого естественного языка; 177 • коды и шифры (цифровые, буквенные, буквенно-цифровые) словосочетаний, слов и выражений, выступающие в роли имен соответствующих классов; • шифры и коды в сочетании со словами, словосочетаниями и выражениями. Существуют различные способы задания словарного состава ИПЯ, в том числе: • перечисление всех лексических единиц ИПЯ; • перечисление части лексических единиц и задание правил формирования из них других лексических единиц; • задание правил построения лексических единиц, слов и выражений естественного языка. Первый способ задания лексики требует больших интеллектуальных усилий. Процесс построения лексики нельзя автоматизировать. Лексика ИПЯ оказывается жестко фиксированной и в ряде случаев не позволяет достаточно точно выразить смысловое содержание текстов. Третий способ поддается полной автоматизации, хотя и требует больших интеллектуальных затрат на определение правил формирования лексики. Однако научный подход к формированию словарного состава делает его более совершенным, обеспечивает единообразие и уменьшает субъективизм при построении лексики. Второй способ занимает промежуточное положение и в отношении интеллектуальных усилий, и в отношении автоматизации процессов. Грамматика ИПЯ - совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис. Морфология - совокупность средств и способов построения и изменения слов. Синтаксис - совокупность средств и способов соединения слов в выражения и фразы. 178 5.3.2 Требования к ИПЯ К информационно-поисковым языкам, его конструкциям и элементам могут быть предъявлены следующие требования: • ИПЯ должен располагать лексико-грамматическими средствами для точного выражения основного содержания (центральной темы или предмета) текста. Это связано с необходимостью представления текстов на семантическом уровне и является обязательной предпосылкой обеспечения смысловыразительной способности ИПЯ. • ИПЯ не должен быть двусмысленным. Любое выражение ИПЯ должно пониматься вполне однозначно, что связано с необходимостью устранения многозначности, присущей естественному языку и недопустимой для ИПЯ в силу того, что приемником текстов ИПЯ является программно-техническая система, а не человек. • ИПЯ не должен содержать элементы, отображающие волевое побуждение, эмоции и т.д. Выражение ИПЯ, его значение, смысл не должны зависеть от «настроения» приемника информации. • ИПЯ должен быть удобным для алгоритмизации. 5.3.3 Типы отношений между словами ИПЯ Построение выражений ИПЯ требует решения, по крайней мере, двух проблем. Первая из них связана с выбором слов (лексических единиц) из множества лексических единиц ИПЯ, необходимых для построения выражений. Здесь решается вопрос, какие использовать слова по принципу «или-или» (или то слово - или иное слово). Выбор слов определяется их смысловыми значениями, обусловленными отношениями между предметами и явлениями, которые они определяют. Такие отношения называются парадигматическими. Парадигматические отношения - это отношения, обусловленные наличием не языковых, а логических связей между предметами и явлениями, 179 обозначенными данными словами. Наиболее важны следующие парадигматические отношения: • «вид-род», например, «шкаф-мебель». В данном случае понятие «шкаф» является видовым но отношению к понятию «мебель» - понятие мебель» является родовым по отношению к понятию «шкаф». Родовое понятие всегда включает в себя видовое; • «часть-целое», например «лезвие-нож». Лезвие является частью ножа; • «причина-следствие», например «лампа-свет»; • «функциональное сходство», например «лопата-экскаватор», ''телега-автомобиль». Естественный язык обладает высокой многозначностью. Это создает богатство его форм и содержания. При написании текстов (особенно художественных) стремятся использовать эту многозначность для придания тексту элегантности, литературности. В ИПЯ недопустима многозначность. Поэтому здесь необходимо учитывать отношения синонимии и омонимии слов ЕЯ, используемых в ИПЯ. Омонимия слова, сочетания, выражения, текста (любого знака) состоит в том, что они при одинаковом написании имеют различный смысл. Например, понятие «соль» может обозначать вещество, ноту, главную часть, суть чего-либо. Для пояснения многозначности удобно использовать семиотические понятия денотата, знака и концепта. Денотат - обозначаемое (объект, предмет и т. д.). Знак - обозначение данного денотата. Концепт - свойство денотата, его смысл, значение, информация, которую несет знак о денотате и о его месте в системе реалий. Знак обозначает денотат и выражает его концепт. Например: знак Ф.И.О.; денотат - конкретный человек; концепт - человек, а не дерево и не животное. Лексические еди- 180 ницы (ЛЕ) языка - это знаки. Омонимия знака состоит в том, что один и тот же знак выражает разные концепты. Полисемия знака состоит в том, что один и тот же знак выражает пучок родственных концептов. Например, знак «ключ» обозначает дверной ключ, нотный ключ, ключ к шифру. Все три концепта близки между собой по смыслу. Синонимия знака состоит в том, что один и тот же денотат имеет разные знаки. Например, знаки «коллега», «друг», «тезка» могут обозначать один и тот же денотат. Однако выражаемые этими знаками концепты могут отличаться друг от друга. В данном примере смысл знака «коллега» существенно отличается от смысла знака «тезка», т.е. концепты знаков не совпадают. Знаки «коллега», «тезка», «друг» - условные синонимы. Абсолютная синонимия имеет место тогда, когда разные знаки обозначают один и тот же денотат и выражают одинаковый концепт. Вторая проблема построения фраз ИПЯ связана с определением последовательности употребления или написания выбранных слов (словосочетаний), поскольку в каждый данный момент может быть использовано только одно слово (словосочетание), лексические единицы могут следовать одна за другой, но не одновременно. Отношения, устанавливаемые при соединении слов в словосочетания и фразы, носят название синтагматических отношений. Синтагматические отношения - это совокупность всех отношений, реализуемых синтаксисом ИПЯ. С этой точки зрения синтаксис представляет собой совокупность способов и средств выражения синтагматических отношений. Простейшим видом синтагматических отношений является отношение вхождения нескольких лексических единиц ИПЯ в один и тот же текст, фрагмент текста, фразу и т.д., т.е. отношение координации. Иногда говорят: ИПЯ без грамматики. Но поскольку ни один ИПЯ не может функционировать без синтаксиса, выражающего синтагматические отношения между его словами, информационно-поисковые языки без грамматики фактически не существуют. 181 Парадигматика и синтагматика - это два различных аспекта ИПЯ, первый связан с его лексикой, второй - с грамматикой. Многообразие используемых в ИПЯ парадигматических и синтагматических отношений определяет смысловыразительную способность или семантическую силу ИПЯ. 5.3.4 Классификация ИПЯ По характеру использования грамматических средств различают прекоординированные и посткоординированные ИПЯ. Прекоординированные ИПЯ - это ИПЯ, словарный состав которых жестко связан грамматическими средствами в единую структуру. Лексика и грамматика такого языка, а также синтаксис, морфология, все парадигматические и синтагматические отношения самостоятельно не существуют, а образуют единую жесткую связанную структуру. Индексирование текстов (перевод текстов на ИПЯ) выполняется только с использованием элементов такой жесткой структуры. По сути дела, каждый ИПЯ этого тина представляет собой некоторую систему классификации. Классификация - это группировка объектов по признакам (например, тематическая классификация представляет собой группировку по тематическим признакам, алфавитная - по алфавиту и т.д.). Классификация всегда проводится по единому основанию и определяет на множестве объектов М отношение эквивалентности ϕ = M , A с подмножествами классов эквивалентности. Если есть n признаков и по каждому из них строится отношение эквивалентности ϕ i , то получаем n классификаций. Использовать одновременно n классификаций невозможно. Поэтому объединяют все n классификаций в одну одним из двух способов. 1. В один класс включают только те объекты, у которых совпадают все n ϕ i . Здесь ψ - отношение эквивапризнаки, т.е. ψ = ϕ 1 ∩ ϕ 2 ∩ ... ∩ ϕ n = ∩ i =1 лентности, так как пересечение эквивалентностей есть эквивалентность. 182 2. В один класс включают объекты, у которых совпадает хотя бы один n ϕ i . Получаемое отношение является отношением признак, т. е. ψ = ∪ i =1 сходства (толерантности). Иерархическая классификация получается в том случае, если на множестве объектов М определяется такое отношение древесного порядка (например, «род-вид»), когда каждый объект содержится в некотором минимальном (далее не членимом) таксоне, т.е. дерево непосредственных составляющих. Обычно рассматривается несколько отношений порядка: род-вид, часть-целое, причина-следствие, цель-средство и т.д. Каждому из них соответствует некоторая иерархическая классификация. Единую классификацию можно получить путем пересечения или объединения данных классификаций. Однако необходимо иметь в виду, что объединение отношений порядка, хотя и приводит к сокращению размерности классификации (числа таксонов), может дать в результате отношение, не являющееся порядком. На практике используются два типа классификационных ИПЯ. Первый тип - перечислительные классификации. В таких классификациях жесткая структура понятий языка определена заданием одного или нескольких отношений, устанавливающих взаимосвязь понятий и обеспечивающих попадание любого объекта в один единственный класс. Различают два вида перечислительных классификаций - иерархические и алфавитно- предметные (рубрикационные) классификации. Иерархические классификации получают заданием отношений древесного порядка (или совокупности таких отношений, пересечение или объединение которых позволяет получить удовлетворительную классификацию). Примерами таких классификаций являются: Десятичная классификация Дьюи, Классификация Библиотеки конгресса США, Универсальная десятичная классификация. 183 Алфавитно-предметные классификации получают заданием отношений алфавитного порядка на семействе множеств лексических единиц ИПЯ, определяемых предметными классами понятий. Примерами таких классификаций являются структуры различного рода каталогов и указателей. Второй тип систем классификаций - фасетные классификации. В этих классификациях существуют несколько жестких структур (фасетов), каждая из которых отображает один аспект отношений между словами ИПЯ. По сути дела, фасетная классификация есть набор нескольких иерархических классификаций, каждая из которых относится к одному аспекту рассмотрения объекта. Построению фасетных классификаций предшествует фасетный анализ, в результате которого вся лексика ИПЯ разбивается на поаспектные подмножества (фасеты). Посткоординированные ИПЯ - ИПЯ, словарный состав которых не связан грамматикой заранее и такая связь осуществляется в процессе индексирования и/или поиска. Выделяют три типа таких ИПЯ: дескрипторные ИПЯ; семантические коды (RX-коды, семантический код Перри-Кента) и синтагматические ИПЯ (например, СИНТОЛ). Фасетные ИПЯ можно рассматривать как пре-посткоординированные ИПЯ. Иногда выделяют ИПЯ: 1) классификационные (к ним относят иерархические и фасетные классификации); 2) рубрикационные (алфавитно-предметные классификации); 3) дескрипторные (все посткоординировапиые ИПЯ). По способу образования словарного состава различают: • ИПЯ с жестким словарем, задаваемым перечислением всех лексических единиц языка; • ИПЯ со свободным словарем, задаваемым перечислением определенной части лексических единиц и правилами образования новых лексических единиц, 184 • ИПЯ без словаря, в котором лексические единицы заранее не фиксируются, а задаются лишь правила их образования. Две первых группы ИПЯ - ИПЯ с контролируемой лексикой. ИПЯ без словаря - ИПЯ с неконтролируемой лексикой. По характеру словаря различают ИПЯ: • со словарем ключевых слов; • со словарем словосочетаний; • со словарем дескрипторов; • с тезаурусом. По наличию парадигматических отношений: • ИПЯ с базисными отношениями; • ИПЯ баз базисных отношений. Наиболее часто в ИПЯ используются парадигматические отношения типов «вид-род» и «часть-целое». По учету синтагматических отношений различают ИПЯ: • со слабой синтагматикой (вхождение слова в текст); • с неразвитой синтагматикой (учитываются указатели роли и связи); • с развитой синтагматикой (указатели роли и связи, позиционная грамматика и т.д.). Типология рассмотренных видов ИПЯ сведена в таблицу 5.1. Как видно из таблицы, могут быть построены следующие ИПЯ: 1. <1А, 1В, ЗС, 2Д, 2аЕ>- это дескрипторный ИПЯ (2аЕ) с неразвитой синтагматикой (2Д) с жестким словарем (1А) дескрипторов (ЗС) и с базисными отношениями (1В). 2. <ЗА, 2В, 1C, 1Д, 2аЕ- это дескрипторный ИПЯ со слабой синтагматикой, с отсутствием базисных отношений, словарь ключевых слов которого строится из слов ЕЯ по заданным правилам. Меняя комбинации индексов по строкам и столбцам, можно рассмотреть самые разнообразные ИПЯ. Однако следует помнить, что не по каждой комбинации можно построить ИПЯ. Например, не может быть ИПЯ «без 185 словаря с базисными отношениями» (<ЗА, 2В>), поскольку введение базисных отношений предполагает наличие словаря, в то же время могут существовать ИПЯ с жестким словарем, но без базисных отношений. Таблица 5.1 Классификация (типология) информационно поисковых языков По способу образования словарного состава А С жестким словарем (перечисление всех единиц лексики) 1 Со свободным словарем (перечисление части ЛЕ, образование из них остальных ЛЕ) 2 Без словаря (правила образования ЛЕ из слов ЕЯ) По наличию парадигматических отношений В С базисными отношениями По характеру словаря По учету синтагма-тических отношений D По характеру использования грамматических средств E Со словарем ключевых слов Со слабой синтагматикой (вхождение слова в текст) Со словарем словосочетаний С неразвитой синтагматикой (указатели роли и связи) Предкоординированные Иерархи- Алфавитческие ноклассипредметфикации ные классифи-кации Посткоодиниованные Без базисных отношений С Со словарем дескрипторов 3 С развитой синтагматикой (указатели роли и связи, позиционная грамматика и т.д.) Дескрипторные СеСинмантагтичемаские тичекоды ские Препосткоординированные 5.3.5 Дескрипторные ИПЯ В основе построения дескрипторных ИПЯ лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов, т.е. списком наиболее существенных для понимания текста назывных полно186 значных слов. Полнозначные слова - существительные, прилагательные, глаголы, наречия, числительные, местоимения. Неполнозначные слова предлоги, союзы, связки, частицы. Принцип чистого координатного индексирования и поиска состоит в индексировании документов и запросов списками ключевых слов, являющихся ПОДами и ПОЗами, и в последующем сравнении полученных списков. 5.3.6 Метод координатного индексирования и поиска Пусть задано универсальное множество ключевых слов T={d1,...,dm} и некоторое множество документов А = {a1,...,an}. Пусть далее ai = {d i1 ,..., d iα } = Ti = P(ai ) есть поисковый образ документа ai , т.е. существует такое отображение P: A→2T множества документов А в множество 2T, что ∀ai∈A, P(ai)={di1,…,diα}=Ti. Пусть A(Ti) - подмножество документов с ПОДом, равным Ti, т.е. P[A(Ti)]={di1,…,diα}=Ti, A(Ti)⊂A. Обозначим подмножество документов, содержащих di, через А(di). Если задано Ti={di1,…,diα}, то каждому dik соответствует А(dik). Тогда A(Ti)=∩А(dik), А(di)⊂A (рисунок 5.4). 187 T = {d1 ,..., d m } A = {a1 ,..., a n } P(ai ) = Ti ai A(Ti ) Od i P(Q) A(d i ) Рисунок 5.4 - Схема пересечения ПОД и ПОЗ Рассмотрим запрос Q, поисковый образ которого есть P(Q)={di1,…,diβ}, di∈Ti. Документ ai отвечает на запрос Q (ai релевантен Q), если |P(Q)∩P(ai)|≥K. Подмножество A(Ti) релевантно запросу Q, если |P(Q)∩P[A(Ti)]|≥K (рис. 5.4). В соответствии с принципом чистой координации документ ai выдается на запрос Q в том случае, если их поисковые образы имеют не менее К общих ключевых слов. При использовании чистой координации при поиске могут возникнуть следующие нежелательные ситуации: • ложная координации (в массиве, выданном на запрос, может быть документ, которые не отвечает запросу); • неполная координация (выдача документа, несоответствующего запросу); • синонимия ключевых слов (выдача отсутствует, хотя необходимо было выдать документ, содержащие синоним искомого термина); • полисемия (выдача ненужных документов); 188 • необозначенность родо-видовых (парадигматических) связей (выдача отсутствует, хотя необходимо было выдать документ, содержащие родо-видовую связь с искомым термином); • ложные синтагматические связи (выдача документа, не отвечающего запросу); • невыдача документов, близких по смыслу запросу (большое значение К). Для ликвидации указанных недостатков необходимы: • устранение синонимии, полисемии, омонимии; • учет парадигматических связей; • учет синтагматических связей. Первое достигается введением в ИПЯ лексикографического контроля. Парадигматические связи учитываются использованием специальных словарей-тезаурусов, логических операций «И», «ИЛИ», «НЕ» и весовых коэффициентов, а также других методов и приемов уточнения и расширения запросов. Синтагматические связи учитываются с помощью указателей роли и связи. 5.3.7 Состав и структура дескрипторных ИПЯ /55/ Основными элементами ДИПЯ являются: 1. Словарь лексических единиц (ЛЕ), обеспечивающий выделение определенных частей текста и их замену на коды лексических единиц. 2. Правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов (слов и словосочетаний - морфология; фраз, текстов в целом - синтаксис) с естественного языка на ИПЯ. 3. Правила построения и ведения ИПЯ, определяющие процедуру изменения и совершенствования ИПЯ, т.е. его словаря и правил применения. 189 Словари лексических единиц делятся на две группы: основные лексические словари, составляющие лексику ИПЯ, и морфологические словари, обеспечивающие морфологический анализ и нормализацию слов. В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы. Соответствующие им словари носят названия: «Словарь ключевых слов», «Словарь словосочетаний» и «Словарь дескрипторов». Под ключевым словом (КС) понимается полнозначное слово естественного языка, выражающее смысловое содержание фрагмента документа или запроса самостоятельно или в наборе с другими КС. Словосочетание - последовательность нескольких слов (обычно 2-5) естественного языка, выражающая основное смысловое содержание фрагмента документа или запроса. Словосочетание может использоваться и в роли ключевого слова. Обычно словарь КС включает и отдельные слова и словосочетания. Однако число словосочетаний в словаре КС мало по сравнению с числом отдельных слов. И наоборот, словарь словосочетаний в основном состоит из словосочетаний. Дескриптор - понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов, т.е. это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание. Словарь дескрипторов с заданными парадигматическими отношениями между его элементами носит название тезауруса. Тезаурус является основным типом словарей современных ИПС. Информационно поисковый тезаурус (ИПТ) по сути представляет собой нормативный словарь-справочник, в котором зафиксирована часть знаний человечества, относящихся к данной предметной области. ИПТ можно представить как мультиграф, узлы которого соответствуют понятиям предметной области, а дуги - существующим парадигматическим отношениям между ними. Наиболее важными парадигматическими отношениями ИПТ являются: 190 • соподчинение; • вид-род (род-вид); • часть-целое (целое-часть); • причина-следствие (следствие-причина); • функциональное сходство. Данные отношения выражаются в ИПТ четырьмя способами: • лексикографически, т. е. с помощью указательных помет, ссылок; • таблично (с помощью таблиц связи слов); • аналитически, т.е. с помощью шифров и кодов; • графически (с помощью деревьев, графов). Обобщенная структура ИПТ включает как минимум три составляющих: словарную часть, семантическую карту, руководство по использованию. Словарная часть - алфавитный список дескрипторов с их словарными статьями и ключевых слов. Словарная статья дескриптора di строится по схеме: di <Ti1, Ti2, Ti3, Ti4,…, Ti8>, где di - дескриптор, Ti1 - множество ключевых слов-синонимов d i , Ti2 - множество родовых по отношению к d i дескрипторов, т.е. де- скрипторов, связанных с di отношением род-вид; Ti3 - множество видовых по отношению к d i дескрипторов: Ti4,…, Ti8 - множества дескрипторов, связанных с di одним из отношений: целое-часть, часть–целое, причина-следствие, следствие-причина, функциональное сходство. Все указанные множества упорядочены по алфавиту. В конкретных тезаурусах некоторые из множеств Ti4-Ti8 или все они могут отсутствовать. Все множества могут быть одноэлементными или пустыми. 191 Семантическая карта – система тематических классов дескрипторов, представленная в виде графической схемы или таблицы. Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ. Для удобства использования основные лексические словари представляют различными способами. Каждая форма представления словарей порождает соответствующий вид словаря, ориентированный на определенные задачи его использования. Наиболее распространенными видами основных лексических словарей являются: Алфавитный словарь - словарь дескрипторов или ключевых слов, упорядоченных по алфавиту. Кодовый словарь - перечень лексических единиц, систематизированный по убыванию или возрастанию их кодов. Частотный словарь - словарь лексических единиц, упорядоченный по убыванию или возрастанию частоты их употребления в поисковом массиве. Пермутационный словарь - словарь словосочетаний, упорядоченный по алфавиту каждого слова словосочетания. Каждое словосочетание встречается в таком словаре столько раз, сколько слов оно включает. Словарь отрицаний - перечень лексических единиц, не рекомендуемых для индексирования и поиска. Гнездовой словарь - совокупность классов (гнезд) семантически связанных между собой дескрипторов или ключевых слов, упорядоченных по алфавиту дескрипторов, отображающих вершины классов. Иерархический словарь - совокупность имен классов условной эквивалентности лексических единиц, упорядоченная в соответствии с заданным на ней отношением порядка (род-вид, часть-целое и т.д.). Основное назначение морфологических словарей состоит в отождествлении различных форм одного и того же слова и выявлении соответствующей грамматической информации, которую несет данное слово независимо 192 от его окружения в тексте. Отождествление различных форм одного и того же слова проводится с целью их нормализации, т.е. приведения к единому написанию и морфологической форме (нормальному виду). Именно в таком виде слова после соответствующего кодирования используются при индексировании и поиске документов. Нормализация слов является необходимым процессом их индексирования. Грамматическая информация к слову необходима для его восстановления (декодирования) по его коду, представленному в терминах ИПЯ. Наиболее широкое распространение получили следующие морфологические словари: 1) основ слов; 2) окончаний слов; 3) суффиксов, префиксов, приставок, предлогов; 4) словоформ (словоформа - это последовательность букв между двумя соседними пробелами). Процедура нормализации слов и выявления соответствующей им грамматической информации может выполняться как с использованием морфологического анализа и синтеза, так и без них. В любом случае используются морфологические словари. В последнем случае необходимо иметь большое количество словарей, включающих все формы возможных словоупотреблений. Использование методов морфологического анализа позволяет сократить число используемых словарей, но за счет усложнения процедуры нормализации и выявления грамматической информации. Чем менее сложен алгоритм морфологического анализа, тем более сложны используемые им морфологические словари. Следует отметить, что нормализацию слов можно выполнить с помощью морфологических словарей минимальной сложности или вообще без них. Однако платой за такую простоту является невозможность получения грамматической информации или ее бедность. 193 5.3.8 Анализ информации и построение словарей Задача построения словарей состоит в следующем: по заданному классу текстов необходимо выбрать попарно-различимые лексические единицы (словоформы, основы слов, КС. дескрипторы и т.д.), определить их морфологические, синтаксические и семантические характеристики и расположить в заранее обусловленном порядке. Существуют три способа построения словарей: априорный, апостериорный, динамический. Априорный. Лексические единицы выделяются из различных терминологических источников (справочников, энциклопедий, словарей, классификаторов и т.д.) по заданной тематике. После отбора лексики проводят ее семантическую обработку и строят словари. Апостериорный. Лексика формируется из представительной выборки будущего фонда документов. Далее проводят ее семантическую обработку и строят словари. Динамический способ. Процессы накопления лексики, ее семантическая обработка и построение словарей совмещены с процессом эксплуатации ИПС. Первый способ принципиально невозможно автоматизировать. Он требует больших интеллектуальных затрат. Второй поддается автоматизации, однако требует много затрат на сбор представительной выборки документов. Третий способ является наиболее перспективным. Одно из его больших достоинств состоит в том, что все процессы построения словарей можно организовать в режиме диалоговой обратной связи с пользователями системы, повышая чем самым качество словарей. Принципы отбора лексических единиц. В настоящее время не существует методов построения оптимальных словарей. Наука и практика располагает лишь определенными принципами построения более или менее хороших словарей. Эти принципы базируются на свойствах слов и текстов естественного языка, таких как информативность слов, омонимия, синонимия и 194 полисемия слов и фраз; синтаксическая эквивалентность фраз; отношения между словами; изменение со временем значений слов; ненормализованность слов и т.д. При построении словарей приходится решать три основные проблемы: 1. Какие слова включать в словарь? 2. Какие учесть типы отношений? 3. Какова должна быть детальность словаря? Решение первой проблемы в основном базируется на учете синонимии, омонимии, полисемии, а также информативности слов, косвенным показателем которой является частота их встречаемости в текстах. Лингвистические исследования показывают, что распределение слов по их частоте вхождения в текст для достаточно больших текстов заданного тематического профиля подчиняется закону, близкому к гиперболическому. Высокочастотной части этого распределения соответствуют «общие» слова, не несущие существенной смысловой нагрузки в текстах данной совокупности. Низкочастотной части распределения соответствуют новые специфические термины, не нашедшие распространения в текстах совокупности. С учетом сказанного принципы отбора слов при решении первой проблемы состоят в следующем: • не включать в словари редких терминов; • исключать общие понятия с высокой частотой встречаемости; • в каждый класс понятий вводить слова только с одинаковой частотой встречаемости; • использовать только устойчивые слова и словосочетания; • исключать незначащие (в пределах данных текстов) слова, тщательно их проанализировав; • неоднозначные термины применять в том значении, которое они имеют в данном массиве. Типы парадигматических и синтагматических отношений, используемых в ИПЯ, определяют его смысловыразительную способность, которая 195 возрастает с увеличением числа и усложнением типов учитываемых отношений. Основные принципы, которыми необходимо руководствоваться при выборе таких отношений: • затраты на разработку, ведение и использование словарей не должны превышать эффекта от их применения; • выбор типов отношений зависит от предполагаемых целей и областей использования ИПЯ и определяется необходимой полнотой и точностью поиска информации; • перед переходом к учету синтагматических отношений необходимо исчерпать возможности парадигматики. Это связано с тем, что парадигматика позволяет найти область решений, а синтагматика - конкретное решение. Степень детализации словаря определяет полноту и точность поиска. Широко употребляемые термины дают большую полноту, но низкую точность поиска. При выборе степени детализации словарей необходимо учитывать заданные ограничения на желаемую полноту и точность поиска, а также иметь иерархию словарей и использовать их различные уровни при поиске информации по разным запросам. Одной из актуальных задач информационно-поисковых систем является поиск аналогов. Сложность этой проблемы заключается в том, что по поисковому образу запроса, выраженному в терминах одной области знаний или отрасли техники, необходимо найти документ-аналог, поисковый образ которого выражен в терминах другой области знаний. Возникает межязыковой барьер совместимости профессиональных языков. Один из путей преодоления такого барьера состоит в фасетном принципе организации словарей, т.е. в построении одноименных фасет в словарях всех областей знаний и метафасет или трансляторов для перевода терминов одной области знаний в термины другой области знаний в пределах заданного фасета. Другой путь 196 решения той же проблемы состоит в построении иерархического комплекса словарей, охватывающего все области знаний. 5.3.9 Количественные характеристики словарей Эффективность информационного поиска в значительной мере определяется уровнем качества словарей информационно-поискового языка ЛИПС. Качество словарей можно характеризовать различными показателями. Наиболее часто для этой цели используются следующие: • - количество типов словарей; • - число лексических единиц словарей; • - полнота словаря; • - коэффициент отображения лексики поискового массива; • - коэффициент динамики роста словаря; • - средняя длина лексической единицы словаря; • - среднее число символов в лексической единице словаря; • - коэффициент динамики роста словаря; • - ранговое распределение лексических единиц словаря. Полнота словаря Рассмотрим ИПЯ конкретной АИПС, обслуживающей заданную предметную область. NI - общее число понятий данной предметной области, которые могут быть построены из лексических единиц ИПЯ (NИПЯ) по правилам их образования в данном ИПЯ. Тогда коэффициент полноты словаря можно определить отношением NИПЯ к NI. ПС = NI ,0 ≤ П С ≤ 1 . N ИПЯ На практике используют: П С1 = где NC ,0 ≤ П С1 ≤ 1 , NO NO - количество лексических единиц словаря, по которым должен про- водиться поиск (определяется по общему количеству несовпадающих лекси197 ческих единиц массива запросов), NC - количество лексических единиц в словаре. Эти показатели особенно важны при динамическом построении словарей. Коэффициент отображения лексики поискового массива. Данный коэффициент определяется: KM = где ND , NC ND - количество дескрипторов в словаре. Распределение лексических единиц по длине словосочетаний Средняя длина словосочетаний, используемых в ИПЯ в качестве лек- сических единиц (ЛЕ), характеризует степень прекоординации ИПЯ, и, тем самым, является важной характеристикой смысловыразитсльной способности ИПЯ. Для характеристики ИПЯ с этой точки зрения используют распределение длин словосочетаний Fg = F ( g1 , g 2 ,..., g m ), g l = где Kl m Kl - количество лексических единиц, содержащих l слов; m -максимальная длина словосочетания в ИПЯ (в числе слов). Средняя длина ЛЕ m m g ср = ∑ lg l l =1 m ∑g l =1 l = ∑ lK l =1 m ∑K l =1 l l Распределение ЛЕ по количеству символов Длину лексических единиц ИПЯ можно характеризовать распределением FC=F(C1,C2,…,Ci,…,Cn), Ci=Bi/n, где Bi - количество ЛЕ, содержащих i символов, n - максимальное число символов в ЛЕ. Среднее число символов в лексической единице 198 C C ср = ∑ iBi i =1 C ∑B i =1 i Динамика роста словаря характеризуется коэффициентом Kd = Sd / D где Sd - количество ЛЕ, введенных в словарь в процессе обработки D документов. Ранговое распределение слов Пусть V={x} - словарь ИПС. Обозначим F(x) - частоту встречаемости слова х во всех текстах массива. Перенумеруем словарь так, чтобы частота слова F(x) была невозрастающей функцией его номера, т.е. если V={x1,x2,…,xm}, то F(x1)≥F(x2)≥F(xm). Назовем функцию Ф(n)=F(xn) ранговым распределением слов Ф(n)={F(x1),…,F(xn)}={f1,…fn}. Показано, что частота слова n-го ранга fn связана с частотой слова 1-го ранга следующей зависимостью: fn = где f1 , nγ n - ранг слова, γ - число, определяемое экспериментально. 5.4 Системы индексирования Индексирование - процесс перевода текстов естественного языка на ИПЯ. Индексирование базируется на совокупности инструкций, детально описывающих процесс индексирования и представляющих собой комплекс правил, включающих и правила применения ИПЯ. Система индексирования (СИ) - совокупность методов и средств перевода текстов с ЕЯ на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ. Помимо правил применения ИПЯ, система индексирования может включать большое разнообразие инструкций, положений, методов и т. д., регламентирующих те или иные 199 этапы процесса индексирования. Существующие системы индексирования сильно отличаются друг от друга, и описать их общий состав и структуру не представляется возможным. Однако наличие общих признаков позволяет дать системное представление о классах систем индексирования. 5.4.1 Типы систем индексирования Рассмотрим технологию систем индексирования по пяти наиболее важным основаниям /122/. 1. По степени автоматизации процесса индексирования можно различать системы: а) ручного индексирования; б) автоматического индексирования; в) автоматизированного индексирования. Наиболее широко распространены автоматизированные СИ. 2. По степени контролируемости различают СИ: а) без словаря (может быть факультативное использование словарей); б) с жестким словарем; в) со свободным словарем. Данное разбиение СИ определяется типом используемого ИПЯ. 3. По характеру алгоритма отбора слов текста могут быть СИ: а) с последовательным просмотром текста; б) с эвристическими процедурами выбора слов текста; в) со статистическими процедурами выбора слов. В случае (а) отбираются все полнозначные слова, в случае (в) -только информативные слова в соответствии с распределением частот их употребления, в случае (б) слова отбираются интуитивно или по заданной процедуре. 4. По характеру лексикографического контроля существуют системы: а) без лексикографического контроля; б) с полным контролем; 200 в) с промежуточным контролем. Лексикографический контроль предусматривает: - устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними; - приведение всех слов к нормальному виду на основе морфологических нормативных словарей. В системах с полным контролем реализуются обе функции лексикографического контроля. В СИ с промежуточным контролем эти функции реализуются частично. 5. По характеру морфологического анализа слов различают СИ с морфологическим анализом с использованием: а) морфологических словарей; б) основных лексических словарей; в) морфологического анализа с усечением слов. Возможны системы индексирования без морфологического анализа. 5.4.2 Примеры систем индексирования /122/ Системы свободного индексирования. Процесс индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Такие слова он может брать из своей памяти, любых словарей, энциклопедий, вообще любых текстов. Отобранный список слов является поисковым образом текста. Системы полусвободного индексирования. В данном случае процесс индексирования аналогичен вышеописанному, но слова сформированного списка сравниваются со словарем, несовпадающие слова отбрасываются и в ПОД не включаются. 201 Системы жесткого индексирования. При этом слова выписываются только из текста. В ПОД включаются только те слова, которые есть в словаре. Перед включением термина в словарь проводится его морфологическая нормализация на основе основных лексических словарей. Системы статистического автокодирования. Слова выбираются из текста по заданным статистическим процедурам, после чего проводится их статистическое кодирование путем усечения слов по алгоритмам позиционной статистики. Существует большое разнообразие других СИ. 5.4.3 Морфологический анализ и нормализация понятий Основные этапы процесса индексирования состоят в выборе понятий текста, отражающих его основное смысловое содержание, в морфологическом анализе и лексиграфическом контроле отобранных понятий и их кодировании. Процедура отбора информативных понятий текста аналогична процессам выбора понятий при построении словарей основных лексических единиц. Рассмотрим суть процедур морфологического анализа, лексиграфичсского контроля и кодирования понятий при использовании различных видов словарей. Процедура морфологического анализа по морфологическим словарям состоит: 1) в определении обобщенного грамматического класса слова и его членении на основу и окончание (по словарям основ и окончаний); 2) в идентификации рода существительных (по основам слов); 3) в выявлении номера флексивного класса слов (по обобщенному грамматическому классу, признаку рода, окончанию, конечным буквосочетаниям основы); 4) в определении номера набора грамматической информации к слову. 202 Результатом такого анализа является нормализованное слово и номер набора его грамматической информации. Кодирование нормализованных слов осуществляется путем их замены буквенными кодами или кодами слов. В мерном случае оно состоит в замене каждой буквы слова соответствующим кодом данной буквы (по словарю кодов букв). Во втором случае - в отождествлении слов по словарю лексических единиц и замене их номерами или кодами словаря. Декодирование слов, осуществляемое при выдаче результатов поиска, состоит в формировании буквенного кода слова (а затем и самого слова) по номеру или коду eго нормализованной части и по номеру соответствующей грамматической информации. При использовании словосочетаний процедура морфологического анализа существенно усложняется: 1. Отождествление слов словосочетания с элементами словаря слов. Замена их номерами по словарю. Сопровождение грамматической информацией. 2. Выявление грамматической структуры словосочетания в целом синтаксический анализ (по грамматической информации слов словосочетания). 3. Поиск по словарю номера словосочетания, соответствующего данному сочетанию номеров слов и грамматической структуре кодируемого словосочетания. 4. Выбор из словаря по номеру словосочетания соответствующего ему номера грамматической структуры и самой структуры. Сравнение выбранной грамматической структуры с грамматической структурой кодируемого словосочетания, полученной на втором этапе. Если структуры совпадают, то понятия тождественны. Анализируемое словосочетание заменяется соответствующим ему номером или кодом. Два последних этапа являются этапами семантического анализа. Декодирование словосочетаний представляет собой: 203 1. Выбор из словаря по номеру словосочетания соответствующего ему набора номеров слов и номера грамматической структуры. 2. Извлечение информации о формах слов и их связях, восстановление порядка слов в словосочетании (по грамматической структуре). 3. Формирование буквенного кода словосочетания и самого словосочетания. Морфологический анализ по словарям основных лексических единиц включает два этапа: сравнение слова со словарем (идентификация и определение номера совпадающего понятия), выявление номера набора грамматической информации понятия. Кодирование понятий осуществляется буквенным кодом или кодами понятий (по словарю). В современных ИПС широко применяется морфологический анализ путем усечения слов. При этом используются различные процедуры усечения: а) с использованием словарей (основ, окончаний и т.д.); б) без использования словарей (по простейшим априори заданным правилам); в) статическое усечение слов с использованием аппарата позиционной статистики. В случае а) процедуры морфологического анализа, кодирования и декодирования те же, что и при использовании морфологических словарей. В случае б) начала и/или окончания слон усекаются по определенным правилам. Усеченные части слов кодируются буквенными кодами. Декодирование отсутствует. В случае в) при усечении слов используется аппарат и словари позиционной статистики. Слова кодируются буквенными кодами, а декодирование тоже отсутствует. При усечении слов проводится только их нормализация и неморфологический анализ. Однако в целях единства описания систем индексирования и здесь целесообразно говорить о морфологическом анализе, имея в виду самою низшую (нулевую) степень такого анализа. 204 5.5 Поисковый аппарат АИПС /123/ Технология функционирования АИПС состоит в переводе сообщений (документов, текстов) и информационных запросов на ИПЯ (формировании поисковых образов документов и запросов), сравнение ПОЗов и ПОДов и выдачи пользователям АИПС сообщений, отвечающих их информационным потребностям. При переводе сообщений на ИПЯ возможны различные подходы: • полный перевод сообщения на ИПЯ; • частичный перевод сообщения на ИПЯ (перевод па ИПЯ только отдельного элемента сообщения, например, его названия или реферата); • полный отказ от перевода на ИПЯ и использование в процессе поиска оригинального сообщения или его составляющих (текста, аннотации, заглавия, реферата и т.д.). Перевод запросов на ИПЯ тоже может быть выполнен в различных вариантах: • перевод всего информационного запроса на ИПЯ и формирование единого ПОЗа; • перевод отдельных составляющих на ИПЯ и формирование поисковых образов подзапросов. Поисковое предписание (ПП), т. е. задание АИПС на поиск информации тоже может быть сформулировано по-разному: • формулировка единого ПП, соответствующего единому ПОЗу; • формулировка нескольких ПП, соответствующих подзапросам. Причем в несколько ПП может быть развернуто и единое ПП. Процедура сравнения ПОЗов (или ПП) и ПОДов и принятия решений о выдаче или невыдаче пользователям АИПС тех или иных сообщений тоже характеризуются большим многообразием. Такое многообразие определятся многими факторами и, прежде всего, возможностями использования при 205 формировании ПП логических операций И, ИЛИ, НЕ и различных критериев выдачи. Организация и используемые методы и средства реализации процессов индексирования документов и запросов и проведения собственно поиска оказывают основополагающее влияние на эффективность поиска и, соответственно, эффективность АИПС. Совокупность методов и средств реализации процесса поиска информации в автоматизированных ИПС назовем аппаратом поиска или поисковым аппаратом. Поисковый аппарат АИПС включает: • математический аппарат формализованного представления и поиска информации; • методы и средства структурирования информационных запросов; • критерии выдачи (смыслового соответствия) информации; • стратегии поиска и организации массивов. 5.5.1 Математический аппарат формализованного представления и поиска информации Функционирование АИПС предполагает наличие аппарата формализованного представления и сравнения информационных сообщений и запросов, т.е. средств описания как сообщений и запросов, так и самою процесса поиска. Существующие в настоящее время средства представления и обработки информации базируются на принципах координатного индексирования и поиска в сочетании с использованием аппарата теории нечетких множеств. Тем самым предполагается, что: 1) основное смысловое содержание документов и запросов может быть выражено «взвешанным» набором лексических единиц (дескрипторов, ключевых слов, словосочетаний, рубрик, атомарных понятий и т.д.) ИПЯ, т.е. нечетким множеством; 206 2) операции поиска информации, так же. как и любые иные операции преобразования потоков, массивов, баз данных и т.д., могут быть представлены в терминах нечетких отношений. Рассмотрим основные элементы теории нечетких множеств и отношений. Пусть Т - совокупность элементов (объектов, признаков, точек). Нечеткое множество а - совокупность элементов из Т, для каждого из которых задана степень принадлежности данному множеству а. Более строго, нечеткое множество а есть совокупность упорядоченных пар <t,µa(t)>, т.е. a={<t,µa(t)>}, t∈T, где µa(t) - мера принадлежности t к а. Обычно полагают, что µa(t) лежит в интервале [0, 1]. Причем, если µa(t)=0, то t не принадлежит а, если µa(t)=1, то t полностью принадлежит а. Если µa(t) принимает только два значения - 0 или 1, то а - обычное (четкое) множество a={t|µa(t)=1}. С этой точки зрения понятие «множество» является частным случаем понятия «нечеткого множества». Рассмотрим основные операции над нечеткими множествами. Если Suptµa(t)=1, то нечеткое множество а - нормально, в противном случае а субнормально. Любое субнормальное множество а можно нормализовать делением всех µa(t) на Suptµa(t). Дополнением к a является нечеткое множество a′, для которого µa′ = 1 µa Пересечение нечетких множеств a и b (a∩b) определяется как нечеткое множество с, состоящее из элементов, содержащихся как в a, так и в b одновременно с функцией принадлежности µa∩b(t)=min[µa(t),µb(t)], t∈T, c={<t,µa∩b(t)>}=a∩b. Объединение нечетких множеств a и b (a∪b) определяется как нечеткое множество, состоящее из элементов, содержащихся в b или в а, или в b и в а одновременно с функцией принадлежности 207 µa∪b(t)=max[µa(t),µb(t)], t∈T, c={<t,µa∪b(t)>}=a∪b. Очевидно, что если µa(t) и µb(t) принимают только два значения (0 или 1), то рассмотренные операции являются операциями обычных (четких) множеств. Алгебраическое произведение нечетких множеств а и b (ab) есть нечеткое множество с функцией принадлежности µab(t)=µa(t)µb(t), t∈T, c={<t,µab(t)>}. Алгебраическая сумма a и b (a⊕b) есть нечеткое множество с функцией принадлежности µa⊕b(t)=µa(t)+µb(t)-µa(t)µb(t), t∈T. Приведенные операции объединения и пересечения ассоциативны и дистрибутивны по отношению друг к другу. Операция алгебраического произведения и суммы ассоциативны, но не дистрибутивны друг к другу. Два нечетких множества а и b равны между собой (а=b), если µa(t)=µb(t) для всех t∈T. Если для всех t∈T µa(t)≤µb(t), то а содержится в b. В частном случае, если µR(a,b) принимает только два значения - 0 или 1 для всех пар (a,b), то R - отношение с упорядоченными парами <a,b>∈R. Системами нечетких множеств А, по аналогии с системами четких множеств, будем называть такие нечеткие множества, элементы которых сами являются нечеткими множествами: A = { a, µa (a ) }, a ∈ a, a = {ai }, i = 1,..., M . Декартовым (прямым) произведением систем нечетких множеств А и В A={<a, µa(a)>}, B={<b, µb(b)>}, будем называть множество пар исходных множеств C={<a, µa(a)>,<b, µb(b)>}=A×B. Нечеткое множество R на прямом произведении множеств A×B есть нечеткое множество R с функцией принадлежности µR(a,b), являющейся характеристикой меры принадлежности пары (a,b) к R, т. е. R={<(a,b),µR(a,b)>}. 208 Приведенный аппарат нечетких множеств является основой формализованного представления документов, запросов, баз данных и процессов информационного поиска. Словарем информационной среды назовем множество лексических единиц T={ti}, i=1,…N, достаточное для описания всех информационных объектов (документов, сообщений, запросов, баз данных и т.д.) и процессов (поиска, распределения БД и т.д.) информационной среды. Словарь Т, также как и тезаурус, является моделью коллективных знаний и может быть использован для описания различных информационных объектов. Используя аппарат нечетких множеств любое информационное сообщение (документ, запрос) может быть представлено нечетким множеством, т.е. множеством лексических единиц с мерами их принадлежности данному сообщению: сообщение Lδ - нечеткое множество Lδ={<t, µLδ(t)>}, t∈T, µLδ(t) мера принадлежности t к Lδ. Элементарным информационным профилем будем называть некоторое нечеткое множество a={<t,µa(t)>}, t∈T, где µa(t) - мера принадлежности t к А. Профилю а могут быть поставлены в соответствие такие объекты как профиль издательства, библиотеки, поисковый образ документа или запроса, тематическая рубрика некоего рубрикатора, профиль информационной потребности и т.д. Будем говорить, что сообщение Lδ релевантно профилю а и обозначать этот факт: Lδ Rα a, если выполняется условие µ(a,Lδ)≥α, где Lδ={<t, µLδ(t)>}, t∈T, µ(a,Lδ) - мера релевантности (семантической близости) Lδ к а, rα=rα[µ(a,Lδ)≥α] - критерий релевантности Lδ информационному профилю а, α - пороговое значение критерия релевантности. 209 Будем говорить, что на прямом произведении нечетких множеств A×L, A={<a, µA(a)>} L={<Lδ, µL(Lδ)>} установлено отношение нечеткой релевантности, если оно порождает систему нечетких множеств R с элементами c=<(a,Lδ), µR(a,Lδ)>, т.е. R=<(a,Lδ), µR(a,Lδ)>, где µR(a,Lδ) - мера релевантности А и Lδ. Отношение Rα, заданное на прямом произведении систем нечетких множеств L×А мерой релевантности µR(a,Lδ) и пороговым значением α={αi}, i=1,…M назовем отношением релевантности: Rα={<(Lδ,ai)|µδ(Lδ,ai)≥αi>}. Выражение rα i = rα i [µ R ( Lδ , ai ) ≥ α i ], i = 1,..., M представляет собой критерий релевантности сообщений Lδ информационному профилю αi и разбивает совокупность сообщений L по отношению к ai на подмножество релевантных ( Lδ Rα i ai ) и нерелевантных сообщений, переводя тем самым отношение нечеткой релевантности R в отношение релевантности (отношение Rα можно рассматривать как α - уровень отношения R). Отношения релевантности и нечеткой релевантности лежат в основе поискового аппарата АИПС. Именно на них базируются все процессы индексирования и поиска информации. Однако АИПС, построенные только на основе введенных формальных отношений релевантности не могут обладать высокой эффективностью в силу того, что их ИПЯ не учитывает парадигматических и синтагматических отношений. В связи с этим в реальных АИПС существует большое многообразие средств и методов формализованного представления (в общем случае структурирования) информационных запросов, критериев релевантности, методов и стратегий поиска информации. 210 5.5.2 Методы и средства структурирования информационных запросов В основе формирования поисковых образов документов и запросов, предписаний на поиск информации лежат базисные (парадигматические) отношения между понятиями. Такие отношения, отображая действительно существующие и независимые от контекста взаимоотношения между предметами и явлениями, позволяют на основе содержательного анализа сообщений и запросов, дополнять их поисковые образы терминами, отсутствующими в индексируемых текстах и более точно отображающих смысловое содержание индексируемых текстов. Информация о базисных отношениях понятий содержится в информационно-поисковом тезаурусе (ИПТ) АИПС, который и является основой формирования поисковых образов запросов. Процесс формирования ПОЗа включает следующие этапы: • выявление информационной потребности и формулировка информационного запроса на естественном языке; • выявление значимых терминов запроса; • перевод значимых терминов на ИПЯ; • формирование поискового образа запроса. При выявлении значимых терминов запроса могут использоваться как основная, так и внешняя информация, которую можно извлечь из аналогичных запросов, релевантных документов, тезаурусов, специальной литературы. Перевод значимых терминов на ИПЯ заключается в замене ключевых слов и словосочетаний (значимых терминов) дескрипторами информационно-поискового тезауруса. При этом могут использоваться любые парадигматические отношения в ИПТ. Использование базисных отношений позволяет уточнить или, наоборот, расширить запрос. Для расширения запросов используют дескрипторы более высоких уровней иерархии отношений род - вид и целое - часть 211 (иерархических отношений). Для уточнения запроса, наоборот, используют дескрипторы низших иерархических уровней тезауруса. АИПС без словарей (с неконтролируемой лексикой) не требуют перевода значимых терминов в дескрипторы ИПЯ. Здесь лексическими единицами ПОЗа являются сами значащие термины, т. е. ключевые слова и словосочетания. Формирование ПОЗа. Задача состоит в том, чтобы сформировать ПОЗ в такой логико-семантической записи, смысловое содержание которой как можно ближе соответствует смысловому содержанию запроса. Простейшая форма такой записи, в соответствии с рассмотренным ранее аппаратом нечетких множеств, - представление ПОЗа четким или нечетким множеством, выявленным на предыдущем этапе лексических единиц (дескрипторов, ключевых слов или словосочетаний): ПОЗ={<t, µa(t)>} или ПОЗ={<t|µa(t)=1>}, t∈T, где { t }… - упорядоченные по алфавиту дескрипторы, ключевые слова/словосочетания, выражающие смысловое содержание запроса. Парадигматические отношения в такой записи ПОЗа в явном виде отсутствуют. Синтагматические отношения выражаются лишь наличием или отсутствием в ПОЗе тех или иных лексических единиц. Для более полного учета парадигматики и сингматики информационного запроса при формировании ПОЗа используют аппарат булевой логики. В этом случае ПОЗ представляется некоторым логическим выражением, например: ПОЗ=[(t1∧…∧tk)∨…∨ (tj∧…∧tl)]∧…∧[(tm∧…∧tn)∨(tp∧…∧tr)∨¬(tα∧…∧tβ)] Здесь ∧,∨,¬ - операторы булевой логики И (AND), ИЛИ (OR), НЕ (NOT). Такая форма записи ПОЗа повышает степень адекватности смыслового содержания ПОЗа информационному запросу, но существенно усложняет как процесс формирования ПОЗа, так и процесс диалогового поиска. Для упрощения этих процессов информационный запрос расчленяет на подзапросы, а ПОЗ, соответственно, на поисковые образы подзапросов (ПОПЗ). При этом 212 подзапросы формулируют таким образом, чтобы соответствующие им поисковые образы имели простую логическую структуру и могли быть сформированы с использованием только одного или двух логических операторов И, ИЛИ, НЕ. Например, если в предыдущем примере расчленить запрос на такие подзапросы, каждому из которых соответствует одно из логических выражений, представленных в круглых скобках приведенного ранее ПОЗа, то поисковый образ запроса будет представлен выражением: ПОЗ=[ПОПЗk∨…∨ПОПЗl)]∧…∧[ПОПЗn)∨ПОПЗr∨¬ПОПЗβ] Поиск по сложным булевым выражениям требует много времени. Для ускорения процесса поиска сложное логическое выражение путем разбивки па подзапросы можно существенно упростить. Более того, можно показать, что поиск по определенным группам логических выражений можно свести к поиску по простому множеству лексических единиц, если каждой из ЛЕ присвоить определенный вес и проводить поиск с учетом весов ЛЕ, т. е. проводить поиск в соответствии с моделью нечетких множеств. Такой поиск носит название весового поиска или поиска но весовой логике. Существуют таблицы перехода от булевых форм ПОЗов к простым ПОЗам, выраженным в терминах нечетких множеств, когда ПОЗ представляется набором лексических единиц с их весовыми коэффициентами (весами), указывающими вес данной ЛЕ в данном ПОЗе. В качестве ЛЕ ПОЗа могут выступать и поисковые образы подзапросов. Это позволяет любое сложное логическое выражение свести к совокупности ПОЗов, выраженных в терминах нечетких множеств: сложное выражение ПОЗа разбивается на поисковые образы подзапросов, каждый из подзапросов переводится в нечеткое множество с элементами - поисковыми образами подзапросов. Сформированное нечеткое множество является поисковым образом запроса в целом. Мощным средством повышения семантической силы ИПЯ за счет учета синтагматики информационного запроса является использование отношения непосредственного следования лексической единицы А за лексической 213 единицей В. Указание в ПОЗе порядка следования ЛЕ в искомых текстах позволяет повысить точность поиска за счет усиления предкоординации ИПЯ. Отношение непосредственного следования отражается в ПОЗах соответствующим оператором. В англоязычных ИПС обычно используют оператор ADJ или adj. Запись ПОЗа в виде BadjA означает, что в ответ на запрос будут выданы только документы, тексты или ПОДы которых содержат термин А непосредственно следующий за термином В. Не менее важным средством повышения качества поиска является «усечение» лексических единиц ПОЗа, т. е. отбрасывание заданного числа первых и/или последних символов (знаков) лексической единицы ПОЗа. Такое усечение позволяет игнорировать при поиске многообразие приставок и/или окончаний слов и тем самым повысить эффективность поиска искомых текстов, точность поиска за счет усиления предкоординации ИПЯ. Отношение непосредственного следования отражается в ПОЗах соответствующим оператором. В англоязычных ИПС обычно используют оператор ADJ или adj. Запись ПОЗа в виде BadjA означает, что в ответ на запрос будут выданы только документы, тексты или ПОДы которых содержат термин А, непосредственно следующий за термином В. Не менее важным средством повышения качества поиска является «усечение» лексических единиц ПОЗа, т. е. отбрасывание заданного числа первых и/или последних символов (знаков) лексической единицы ПОЗа. Такое усечение позволяет игнорировать при поиске многообразие приставок и/или окончаний слов и тем самым повысить эффективность поиска. 5.5.3 Критерий релевантности Формированием поискового образа запроса и переводом его в машиночитаемую форму заканчивается один из важнейших этапов процесса поиска информации - этап предмашинной обработки запроса. Следующий этап непосредственно процесс автоматизированного поиска информации, состоящий в сравнении ПОДов сообщений (документов) базы данных АИПС с за214 данным поисковым образом запроса (или их совокупности) с целью выборки документов (сообщений), релевантных информационному запросу. Критерий, позволяющий принять решение о релевантности сообщения информационному запросу, носит названия критерия релевантности (КР) или критерия смыслового соответствия (КСС), или критерия выдачи (KB). Различают два понятия релевантности - релевантность и формальную релевантность. Понятие релевантности связано со смысловым соответствием сообщения (документа) тексту информационного запроса на естественном языке. Релевантность сообщения запросу в таком понимании может оценить только человек. Критерий, которым он при этом пользуется при принятии решения о релевантности, сформулировать невозможно. Формальная релевантность - соответствие ПОДа ПОЗу. Поскольку ПОД и ПОЗ представляют собой формализованные структуры, оценку такой релевантности может дать компьютер. Однако для этого необходимо задать ему формальное выражение критерия релевантности. При переводе информационной потребности в информационный запрос, а запрос в ПОЗ, как при переводе сообщения в ПОД, возникают определенные семантические искажения. В связи с этим формальная релевантность весьма существенно отличается от действительной релевантности. Документ, признанный системой формально релевантным, может не оказаться таковым с точки зрения потребителя. Однако, альтернативы нет, АИПС может пользоваться только понятием формальной релевантности. Задача только в том, чтобы сформулировать такой критерий формальной релевантности, который бы как можно лучше различал релевантные сообщения от нерелевантных. В дальнейшем под терминами КР, КВ и КСС мы будем понимать критерии формальной релевантности. Критерий релевантности /123/- совокупность процедур (правил) определения смыслового соответствия ПОДа ПОЗу. 215 Для задания критерия релевантности в простейшем случае достаточно задать процедуру вычисления меры семантической близости ПОДа ПОЗу и некоторое пороговое значение этой меры, такое, что если эта мера, вычисленная для конкретных ПОДа и ПОЗа превышает заданное пороговое значение, то документ признается релевантным запросу (и наоборот). Исходя из того, что в большинстве реальных АИПС поисковые образы запросов (подзапросов) и документов представляются четкими или нечеткими множествами лексических единиц, мера релевантности может быть задана как мера близости нечетких множеств. Мерой релевантности µR(a,b) (соответствия или нечеткого равенства) двух нечетких множеств a и b будем считать неотрицательную вещественную функцию такую, что: 1) µR(a,b)=0, если а и b не пересекаются; 2) µR(a,b)=µR(b,a); 3) µR(a,b)=0 зависит от нормы семантических векторов множеств a и b нормы семантического вектора их пересечения или произведения (могут использоваться любые нормы векторов, удовлетворяющие предъявленным к нормам требованиям). Под семантическим вектором µa нечеткого множества a={<t,µa(t)>} здесь понимается вектор µa=[µa(t1),µa(t2),…,µa(tN)]. Следовательно µa(a,b) есть функция от |µa|,|µb|,|µa∩b|,|µab|, т.е. µR(a,b)=f(|µa|,|µb|,|µa∩b|,|µab|). Под множеством а здесь и далее можно понимать ПОД, под множеством b - ПОЗ, или наоборот. Мера симметрична. Сформулируем некоторые меры релевантное нечетких множеств, используя различные виды норм и функциональных зависимостей. 1. В качестве скалярной свертки вектора µR(a,b) используем октаэдрическую норму, а функциональную зависимость зададим в виде f=|µab|. Тогда имеем меру: 216 N µ (a, b ) = ∑ µ a (t )µb (t ) 1 R i =1 Если a и b – четкие множества, то µ1R(a,b) - векторное произведение векторов a и b. Пример: a = (1, 1, 1, 0, 1, 0, 1, 1), b = (1, 1, 1, 1, 0, 1, 0, 0), µ1R(a,b)=3. a = (0,3; 0,4; 1,0; 0,8), b = (0,8; 0,0; 0,3; 0,4), µ1R(a,b)=0,86. Неудобство данной меры в том, что она не нормирована. 2. В качестве скалярной свертки векторов µa и µb используем евклидову норму, скалярной свертки векторов µa∩b и µab - октаэдрическую норму, а функциональную зависимость зададим в виде: f = | µ ab | | µa ∩b | f = . | µ a || µb | , | µ a || µb | Тогда имеем две меры: N µ (a, b ) = 2 R ∑ µ (t )µ (t ) i =1 a i b N N i =1 i =1 i ∑[µa (ti )]2 ∑[µb (ti )]2 N µ (a, b ) = 3 R ∑ min[µ (t )µ (t )] a i =1 N i b i N ∑[µ (t )] ∑[µ (t )] i =1 a i 2 i =1 b i 2 . В предыдущем примере имеем: для случая четких аиb µ2R(a,b)=0,54, для нечетких a и b µ2R(a,b)=0,66, где µ2R(a,b) - нормировочная мера, 0≤µR(a,b)≤1. В теории ИПС эта мера релевантности получила название косинусной меры. 3. В качестве скалярной свертки всех векторов используем октаэдричсскую норму, а функцию зададим в виде: 217 f = | µ ab | . | µ a | + | µb | − | µ ab | В этом случае: N µ (a, b ) = 4 R ∑ µ (t )µ (t ) i =1 N N a i b i N ∑ µ (t ) + ∑ µ (t ) − ∑ µ (t )µ (t ) i =1 a i i =1 b i i =1 a i b . i Для случая четких а и b предыдущего примера µ4R(a,b)=0,37. Для нечетких а и b µ4R(a,b)=0,27. Для четких множеств µ4R(a,b) является нормированной мерой (0≤µ4R(a,b)≤1) и носит название меры Танимото. Для случая нечетких а и b указать диапазон изменения данной меры затруднительно. В соответствии с данным определением меры релевантности можно построить достаточно большое число различных мер. Все они определены в многомерном пространстве при любых координатах векторов нечетких множеств и обладают свойствами непрерывности, однозначности и ограниченности. Минимум, равный нулю, соответствует отсутствию пересечения множеств (четких или нечетких), максимум - их совпадению (идентичности). Максимум некоторых из рассматриваемых мер равен единице, что является весьма важным. Такие меры называют нормированными, в отличие от ненормированных мер, максимум которых не равен единице. Критерием смыслового соответствия назовем пару: rα=<µR(a,b),α>, где µR(a,b) - функция вычисления меры релевантности или просто мера ре- левантности, α - пороговое значение релевантности такое, что 1, при µ R (a, b ) ≥ α , документ выдается rα =  0, при µ R (a, b ) < α , документ не выдается Изменяя пороговое значение α можно организовать эшелонированную выдачу. Каждый эшелон такой выдачи соответствует определенной мере се218 мантической близости сообщения запросу. Чем больше пороговое значение α, тем более жесткие условия налагаются на смысловую близость документа запросу. В нормированных мерах при α=1 для выдачи документа требуется полное совпадение его ПОДа соответствующему ПОЗу. В практике информационного поиска используются и другие критерии. В частности: 1. На полное вхождение ПОЗа в ПОД, т. е. если множество a = ПОЗ, b = ПОД, то документ считается релевантным, если а ⊆ b . 2. На полное вхождение ПОДа в ПОЗ. Документ выдается, если b ⊆ а. 3. На полное вхождение ПОДа в ПОЗ (или наоборот) с учетом базисных отношений. Документ выдается если каждому термину ПОЗа (ПОДа) соответствует либо тот же термин ПОДа (ПОЗа), либо термин, связанный с ним парадигматическими отношениями. 4. На полное вхождение с учетом текстуальных и базисных отношений. То же, что и ранее, но сравнение проводится с точностью до совпадения текстуальных отношений терминов в ПОЗе и ПОДе. 5.5.4 Оценка эффективности поиска /123/ Оценка эффективности АИПС связана с анализом как затрат АИПС на информационное обеспечение основной деятельности, так и эффекта, получаемого в основной деятельности в результате использования предоставляемой АИС информации. Однако «полезность» результатов основной деятельности в большинстве своем не может быть выражена количественно, в особенности, если такие результаты носят социально-политический, юридический, моральный, психологический и т. д. характер. Еще большие сложности возникают при оценке той доли эффекта основной деятельности, которая получена в результате использования информации. В силу практической невозможности оценки экономической эффективности АИПС при анализе АИПС приходится ограничиваться оценкой лишь функциональной эффективности. Под функциональной эффективностью си219 стемы понимают меру соответствия системы своему целевому назначению. Цель функционирования АИПС состоит в информационном обеспечении ее пользователей, т. е. в оперативном поиске необходимой им информации. В связи с этим основными показателями функциональной эффективности АИПС являются: • полнота поиска; • точность поиска; • оперативность поиска; • специфичность поиска; • коэффициент корреляции; • интегральный энтропийный показатель. Оценка любого показателя функциональной эффективности связана с определением неформальной релевантности выданной информации информационному запросу. Релевантность выданных документов (сообщений) запросу может оценить либо сам потребитель информации, либо группа экспертов. Будем считать, что такая оценка проведена и базе данных АИПС известны все сообщения, релевантные каждому запросу, т. е. множество документов БД по отношению к заданному запросу разделено на два подмножества: • подмножество релевантных документов - M1; • подмножество нерелевантных документов - M2. R R M1 M2 B N1 a b B N2 c d Суть работы АИПС состоит в разбиении множества документов БД тоже на два подмножества: • подмножество формально релевантных запросу документов (выдаваемых документов) – N1; 220 • подмножество формально нерелевантных запросу документов (невыдаваемых документов) – N2. Полнота поиска определяется отношением числа выданных релевантных документов (а) к общему числу релевантных документов массива (a+c): n= a , 0 ≤ n ≤ 1, a+c где с - число невыданных релевантных документов. Точность поиска - отношение числа выданных релевантных документов (а) к общему числу выданных документов (a+b): T= a , 0 ≤ T ≤ 1 ,. a+b Специфичность поиска – отношение числа невыданных нерелевантных документов (d) к общему числу нерелевантных документов (d+b): C= d , 0 ≤ C ≤1. d +b Коэффициент корреляции поиска определяется выражением: r= ad − bc (a + c)(b + d )(d + c)(a + b) , − 1 ≤ r ≤ 1, В идеальной АИПС b = 0, с = 0 и r = 1 . Интегральный энтропийный показатель АИПС можно рассматривать как инструмент, способный изменять энтропию поискового массива. Если допоисковую энтропию БД обозначить H0, а послепоисковую – Hn, то величина W= H0 − Hn H0 будет характеризовать меру упорядоченности состояния БД, являющуюся результатом процесса поиска по заданному запросу. Обозначим: P0 - концентрация релевантных документов в исходном массиве документов М 0; 221 P1 - концентрация релевантных документов в массиве выданных документов; P2 - концентрация релевантных документов в массиве невыданных документов. Очевидно: P0 = P1 = a+c , a+b+c+d a c , P2 = ; a+b c+d Согласно определению энтропии неопределенность исходного массива (до поиска) характеризуется величиной: H0=[P0lnP0+(1-P0)ln(1-P0)]. Неопределенность массива выданных документов: Hb=[P1lnP1+(1-P1)ln(1-P1)] Неопределенность массива невыданных документов: Hnb=[P2lnP2+(1-P2)ln(1-P2)] Мощность массива выданных документов равна a+b . M0 c+d Мощность массива невыданных документов равна . M0 Послепоисковая неопределенность базы данных: H0 = a+b c+d Hb + H nb M0 M0 Подставив полученные значения H0 и Hn в формулу для W получим: W = где 1 − (a + b)( P1 ln P1 + q1 ln q1 ) + (d + c)( P1 ln P1 + q1 ln q1 ) M 0 ( P0 ln P0 + q1 ln q1 ) q0=1-P0, q1=1-P1, q2=1-P2. Энтропийный показатель изменяется в диапазоне от 0 до 1. Приведен- ные формальные выражения позволяют определить те или иные показатели технической эффективности АИПС по отношению к конкретному запросу. Чтобы получить аналогичные показатели как характеристики АИПС в целом 222 необходимо провести серию экспериментов по массиву запросов и усреднить полученные результаты. При этом могут использоваться следующие формулы: 1 m ai П= ∑ - средняя макрополнота; m i =1 ai + ci 1 m ai Т= ∑ - средняя макроточность; m i =1 ai + ci m П′ = ∑a m i =1 i ∑ ( a i + ci ) - средняя микрополнота; i =1 m Т′ = ∑a m i =1 i ∑ (ai + bi ) - средняя микроточность. i =1 Теоретически и экспериментально показано, что показатели полноты и точности поиска находятся в обратно пропорциональной зависимости, т. е. повышение полноты поиска в рамках данной ИПС всегда сопровождается снижением (по крайней мере неповышением) точности поиска. И наоборот. Для определения релевантности документов в исходной базе данных используются различные методы, позволяющие оценить число релевантных (a+c) документов в БД не прибегая к анализу всей БД. 1. Случайная выборка некоторой части документов. Определение доли релевантных документов в выборке и аппроксимация полученных данных на всю БД. 2. Использование запросов, ориентированных на поиск заранее заданных документов и определение в выдаче доли заданных документов. Этим методом можно непосредственно оценить полноту поиска. 3. Проведение серии поисков по последовательно модифицируемому запросу и определение накапливаемых в процессе модификации запроса релевантных документов выдачи. 223 5.5.5 Организация массивов и операции поиска информации Организация информационно-поисковых массивов в существенной мере определяется механизмами поиска информации. Это естественно, поскольку любой поисковый алгоритм может быть эффективен с точки зрения полноты, точности и оперативности только при определенной организации массивов. Организация массивов, в свою очередь оказывает большое влияние на объемы занимаемой памяти ЭВМ, оперативность поиска, сложность его реализации, полноту и точность поиска. В зависимости от поставленных поисковых задач в АИПС могут быть реализованы различные информационно-поисковые операции. Типология информационно-поисковых операций В настоящее время разработаны и реализованы в действующих АИПС самые разнообразные информационно-поисковые операции. Каждый разработчик закладывает в эти операции что-то свое. В результате число таких операций может достигнуть в ближайшие годы внушительной величины. В то же время анализ показывает, что каждая ИПО характеризуется некоторой вполне ограниченной совокупностью признаков, определяющих ее содержание, структуру и условия реализации в конкретных АИПС. Следовательно любую ИПО можно рассматривать как операцию, характеризующуюся некоторой единой для всех ИПО совокупностью существенных признаков. Конечно, многие нюансы и тонкости индивидуальных ИПО при таком подходе могут быть утеряны, но в то же время появляется возможность проведения сравнительного анализа различных ИПО по тем или иным основаниям, анализа их достоинств, недостатков и, самое главное, условий реализации в конкретных АИПС и, соответственно, требований, предъявляемых к организации массивов, методам доступа и т. д. Анализ показывает, что всю совокупность реальных ИПО можно характеризовать следующими наиболее существенными признаками: 1. Временной интервал накопленного массива, в котором проводится поиск. 224 2. Число одновременно обрабатываемых запросов. 3. Тип поисковых запросов. 4. Характер поисковых запросов. 5. Характер обратной связи. 6. Число используемых ИПЯ. 7. Тип используемых ИПЯ. 8. Способ корректировки поисковых предписаний в процессе поиска. 9. Характер семантической организации массива. С учетом сказанного можно дать следующую типологию информационно-поисковых операций по совокупности предложенных признаков: 1. По временному интервалу накопленного поискового массива: - ретроспективный поиск - поиск в массиве, накопленном за некоторый период времени, превышающем интервал времени обработки последних поступлений в систему; - текущий поиск - поиск в массиве поступлений в АИПС. 2. По числу одновременно обрабатываемых поисковых запросов: - индивидуальный поиск - поиск по одному запросу; - групповой поиск - поиск по нескольким запросам одновременно. 3. По типу поисковых запросов: - поиск по разовым запросам; - поиск по постоянно действующим запросам; 4. По характеру поисковых запросов: - фактографический поиск - поиск, а точнее - выборка по заранее заданным признакам фактических данных, полностью соответствующих поисковому предписанию (100%-я полнота и точность); - текстовый поиск (семантический или документальный поиск) -поиск текстов (сообщений, документов), релевантных в соответствии с заданным критерием смыслового соответствия поисковому запросу. 5. По характеру обратной связи: - поиск без обратной связи АИПС с пользователем; 225 - поиск с обратной связью - интерактивный или диалоговый поиск. 6. По числу используемых ИПЯ: - одноязычный поиск; - многоязычный поиск - поиск с использованием нескольких типов ИПЯ. 7. По типу используемых ИПЯ: - жесткоконтролируемый поиск - поиск с использованием ИПЯ с жестким словарем (ключевых слов, словосочетаний, дескрипторов или иных лексических единиц); - слабоконтролируемый поиск - поиск с использованием ИПЯ со свободным словарем; - неконтролируемый поиск - поиск с использованием ИПЯ без словаря. 8. По способу корректировки поисковых предписаний в процессе поиска (способу реализации обратной связи): - поиск без корректировки ПП; - поиск с ручной корректировкой ПП, выполняемый лицом, проводящим поиск на основе анализа промежуточных результатов поиска, использования тезауруса, словарей, справочников и т. д.; - поиск с автоматизированной корректировкой ПП, выполняемый лицом, проводящим поиск на основе анализа промежуточных результатов поиска и информации, выдаваемой для этой цели АИПС по заранее заложенным в нее алгоритмам реализации ИПО. - поиск с автоматической корректировкой ПП средствами ИПО. 9. По характеру семантической организации поискового массива: - поиск в семантически неорганизованных массивах - одноуровневый поиск - поиск в массиве, рассматриваемом как семантически однородный; - поиск в семантически организованном массиве - многоуровневый поиск - поиск в массиве, семантически организованном в некоторую иерархическую, сетевую, реляционную, гипертекстовую или иную структуру. 226 Приведенная типология видов информационного поиска позволяет детализировать реальные поисковые операции, вычленяя те из них, которые представляют интерес с точки зрения исследуемой проблемы, поскольку по сути дела проведенные виды поиска являются составляющими ИПО. Например, текстовый (2а) диалоговый (56) ретроспективный (2а) индивидуальный (2а) одноязычный (6а) поиск по разовым (За) запросам в семантически неорганизованном массиве (9а) с использованием неконтролируемого ИПЯ (76) с автоматизированной корректировкой поисковых предписаний (86) включает в себя девять составляющих [1а, 2а, За, 46, 56, 6а, 76, 86, 9а], каждая из которых характеризует один из аспектов ИПО. Поскольку любая информационно-поисковая операция характеризуется хотя бы одним значением каждого признака, общее число ИПО не превышает мощности множества прямого произведения всех девяти подмножеств приведенных признаков, т. е. N ≤ |{1а,2а}×{2а,2б}×{3а,3б}×{4а,4б}×{5а,5б}× ×{6а,6б}×{7а,7б}×{8а,8б,8в,8г}×{9а,9б}|. В действительности число ИПО меньше, поскольку реализация ИПО с заданной характеристикой предъявляет определенные требования к типу ИПЯ, структуре массивов и т. д., а сами требования могут оказаться противоречивыми для различных характеристик. Например, фактографический поиск (4а) не может проводиться с использованием ИПЯ без словаря (7в) или ИПЯ со свободным словарем (76). 5.6 Организация поисковых массивов В современных ИПС могут использоваться три принципиально разных типа информационных массивов: - пассивный массив или массив третьего контура АИПС. Это массив оригиналов документов или сообщений, отображающих предметную область АИПС; 227 - слабоактивный массив - массив второго контура АИПС - упорядоченная машиночитаемая копия документов (сообщений) пассивного массива; - активный массив - массив первого контура АИПС или информационно-поисковый массив (ИПМ), структурированный массив машиночитаемых поисковых образов документов и/или их библиографических описаний и/или рефератов и/или самих документов (сообщений) и т.д. Иными словами - это база данных ИПС - структурированная в соответствии с заданными ИПЯ совокупность элементов фотографической и/или документальной информации, представленных на машиночитаемых носителях. Собственно информационный поиск проводится только в активном массиве. Однако результатами этого поиска могут быть только коды документов, отдельные фрагменты документов, их рефераты, аннотации, заголовки и т.д., но не полнозначные копии документов и, тем более, не оригиналы документов. Массив второго контура необходим для получения копий документов в целом или их фрагментов. Обычно этот массив хранится на машиночитаемых носителях большой емкости. Массив третьего контура используется только при необходимости обращения к оригиналу документа (сообщения). Такая необходимость возникает в библиотечных, архивных, банковских и т. д. системах, где важен юридический статус получаемой в ИПС информации. Процедура поиска информации в трехконтурной ИПС состоит в проведении собственно информационного поиска в активном массиве (базе данных) АИПС, анализе релевантности результатов поиска и обращении (при необходимости) по найденным поисковым ключам к документам второго или первого контуров АИПС. Реализация информационного поиска в АИПС предполагает предварительное представление информационных массивов в соответствии с некоторой формальной структурой данных. Существует несколько различных структур данных (подробно структуры данных будут рассмотрены в последующих разделах учебного пособия). В документальных АИПС используется простейшая структура данных, включающая четыре типа элементов: ПОЛЕ - ЗАПИСЬ - ФАЙЛ - НАБОР - ФАЙЛОВ 228 ПОЛЕ - наименьшая поименованная единица данных (информации). Ими могут быть: автор документа, название документа, реферат документа, часть документа или реферата документа, название дескриптора или иной лексической единицы и т. д. Иными словами ПОЛЕ - любая поименованная единица информации (данных), которая может представлять интерес в процессе информационного поиска. Различают фиксированные и свободные (гибкие) поля данных. Фиксированное поле данных - поле с заранее заданным (фиксированным) числом символов (байт), используемых при его заполнении. Например, поля «фамилия автора документа», «год издания документа». Свободные (гибкие) поля не предполагают явных ограничений на длину значений данных. Например, поля «реферат», «название документа» могут иметь разное число символов для различных документов. ЗАПИСЬ - поименованная совокупность полей данных. Например, запись «документ» может включать поля: N документа, название документа, год издания, издательство, авторы и т. д. ФАЙЛ - поименованная совокупность экземпляров записей одного типа. НАБОР ФАЙЛОВ - поименованная совокупность файлов. СХЕМА ЗАПИСИ - совокупность имени записи и имен составляющих ее ПОЛЕЙ. Например ДОКУМЕНТ (N документа, название документа, год издания, авторы, дескрипторы, реферат). Схема записи определяет тип записи: задает порядок композиции схем типов полей и приписывает имя типу записи. Схема файла - совокупность имени файла, имени типа записи и имен составляющих ее полей. Схема базы данных - совокупность имени набора файлов и схем составляющих ее файлов. База данных - совокупность состояний составляющих ее файлов. При предмашинном представлении информации схему базы данных отображают на бумажном носителе в виде, удобном для сбора и ввода информации. Такое представление носит название РАБОЧЕГО ЛИСТА АИПС или ФОРМАТА ВВОДА ДАННЫХ АИПС. Об229 ратное отображение РАБОЧЕГО ЛИСТА в схему базы данных выполняется компьютерной программой в процессе ввода информации в АИПС. Схема базы данных (схема организации информационно-поисковых массивов) оказывает существенное влияние на эффективность поисковых операций. Существуют самые разнообразные схемы организации поисковых массивов, отличающиеся между собой как наборами файлов, так и их схемами. Однако в основе любых схем БД лежат схемы файлов, а в более узком смысле, - схемы записей, поскольку именно они определяют структуру организации массивов. Рассмотрим наиболее важные в документальном поиске схемы организации массивов. Прямая схема организации массива Схема записи представляет собой совокупность имен интересующих пользователя полей, одним из которых обязательно является номер документа. Файл формируется как массив записей, упорядоченных по номерам документов. Инверсная схема организации массива Схема приемлема только для записей с фиксированными полями. Схема записи включает имя ключевого поля (поля по которому предполагается проводить поиск) и поля «номера документов». Файл формируется как массив упорядоченных по значениям ключевого поля записей (например, по алфавиту, по цифровым кодам и т. д.). Прямая схема организации массива требует минимальных объемов памяти для записи и хранения информации, позволяет легко вносить изменения и дополнения, учитывать синтагматические отношения в процессе поиска. Однако поиск требует много времени, так как каждый запрос предполагает просмотр всего файла. При групповом поиске этот недостаток частично снимается. Инверсная схема организации массива требует создания инверсных файлов по каждому из полей, по которым производится поиск. Это суще230 ственно увеличивает объемы занимаемой памяти. Однако время поиска при такой схеме минимально, поскольку обеспечивается прямой поиск по ключам. Недостатком инверсной организации массива является сложность корректировки записей и сложность учета синтагматических отношений в процессе поиска. На практике приходится создавать массивы с прямой и инверсной организацией, т. е. использовать комбинированную схему организации массивов. Процесс поиска в этом случае состоит в том, что в инверсном массиве выбираются номера возможно релевантных в силу логики запроса документов, а затем просматривается эта выделенная часть прямого массива. Такой прием повышает оперативность поиска, особенно при конъюнктивной логике запросов. Резюме Автоматизированная информационно-поисковая система, реализованная на средствах электронной вычислительной техники и предназначенная для нахождения а также выдачи ее пользователям необходимой информации по заданным критериям. АИПС представляет собой совокупность информационно-поискового языка, (программных) средств и правил перевода текстов на этот язык (индексирования), обеспечения их поиска и критериев соответствия. Автоматизированная информационно-поисковая система есть совокупность структурно взаимосвязанных подсистем, предназначенных для сбора, обработки, хранения, поиска и выдачи и распространения информации на базе развитых информационно-поисковых массивов с широким применением средств автоматизации подготовки, ввода и вывода информации результатов поиска в удобной для работы с ней форме. Информационный поиск (процесс нахождения и выбора (выдачи) требуемой, т.е. определенной заранее заданными признаками информации из 231 отдельного текста документа, совокупности документов или вообще из запоминающего устройства любой физической природы. Элементами процесса информационного поиска являются составление и формулирование запроса, обеспечение доступа к информационным массивам в целях их изучения и сравнения запроса с имеющейся в массиве информацией с целью определения степени ее соответствия запросу; отбор из массива отысканной информации; оценка выданной информации, а также разработка стратегии использования ресурсов системы для достижения целей, поставленных. Процесс нахождения, отбора и выдачи определенной заранее заданными признаками информации (в т.ч. - документов, их частей и/или данных) из массивов и записей любого вида и на любых носителях. Побудительной причиной осуществления информационного поиска является информационная потребность, выраженная в форме информационного запроса. В автоматизированных информационно-поисковых системах информационный поиск обеспечивается и осуществляется с привлечением лингвистических, информационных, программно-технических, технологических, организационных средств и составленных из них). Основными критериями качества результатов информационного поиска являются полнота, точность и оперативность поиска. Существует много способов оценить насколько хорошо документы, найденные АИПС, соответствуют запросу. К сожалению, понятие степени соответствия запроса, или другими словами релевантности, является субъективным понятием, а степень соответствия зависит от конкретного человека, оценивающего результаты выполнения запроса. Вопросы для самопроверки 1. В чем состоит процесс функционирования АИПС? 2. Состав и структура АИПС. 3. Основные элементы ИПЯ. 232 4. Требования к ИПЯ. 5. Типы отношений между словами ИПЯ 6. Классификация ИПЯ 7. В чем состоит метод координатного индексирования и поиска? 8. Состав и структура дескрипторных ИПЯ 9. Способы построения словарей 10. Принципы отбора лексических единиц 11. Количественные характеристики словарей 12. Системы индексирования 13. Типы систем индексирования 14. Поисковый аппарат АИПС 15. Этапы процесса формирования ПОЗа 16. Понятие релевантности и критерий релевантности. 17. Оценка эффективности поиска 233 ГЛАВА 6. ПОДХОДЫ, ИСПОЛЬЗУЕМЫЕ ПРИ РАЗРАБОТКЕ ИС В данной главе рассматривается несколько подходов используемых на различных стадиях разработки информационной системы. • Планирования разработки ИС – подходы, используемы при определении стратегии развития ИТ и ИС на предприятии. • Выбора методологии разработки программного обеспечения структурный и объектно-ориентированный подход. • Выбор распределенной архитектуры ИС – архитектурные решения при реализации ИС. В данной главе не преследуется цель дать всеобъемлющее описание различных подходов при разработке информационных систем. Скорее здесь рассматривается только небольшая часть практических вопросов и возможные подходы их решения. 6.1 Планирование развития информационных технологий на предприятии Всем понятно, что использование дорогостоящих информационных технологий может быть оправдано, только выгодами, полученными в бизнесе. Развитие информационных систем должно вестись на предприятии не спонтанно, а обосновываться потребностями бизнеса. Бизнес стратегия может быть обоснована: анализом бизнес моделей, SWOT-анализом, реинжинирингом бизнес процессов, реализации процессного подхода управления предприятием, анализом информационных ресурсов предприятия, построением архитектуры предприятия и т.д. Существует много способов планирования развития ИТ на предприятии. При проектировании ИС требуется привести экономическое обоснование применение или разработки ИС. Можно воспользоваться известными в экономике подходами, приведенными ниже /108/. 234 6.1.1 Подход SWOT SWOT - метод анализа в стратегическом планировании, заключающийся в разделении факторов и явлений на четыре категории: Strengths (Cильные стороны), Weaknesses (Слабые стороны), Opportunities (Возможности) и Threats (Угрозы). Акроним SWOT был впервые введён в 1963 году в Гарварде на конференции по проблемам бизнес-политики профессором K. Andrews. Первоначально SWOT анализ был основан на озвучивании и структурировании знаний о текущей ситуации и тенденциях /109/. Преимущества и недостатки - внутренние факторы, которые создают или разрушают ценность. Они могут включать активы, навыки или ресурсы, которыми имеет компания в своем распоряжении, в сравнении со своими конкурентами. Их можно измерить, используя внутренние оценки или внешний анализ бенчмаркинг. Возможности и угрозы - внешние факторы, которые создают или разрушают ценность. Компания не может их контролировать. Они происходят от конкурентной динамики отрасли/рынка или от демографических, экономических, политических, технических, социальных, правовых или культурных факторов (PEST). Положительное влияние Отрицательное влияние Внутренняя среда Strengths Weaknesses Внешняя среда Opportunities Threats Можно представить следующий алгоритм процесса стратегического управления. • Формирования миссии. • Разработка целей (стратегические цели - это основные направления деятельности организации, ведущие к выполнению ее миссии). 235 • Стратегический анализ, который должен дать реальную оценку собственных ресурсов и возможностей применительно к состоянию (и потребностям) внешней среды, в которой работает фирма. • Выбор стратегий из возможного множества вариантов. • Реализация стратегии. SWOT предоставляет инструмент качественного стратегического анализа, при этом не требуется мощных и дорогостоящих средств. Выбор эффективных стратегий, соответствующих внутренним параметрам предприятия и его положению на рынке и, в целом, во внешней среде, производится путем построения матриц корреляционного SWOT-анализа. На рисунке 6.1 приводится пример матрицы SWOT анализа. Рисунок 6.1 - Пример матрицы SWOT анализа /110/ 6.1.2 Подход BPR В 1990 Майкл Хаммер, профессор информатики в Массачусетском технологическом институте, опубликовал статью в Harvard Business Review /111/, в котором он утверждал, что обычные методы повышения производи236 тельности - рационализация и автоматизация процессов - не привели к серьезным улучшениям, которые требуются компаниям. В частности, серьезные инвестиции в информационные технологии принесли разочаровывающие результаты, во многом из-за того, что компании используют технологию только для того, чтобы механизировать старые способы вести дела. Они оставляют в неприкосновенности существующие процессы и используют компьютеры, чтобы просто их ускорить /112/. Основная идея Хаммера /113/ состоит в том, что при проведении реинжиниринга необходимо освободиться от устаревших бизнес-процессов и принципов их разработки и создать новые. Для этого необходимо рассмотреть основополагающие процессы с кросс-функциональной точки зрения. Под кросс-функциональной точкой зрения понимается обзор бизнес процесса в целом без деления его на части, выполняемые различными функциональными группами. Фактически рассматривается процессный подход, применяемый в функциональном моделировании IDEF0, DFD, ARIS и т.д. Бизнес процесс не привязывается к структурным подразделениям выполняющим его. Решающее место в реинжиниринге отводится ИТ. По мнению Хаммера компания должна видеть в ИТ не метод автоматизации производства а технологическое средства его изменения. Само по себе использование компьютеров не является реинжинирингом. Более того, неправильное использование компьютеров может заблокировать усилия по коренному изменению бизнес процессов, закрепить старые взгляды и схемы поведению. Хаммер сформулировал принципы /112/, которые могут быть полезны при создании информационных систем: • организовывайте достижение результата, а не выполнение задачи; • поручите исполнение процесса тем, кто использует его результат; • включайте обработку информации в реальную работу, которая генерирует эту информацию; • считайте географически распыленные ресурсы централизованными; 237 • связывайте параллельные работы вместо интеграции их результатов; • помещайте точку принятия решения туда, где делается работа, и встраивайте контроль в процесс; • фиксируйте информацию один раз - у источника. 6.1.3 Подход VCF (Value Chain Framework) Концепция Value Chain (Цепочка приращения стоимости) Портера (Michael Porter) - это модель, которая помогает проанализировать конкретные действия фирмы по созданию ценности и конкурентного преимущества /114/. VCF включает (рисунок 6.2) последовательность функций структурных подразделений предприятия (центров ответственности) в том порядке, как они выполняются при создании конкретного вида потребительной стоимости (стоимостного объекта). Отдельные функции выполняются структурными подразделениями, которые имею статус центра затрат /115/. Выполнение каждой функции связано с одной стороны, с формированием затрат (издержек), с другой стороны, - с добавлением дополнительных потребительских качеств к создаваемому стоимостному объекту, представляющих ценность для потребителя. Центр прибыли Отдел снабжения Центр ответственности Закупка Производство Доставка Продажа + дополнительные потребительские качества + издержки при выполнении каждой функции Рисунок 6.2 - Последовательность функций структурных подразделений предприятия 238 Функции VCF подразделяют на основные (Primary activities) и вспомогательные (Техническая поддержка) элементы (рисунок 6.3). К основным элементам относятся: • Входящая логистика. Включает получение, хранение, контроль ТМЗ, планирование транспортных перевозок. • Операции. Включает обработку, упаковку, сборку, обслуживание оборудования, тестирование и все другие действия, создающие ценность, которые преобразовывают вклады в окончательный продукт. • Исходящая логистика. Действия, необходимые для доставки конечного продукта клиентам: хранение на складах, выполнение заказа, перевозки, управление дистрибуцией. • Маркетинг и продажи. Действия, связанные с побуждением покупателей к совершению покупки продукта, включая: выбор канала сбыта, рекламу, продвижение, продажи, ценообразование, менеджмент розничных продаж и т.д. • Сервисные услуги. Действия, которые поддерживают и повышают ценность продукта, включая: клиентскую поддержку, ремонтные услуги, установку, тренинг, управление запасных частей, модернизацию и т.д. 239 Рисунок 6.3 Фреймворк цепочек приращения стоимости. К технической поддержки относятся следующие функции. • Закупки. Закупки сырья, сервис, запасные части, здания, машинное оборудование и т.д. • Развитие технологии. Включает развитие технологий для поддержки действий в цепочке приращения стоимости. Такие как: Научные исследования и разработки, автоматизация процессов, дизайн, изменение дизайна. • Управление людскими ресурсами. Действия, связанные с рекрутингом, развитием (образованием), удерживанием и компенсацией сотрудникам и менеджерам. • Инфраструктура фирмы. Включает общее руководство, менеджмент планирования, правовой, финансовый аспект, бухгалтерский учет, общественные дела, управление качеством и т.д. Фирма может создавать преимущество по уменьшению издержек элементов цепочки или за счет изменения конфигурации ее. Портер определил 10 факторов затрат /114/, относящихся к действиям цепочки приращения стоимости: 240 • экономия от масштаба • обучение. • использование производственных мощностей. • связи между действиями. • взаимоотношения между бизнес группами. • степень вертикальной интеграции. • время входа на рынок. • корпоративная политика в отношении затрат или дифференцирования. • географическое положение. • институционные факторы (регулирование, профсоюзная деятельность, налоги и т.д.). Для того, чтобы определить влияния информационных технологий на деятельность предприятия, с точки зрения VCF, необходимо проанализировать ее цепочку создания стоимости. Поскольку каждая операция связана с появлением, обработкой и передачей информации, информационные технологии играют решающую роль в формировании цепочки создания стоимости /116/. Портер и Миллар /108/ выделяют пять шагов, которые должна предпринять организация, чтобы воспользоваться преимуществами, предоставляемыми ИТ. 1. Оценить информационную емкость продуктов и процессов. 2. Оценить роль ИТ в отраслевой структуре. 3. Выявить и ранжировать способы, с помощью которых ИТ создает конкурентное преимущество. 4. Рассмотреть, каким образом ИТ может создать новое направление в бизнесе. 5. Разработать план, направленный на извлечение выгод от использования ИТ. 241 6.1.4 Подход построение EA (Enterprise Architecture – архитектуры предприятия) Создание архитектуры предприятия обосновывается принципом стратегическое развитие технологий и ИТ процессов с целью обеспечения поддержки бизнеса. Это, в свою очередь, делает ИТ динамично организованной структурой предприятия, реализующая успешную бизнес – стратегию /117/. Архитектура обеспечивает стратегический контекст развития ИТ системы в ответ на постоянно изменяющиеся потребности окружающей бизнес - среды. Хорошая (эффективная) архитектура предприятия позволит достигнуть правильного баланса между эффективностью ИТ и новшествами в бизнесе. Технические преимущества, которые следуют из хорошей архитектуры предприятия, приносят значимые практические результаты: • более эффективны действия IT: o низкая стоимость разработки программного обеспечения, поддержки и обслуживания; o увеличенная мобильность приложений; o улучшенная интероперабильность и удобство управлением системой и сетью; o совершенствование возможности решать проблемы масштаба предприятия, подобно безопасности; o более легкая модернизация и обмен компонентами системы; • лучшую отдачу существующих инвестиций, уменьшение риска будущих инвестиций: o уменьшенная сложность ИТ инфраструктуры; o максимальный возврат инвестиций в существующую ИТ инфраструктуру; o гибкость в выборе решения в ИТ: покупка, выполнение или аутсорсинг; 242 o полное устранение риска в новых инвестициях и издержек использования ИТ; • более быстрое, простое и более дешевое приобретение: o более простые решения по закупкам, т.к. информация, влияющая на приобретение, доступна в последовательном плане; o процесс приобретения осуществляется быстрее, т.к. максимизирована скорость и гибкость в приобретении, без увеличения издержек в архитектуре. Обычно рассматриваются четыре вида «архитектуры», которые обычно принимаются как подмножества полной архитектуры предприятия: • бизнес - архитектура; • архитектура данных; • архитектура приложений; • технологическая архитектура. Комбинация архитектуры данных и архитектуры приложений называется архитектурой ИС. В качестве примеров архитектурных фреймворков можно привести TOGAF и методологию Захмана (Zachman Framework). 6.1.5 TOGAF TOGAF (The Open Group Architecture Framework ) - является методологией разработки и построения архитектуры предприятия, состоящей из совокупности детальных методов и ряда инструментов поддержки, созданных с целью. Данная методология разработана консорциумом OMG (Object Management Group), которая владеет всеми правами на этот продукт. В силу этого, TOGAF может использоваться свободно любой организацией, желающей разработать архитектуру своего предприятия. Методология предоставляет цикл разработки архитектуры ADM (Architecture Development Method - Метод построения архитектуры) и «виртуаль243 ного репозиторий» (Континуума предприятия) всех активов архитектуры, как предприятия, так и в целом ИТ индустрии, куда входят: модели, шаблоны, описание архитектуры и других артефакты, которые требуются при построении архитектуры предприятия. Сам TOGAF предоставляет две эталонные модели, которые могут быть включены конкретной организацией в Континуум предприятия: базовая архитектура TOGAF (TOGAF Foundation Architecture) и эталонная модель объединенной информационной инфраструктуры (Integrated Information Infrastructure Reference Model - III-RM). 244 Рисунок 6.4 – Цикл ADM. Базовая архитектура TOGAF включает: • TRM (Technical Reference Model – Техническая эталонная модель) универсальных служб и функций, которая предоставляет основу для построения более специализированных архитектур и архитектурных компонентов; • информационная база стандартов (Standards Information Base SIB) - информационное ядро соответствующих спецификаций и стандартов. В общем виде TRM можно представить (рисунок 6.5) в виде трех главных уровней (приложения, платформа приложений и коммуникационная инфраструктура), соединенных двумя интерфейсами (интерфейс платформы приложений и интерфейс коммуникационной инфраструктуры ). Рисунок 6.5 – TRM – представление высокого уровня. TOGAF TRM идентифицирует универсальный набор сервисов платформы и обеспечивает классификацию (таксономию), которая объединяет 245 эти сервисы по категориям, основываясь на схожести функциональных возможностей. Эталонная модель интегрированной информационной инфраструктуры (III-RM) фокусируется на области программного обеспечения приложений. Это дает возможность решить одну из ключевых задач, стоящих при построении архитектуры предприятия: создание интегрированной информационной архитектуры. 6.1.6 Framework Zachman Enterprise Architecture Фреймворк архитектуры предприятия, разработанный Дж. Захманом (John A. Zachman) (иногда просто называют «Модель Захмана»), стал фактическим стандартом классификации и разработки артефактов архитектуры уровня предприятия /118-120/. Он построен на основе таких дисциплин, как классическая архитектура, конструирование, инженерия и производство. В организации модели определяется два измерения (Рисунок 6.6): • ролевая точка зрения участников проекта создания архитектуры: o планировщик, владелец, дизайнер, конструктор, разработчик • абстракции архитектуры: o Что? Как? Где? Кто? Когда? Почему? Рисунок 6.6 – Организация модели Захмана. 246 На рисунке 6.7 и 6.8 показан пример реализации модели Захмана. Конкретные модели и атрибуты представления показаны в качестве примера. В каждом конкретном случае представление, отвечающее вопросу столбца, может быть иным. 247 Рисунок 6.7 - Левая часть матрицы Захмана 248 Рисунок 6.8 - Правая часть матрицы Захмана 249 Комбинация точек зрения и описаний, представленных в тридцати ячейках таблицы Захмана, представляет собой мощную систематизацию, на основе которой можно выстроить полную архитектуру для разработки ИС. Расположенные по вертикали ракурсы могут отличаться степенью детализации, но, что более важно, они отличаются по существу и используют различные представления модели. Различные модели отражают различные взгляды участников. Аналогично расположенные по горизонтали описания подготовлены, исходя из различных соображений. Каждое из этих описаний призвано ответить на один из шести вопросов /108/. 6.1.7 Подход, основанный на знание предметной области Требования, основанные на знании предметной области, выявляются посредством изучения стандартов профессиональной и учебной литературы относящейся к этой области. Изучение существующих ИТ решениях и существующих ИС для данной предметной области также может стать богатым источником знаний. Для того, что бы определиться с видом используемого решения можно воспользоваться классификацией ИС по типу бизнес процессов, предложенная компания «Институт типовых решений - Производство» /66/. По типу бизнес процессов информационные системы, участвующие в автоматизации управления можно разделить на следующие группы: • ИС стратегического маркетинга и управления предприятием; • финансовые ИС; • ИС управления производством; • ИС управления запасами и сбытом; • ИС поддержки жизненного цикла продукции. Внутри каждой группы информационные системы подразделяются, как правило, в зависимости от реализованной концепции или алгоритма. Многие информационные системы реализуют концепции, закрепленные в стандартах (ISO, APICS и др.), или же реализуют алгоритмы, широко используемые в 250 бизнес процессах, или выделены аналитическими и консалтинговыми агентствами (Gartner, IDC и др.). Используемая классификация не лишена недостатков. Во-первых, многие информационные системы входят в состав информационной системы, которая интегрирует несколько функций, при этом интегрирование может затронуть информационные системы, позиционированные в различных разделах. Например, Business intelligence (BI) включают Data mining (DM) и OLAP (online analytical processing). Во-вторых некоторые информационные системы не имеют четко разделенных границ. Например, в литературе часто считают, что разделение информационных систем на ERP (Enterprise Resource Planning) системы и MRP II (Manufacturing Resource Planning) системы имеет явно выраженный рекламный характер. 6.2 Подходы к разработке программного обеспечения 6.2.1 Структурный подход В среде DOS преобладала процедурная логика программного обеспечения, разработанная на языках типа Pascal и Basic. После запуска программа выполняется до завершения в жестко заданной последовательности шагов. На некоторых этапах программа затребовала ввод исходных данных, которые могли вводиться в интерактивном режиме, что не изменяла детерминированный характер, контролируемый программой. Для этого стиля программирования хорошо зарекомендовал структурный подход в разработке ПО. При появлении графического пользовательского интерфейса и многозадачной среды выполнения программы все кардинально изменилось. Программа управляется событиями, которые могут возникать случайным образом, например, действиями пользователя (клик мышью, нажатие клавиатуры и т.д.). В среде графического интерфейса, скорее пользователь контролирует выполнение программы, а не программа контролирует действия пользователя. 251 За каждым событием стоит программный объект, который генерирует или обрабатывает это событие. Современные системы на основе графического интерфейса требуют применение объектно-ориентированных языков программирования, что в свою очередь привело к развитию объектноориентированного подхода к разработке программного обеспечения. В тоже время применение структурного подхода может быть оправдано при разработке современных систем в следующих случаях: • разработчик не имеет опыт использования объектноориентированных парадигм при разработке ПО; • предполагается разработка с «чистого листа» без поддержки повторного использования существующих компонент; Структурный подход (structured approach) к разработке систем получил широкое распространение (и был признан стандартом де-факто) в 1980-х годах. Этот подход основан на двух методах: диаграммах потоков данных (data flow diagrams - DFD) для моделирования процессов и диаграммах сущностьсвязь (entity relationship diagrams - ERD) для моделирования данных. Структурный подход является функционально-ориентированным и рассматривает DFD-диаграммы в качестве движущей силы разработки ПО /108/. Для описания бизнес процессов можно использовать IDEF0 модели. Сочетание DFD- и ERD-диаграмм дает относительно полные модели анализа, которые фиксируют все функции и данные системы на требуемом уровне абстракции независимо от особенностей аппаратного и программного обеспечения. Затем модель анализа преобразуется в проектную модель, которая обычно выражается в понятиях реляционных баз данных. После этого следует этап реализации /108/. Не смотря на существенные недостатки структурно подхода, рекомендуется использовать его в особенности тем студентам, которые испытывают значительные затруднения в применении объектно-ориентированного подхода. 252 Можно предложить следующую последовательность реализации структурного подхода. 1. Изучение предметной области и выявление требований к информационной системе. Описание бизнес процесса (возможно построение функциональной модели AS-IS), выявление документов бизнес процесса, определение проблем, определение функций ИС и выявление ограничений, обоснование разработки. 2. Построение концепции ее реализации и разработка технического задания на ее разработку. 3. Построение функциональной модели (TO-BE) выявление требований к обеспечивающим частям ИС. 4. Разработка базы данных (серверная часть системы). 5. Разработка пользовательского интерфейса (клиентская часть системы) и интеграция его с серверной частью. 6. Верификация и тестирование ПО. 6.2.2 Объектно-ориентированный подход Объектно-ориентированный подход к разработке систем получил распространение в 1990-х годах. Ассоциация производителей ПО Object Management Group утвердила в качестве стандартного средства моделирования для этого подхода язык UML (Unified Modeling Language - Унифицированный язык моделирования), который на сегодняшний день поддержан всеми ведущими разработчиками ПО. По сравнению со структурным подходом объектно-ориентированный подход в большей степени ориентирован на данные, так как он развивается вокруг моделей классов. Использование разработки основанной на применении прецедентов смещает акценты от данных к функциям. Объектный подход реализует технические преимущества, такие как абстракция, инкапсуляция, повторное использование, наследование, передача сообщений, полиморфизм и т.д. 253 В тоже время можно выделить существенные проблемы использования объектно-ориентированной парадигмы /108/. • Этап анализа проводится на еще более высоком уровне абстракции, и - если серверная часть решения по реализации предполагает использование реляционной базы данных - семантический разрыв между концепцией и ее реализацией может быть значительным. • Управление проектом сложно осуществлять. Менеджеры измеряют степень продвижения разработки с помощью четко определенной декомпозиции работ, элементов комплекта поставки и ключевых этапов. При объектной разработке с помощью «детализации» не существует четких границ между этапами, а проектная документация непрерывно развивается. • Применение объектного подхода связано с возрастающей сложностью решений, что, в свою очередь, сказывается на таких характеристиках ПО, как приспособленность к сопровождению и масштабируемостью. 6.3 Выбор распределенной архитектуры Архитектурное проектирование связано с выбором стратегии решений и представлением модульной структуры системы. Стратегия решения призвана разрешить проблемы, связанные с построением клиентской и серверной частей системы, а ПО промежуточного слоя (middleware) необходимо для «склеивания» клиента и сервера. Решение по основным строительным блокам (модулям) только отчасти зависит от выбранной стратегии решения. Клиент и сервер - логические понятия. Клиент - это вычислительный процесс, который осуществляет запросы к процессу сервера. Сервер - это вычислительный процесс, который обслуживает запросы сервера. Обычно процессы клиента и сервера выполняются на разных компьютерах, но вполне возможно реализация системы «клиент/сервер» на одной машине. 254 В типичном сценарии клиентский процесс отвечает за управление отображением информации на экране пользователя и за обработку событий, инициированных пользователями. Процесс сервера - это любой компьютерный узел с базой данных, из которой данные могут быть запрошены клиентским процессом. Архитектуру клиент/сервер можно расширить для представления произвольной распределенной системы. Любой компьютерный узел с базой данных может играть роль клиента в одних операциях, а сервера - в других операциях. Соединение подобных узлов с помощью сети связи дает начало архитектуре системы распределенной обработки. В системе распределенной обработки клиент может осуществлять доступ к любому количеству серверов. Однако клиенту может быть разрешен доступ одновременно только к одному серверу. Это значит, что он может быть не в состоянии объединить данные от двух или более серверов баз данных в одном запросе. Если это возможно, то архитектура поддерживает систему распределенных баз данных. 6.3.1 Трехзвенная архитектура Трехзвенная архитектура хорошо укладывается в концепцию подхода MVC и BCE. MVC (Model-view-controller «Модель-представление-поведение», «Модель-представление-контроллер») — архитектура программного обеспечения, в которой модель данных приложения, пользовательский интерфейс и управляющая логика разделены на три отдельных компонента, так, что модификация одного из компонентов оказывает минимальное воздействие на другие компоненты /109/. Шаблон MVC позволяет разделить данные, представление и обработку действий пользователя на три отдельных компонента 255 Модель (Model). Модель предоставляет данные (обычно для View), а также реагирует на запросы (обычно от контролера ), изменяя свое состояние. Представление (View). Отвечает за отображение информации (пользовательский интерфейс). Поведение (Controller). Интерпретирует данные, введенные пользователем, и информирует модель и представление о необходимости соответствующей реакции. Подход BCE (Boundary-Control-Entity - граница-управление-сущность) представляет собой подход к объектному моделированию, основанный на трехфакторном представлении классов. В языке UML на классах предопределены три стереотипа: boundary (граница), control (управление) и entity (сущность). Пограничные классы (boundary class) описывают объекты, которые представляют интерфейс между актором и системой. Они выделяют часть состояния системы и представляют ее пользователю в форме визуального отображения или звукового эффекта. Пограничные классы соответствуют классам, представленным в разработанном GUI-интерфейсе. Пограничные объекты часто сохраняются после однократного выполнения программы. Управляющие классы (control class) описывают объекты, которые перехватывают входные события, инициированные пользователем, и контролируют выполнение бизнес-процесса. Управляющий класс представляет действия и виды деятельности прецедентов. Управляющие объекты зачастую не сохраняются после выполнения программы. Классы-сущности (entity class) описывают объекты, которые представляют семантику сущностей, принадлежащих проблемной области. Они соотносятся со структурами данных системной базы данных. Объектысущности всегда сохраняются после выполнения программы и участвуют во многих прецедентах. 256 В верно спроектированной иерархии классов актор может взаимодействовать только с пограничными объектами, объекты-сущности могут взаимодействовать только с управляющими объектами и управляющие объекты могут взаимодействовать с объектами любого типа (рисунок 6.10). Каждому пограничному объекту, который допускает взаимодействие, должен быть поставлен в соответствие связанный с ним управляющий объект. Поэтому некоторые типы архитектуры ПО объединяют две функции в одном классе. В качестве примера можно привести библиотеку VCL (Delphi). Рисунок 6.9 - Классы boundary (граница), control (управление) и entity (сущность) в нотации UML Дополнительным преимуществом подхода BCE является его увязка с трехзвенной моделью клиент/сервер, которая отделяет управление данными (объекты-сущности) от представления (пограничные объекты) посредством промежуточного слоя логики приложения (управляющие объекты). Сервер баз данных может даже быть реализован не на объектно-ориентированной, а на реляционной СУБД. 257 Рисунок 6.10- Пример реализации BCE в диаграмме классов уровня анализа. Необходимо, подчеркнуть, что классы-сущности располагаются в памяти клиентской программы, а не на сервере базы данных. Чтобы осуществить отображение классов-сущностей в реляционную память СУБД и для хранения другой релевантной информации о структурах баз данных, требуется отдельный уровень (слой) классов, которые могут быть организованы в виде пакета, предназначенного для работы с базой данных. Существует расширение подхода BCE, названное Boundary-Control-Entity-Database (BCEDграница – управление – сущность - база данных). Классы уровня D (Database) ответственны за извлечение данных из базы данных и сохранение данных. К этому уровню классов можно отнести классы Delphi: TADOConnection, TADOTable, TADOQuery (при использовании технологии ADO). Аналогично клиентскому и серверному процессу прикладной процесс представляет собой логическое понятие, которое может поддерживаться или не поддерживаться специально выделенным для этой цели аппаратным обеспечением. Логика приложение может с равным успехом выполняться на клиентском или серверном узле, т.е. может быть встроена в клиентский или серверный процесс и реализована в виде библиотек: DLL (Dynamic Link Libraryдинамически компонуемая библиотека), АРI-интсрфейса (Application Programming Interface - интерфейс прикладного программирования), RPC вызовов (Remote Procedure Calls - удаленный вызов процедуры) и т.д. 258 Если логика приложения скомпилирована с клиентом, говорят об архитектуре толстого клиента. Если она скомпилирована с сервером, говорят об архитектуре тонкого клиента. Возможны также промежуточные архитектуры, в которых логика приложения частично скомпилирована с клиентом, а частично - с сервером. Логику приложения можно также развернуть на отдельных вычислительных узлах, как показано на рисунке 6.11. TCP/IP Сервер базы данных (DB2) Клиенты Windows Хранилище данных Сервер базы данных (DB2) Сервер приложений (IBM Websphere) Рисунок 6.11 – Пример развертывания трехзвенной архитектуры /108/. При реализации приложения необходимо решить вопросы реализации: пользовательского интерфейса, логики ответственной за обработку GUI интерфейса (презентационная логика), прикладные функции, логики ответственной за бизнес правила масштаба предприятия (интегральной логики), функции доступа к базе данных (рисунок 6.12). 259 Рисунок 6.12 – Взаимодействие приложение – база данных /108/. Программы баз данных называются хранимыми процедурами. Хранимые процедуры хранятся в самой базе данных (они являются постоянными или персистентными). Их можно вызвать из клиентской программы (или из другой хранимой процедуры) с помощью обычного оператора вызова процедуры/функции. Существуют хранимые процедуры специального вида - триггеры, которые нельзя вызвать явно. Триггер срабатывает автоматически при попытке изменить содержимое базы данных. Триггеры используются для реализации бизнес-правил масштаба предприятия (интегральная логика). 6.3.2 Реализация Web- приложений Web-приложение - разновидность системы клиент/сервер с Web-узлом. Браузер Internet-клиента отображает Web-страницы на экране компьютера. Web-сервер доставляет Web-страницы браузеру. Web-страницы могут быть статическими (неизменяемыми) или динамическими. Web-страница может представлять форму, заполняемую пользователем. Чтобы пользователь мог 260 одновременно просматривать несколько Web-страниц экрана разделяется приложением на фреймы. Чтобы управлять логикой приложения и отслеживать состояние приложения, Web-приложение может включать сервер приложений. Обычный метод отслеживания состояния реализуется хранением в браузере куков (cookie - короткие символьные строки, представляющих состояние интерактивного пользователя). Чтобы придать страницам, отображаемым на клиентской машине, динамичность, используются сценарии или апплеты. Сценарий или скрипты (script – может быть написан, например, на языке JavaScript) представляет собой программу, выполняемую браузером в режиме интерпретации. Апплет (applet) - это скомпилированная компонента, которая выполняется в контексте браузера, однако, имеет лишь ограниченный доступ к другим ресурсам клиентской машины (из соображений безопасности). Web-страница может также включать сценарии, выполняемые сервером. Подобная страница называется серверной страницей (server page). Серверная страница имеет доступ ко всем ресурсам сервера баз данных. Серверные страницы управляют клиентскими сеансами, размещают cookies в среде браузера и строят клиентские страницы т.е. строят страничные документы из серверных бизнес-объектов и отправляют их назад клиенту. Чтобы обеспечить доступ сценариев, содержащихся в серверных страницах, к базам данных, используются стандартные библиотеки доступа к данным. К типичным технологиям, позволяющим реализовать эту возможность, относятся ODBC (Open Database Connectivity - открытый интерфейс доступа к базам данных), JDBC (Java Database Connectivity- интерфейс доступа к базам данных Java-приложений), RDO (Remote Data Objects - интерфейс доступа к удаленным объектам), ADO (ActiveX Data Object - набор высокоуровневых интерфейсов, позволяющих разработчикам обращаться к данным на любом языке программирования на основе ActiveX). 261 Технологией, дающей возможность функционировать Web-серверу, являются содержащие сценарии страницы HTML - активные серверные страницы (Active Server Pages - ASP ) или серверные страницы Java (Java Server Pages - JSP). Для создания Web-страниц можно использовать технологию написания клиентских сценариев (JavaScript или VBScript), документов XML (eXtensible Markup Language), Java-апплетов, управляющих элементов JavaBean или ActiveX Для получения Web-страниц с Web-сервера клиенты используют протокол HTTP (Hypertext Transfer Protocol - протокол передачи гипертекстовых файлов). Страница может содержать сценарий или скомпилированные и непосредственно выполняемые модули DLL (Dynamic Link Library - динамически компонуемая библиотека), например, ISAPI (Internet Server Application Programming Interface - интерфейс прикладного программирования Internetсервера), CGI (Common Gateway Interlace - Общий шлюзовый интерфейс) или Java-сервлеты. Cookie играют роль примитивного механизма поддержки соединения между клиентом и сервером в системе, которая иначе называется Internelсистемой без установления соединения. Более сложный механизм соединения клиента с сервером превращает Internet в распределенную объектную систему. В распределенной объектной системе объекты идентифицируются с помощью уникальных OID и взаимодействуют зa счет получения OID друг друга. Главными механизмами при этом выступают технологии CORBA, DCOM и EJB. При использовании данных технологий объекты могут взаимодействовать без использования протокола HTTP или Web-сервера в качестве посредника. Архитектура развертывания может представлять четырехзвенную структуру: клиентский Web-браузер, Web-сервер, сервер приложений, сервер баз данных. Браузер клиентского узла можно использовать для отображения статических или динамических Wеb-страниц, которые могут включать сценарии и 262 апплеты, загружаемые и выполняемые в рамках браузера. Клиентский браузер можно оснастить дополнительными функциональными возможностями, такими как элементы управления ActiveX или JavaBeans. Web-сервер обрабатывает запросы на страницы, поступающие от браузера, и динамически генерирует страницы и программный код для выполнения и отображения на клиенте. Web-сервер также обеспечивает настройку и параметризацию сеансов работы пользователя. Сервер приложений необходим в том случае, когда в реализации используются распределенные объекты. Он управляет бизнес-логикой. Бизнес компоненты публикуют свои интерфейсы для других узлов через интерфейсы компонент, такие как CORBA, DCOM или EJB. Бизнес - компоненты, инкапсулируют постоянные объекты, хранимые в базе данных, чаще всего в реляционной базе. Они взаимодействуют с сервером баз данных через протоколы связи с базами данных, например, такими как JDBC или ODBC. Узел базы данных обеспечивает масштабируемое хранилище данных и многопользовательский доступ к нему. Резюме Структурный подход при разработке ИС заключается в декомпозиции ее на автоматизируемые функции (задачи, выполянемые системой). Декомпозицию можно продлжать до конкретных процедур, при этом иерархическая структура автоматизируемой системы сохраняет целостное представление, в котором все составляющие компоненты взаимоувязаны. При разработке системы «снизу-вверх» от отдельных задач ко всей системе может быть нарушена целостность, что приводит к проблемам информационной стыковки отдельных компонент. Объектно-ориентированная разработка ИС может начаться на самом первом этапе жизненного цикла; она не связана с языком программирования, на котором предполагается реализовать разрабатываемую программную систему: этот язык может и не быть объектно-ориентированным. На этапе раз263 работки объекты - это некоторые формальные конструкции, никак пока не связанные с их будущей реализацией на одном из языков программирования. Разработка объектно-ориентированная ПО связана с применением объектно-ориентированных методологий анализа и проектирования систем. Обычно эти методологии поддерживаются специализированными инструментальными программными средствами, что упрощает их использование. В тоже время, принято считать, что объектно-оринтированные методолгии и анализа и проектирования ПО хорошо согласуются с ментальным представлением мира, что позволяет лучше моделировать информационные потоки с помощью программных средств. В распределенной архитектуре, также как и в централизованной, компоненты прикладных информационных систем размещаются в централизованном ядре системы. Работа пользователей, в том числе мобильных, подключенных через интернет, внешних информационных систем и пользователей через личный кабинет возможна только с централизованным ядром. В общем случае распределенной архитектурой называют, програмноаппаратное решение, состоящее из компонентов, функционирующих на физически удаленных и независимых друг от друга гетерогенных узлах, предоставляющееся пользователям единой объединенной системой. Распределенная архитектура информационной системы является основой системы управления и играет важную роль в работе организации. Она состоит из множества компонентов; разделение функций между компонентами привело к появлению различных архитектур ИС, каждая из которых имеет свои достоинства и недостатки, что определяет особенности ее использования в зависимости от требований предприятия-заказчика. Перечисления достоинств и недостатков программно-аппаратных компонентов, архитектур или технологий недостаточно для принятия обоснованного решения в пользу того или иного решения; при этом используется также большое количество критериев выбора, которые к тому же отличаются степенью важности и приоритетами в зависимости от требований к ИС. 264 В настоящее время выполнены достаточно многочисленные исследования в области развития методов совершенствования ИС, основанных на использовании новейших результатов в теории и практике управления. Вопросы для самопроверки 1. В чем заключается подход SWOT? 2. В чем заключается подход BPR? 3. В чем заключается подход VCF? 4. В чем заключается подход построение EA? 5. В чем заключается методология TOGAF? 6. Что такое модель Захмана? 7. В чем заключается подход, основанный на знание предметной области 8. Структурный подход к разработке программного обеспечения. 9. Объектно-ориентированный подход к разработке программного обеспечения. 10.Выбор распределенной архитектуры. 11.Что такое трехзвенная архитектура? 12.Реализация Web- приложений. 265 ЗАКЛЮЧЕНИЕ Современные информационные системы становятся сложнее, чтобы обеспечить возможность решения глобальных задач, например, таких, как создание единой системы управления предприятием. При разработке таких систем важно хорошо представлять современные подходы, существующие в этой области, и основные сложности этого процесса. Различные средства и технологии разработки, в том числе и объектноориентированные, успешно используются для создания множества сложных систем в самых разных областях. Потребность в сложных информационных системах все время растет. По мере того, как увеличивается производительность и падает цена вычислительной техники, появляются возможности выполнить автоматизацию все более сложных процессов. Основная ценность соврменных методик разработки информационных систем состоит в том, что они позволяют свести к минимуму трудоемкую рутинную работу и сосредоточиться на решении творческих задач. Учебное пособие отражает многолетний опыт построения информационных систем и обучения их созданию независимо от областей применения. Оно рассчитано на подготовку специалситов, глубоко понимающих информационные технологии ввода, обработки и поиска информации вообще, безотносительно к компьютерам и программам. Детально рассматриваются информационно-поисковые языки, системы индексирования, классификация информационных сситем, а также подходы, используемые при их разработке. Объединяющим началом всех информационных систем являются их цели, задачи и функции. Различия определяются способами, методами и средствами реализации поставленных целей, задач и функций. В учебном пособии сделана попытка изложения с единых позиций тех взглядов, которых придерживаются авторы и их коллеги в области, обычно называемой разработкой информационных систем в экономической сфере. 266 За последние годы данная область в результате быстрого развития теоретических и прикладных аспектов стала приобретать новые очертания, причем, круг практических сфер внедрения, а также набор инструментальных средств значительно расширился. Информационные системы рассматриваются как неотъемлемая, критически важная составляющая современного бизнеса. Невозможно представить себе устойчиво функционирующее предприятие без средствподдержки его основных бизнес-функций в виде мощного центр информационных технологий. Современные теории менеджмента и информационных технологий в бизнесе, принципы построения информационных систем не должны заслонять того, ради чего все это создается – предназначения той или иной информационной системы. Любой род деятельности человека осознанно целенаправлен, и это требует того, чтобы цель создания системы составляла ее основу. «Не существует попутного ветра, если неизвестно, куда плыть» (Сенека). Поэтому у человека в процессе своей деятельности должна быть сформулирована цель, которая и определяет направление разработок. Ориентация на процессы, а не на функциональные задачи, приводит к тому, что в большинстве современных методологий разработки информационных систем, в том числе корпоративных, за основу принято описание бизнес-процессов, происходящих в той или иной органиазции. Бизнес-процессы являются одним из видов функциональных моделей предприятяи. Их разработка является проблемой, требующей занний и опыта в сфере бизнеса, области организационного управления, а также информацуионных технологий. Кроме детального проникновения в механизмы функционировнаия организации, для ее реализации, необходимы также соответствующие методики и инструментальные средства. 267 ПРАКТИКУМ Вариант каждого задания выбирается исходя из первой буквы фамилии обучаемого. Задание 1 Вариант 1 (А). Найти энтропию дискретной случайной величины Х, заданную рядо равспределения распределения X 1 2 3 4 5 6 7 8 Вероятность p 0.1 0.2 0.1 0.05 0.1 0.05 0.3 0.1. Варианты 2-4 (БВГ). Слово из m символов, каждый символ может быть одной из 2 букв, значения которых заданы в таблицы. Определите энтропию этого слова Вариант 2 3 4 3 2 4 «a» 0,2 0,3 0,4 «b» 0,8 0,7 0,6 M буквы Варианты 5-7 (ДЕЖ). Слово из M символов, каждый символ может быть одной из 2 букв, значения которых заданы в таблицы, определите энтропию этого слова Вариант 5 6 7 3 2 4 «a» 0,2 0,3 0,4 «s» 0,4 0,4 0,4 «d» 0,4 0,3 0,2 M буквы 268 Варианты 8-12 (ЗИКЛМ). Дискретная случайная величина задана М битовым двоичным числом, определить энтропию этого числа, если задана вероятность появления ноля Вариант 8 9 10 11 12 M 2 3 4 5 6 вероятность 0,2 0,3 0,6 0,3 0,4 Варианты 13-17 (НОПРС). В группе N человек, каждый из них сдает зачет. По результатам сообщения выдается сообщение, состоящее из двух цифр (первая – количество сдавших зачет, вторая количество не сдавших), определить энтропию сообщения. Вариант 13 14 15 16 17 N 3 4 5 6 2 вероятность сдачи зачета одним студентом 0,2 0,3 0,6 0,3 0,4 Варианты 18-20 (ТУФ). Дано n разрядное двоичное число. Построить зависимость энтропии д.с.в. от вероятности появления «0» в каждом разряде этого числа.(вариант 18 - N=2, вариант 19 - N=3, вариант 20 - N=4) Варианты 21-22 (ХЦ). Дано N разрядное троичное число. Построить зависимость энтропии дискретной случайной величины от вероятности появления «1» в каждом разряде этого числа, если вероятность появления «0» равна 0,3.(вариант 21 - N=2, вариант 22 - N=3) Вариант 23 (ШЩЭЮЯ). Дан текст, исходя из того, что вероятность нахождения каждой буквы текста определяется как отношение количества 269 вхождений этой буквы к количеству букв в тексте, определить энтропию символа этого текста (Расчет выполнить программно). Задание 2 Целые значения дискретной случайной величины X1 (таблица 1) и X2 определяются подбрасыванием двух идеальных фигур, а дискретная случайная величина Y =X1+X2. Определить I(X1,Y), I(X2,Y). Вариант Количество граней фигуры Очки на гранях, Х1 или Х2 0 (АБВ) 2 0; 1 1 (ГДЕ) 3 0; 1;2 2 (ЖЗИ) 4 0; 1; 2; 3 3 (КЛ) 5 0; 1; 2; 3; 4 4 (МН) 6 0; 1; 2; 3; 4; 5 5 (ОП) 2 -1; 1 6 (РС) 3 0; 1;-1 7 (ТУФ) 4 -2; -1; 1; 2 8 (ХЦЧШ) 5 0; 1; -1; 2; -2 9 (ЩЭЮЯ) 6 -3; -2; -1; 1; 2; 3 270 Задание 3 Реализовать алгоритм Шеннона-Фенно, алгоритм сортировки выбрать из таблицы 1 (номер алгоритма определяется, как [номер вашего варианта mod 6])*, а условие деление массива на два подмассива в таблице 2 (номер условия определяется, как [номер вашего варианта mod 5]) Таблица Выбор алгоритма сортировки Вариант Алгоритм сортировка 1 (АБВГ) Пузырьковая 2 (ДЕЖЗИ) Вставкой 3 (КЛМН) Шейкерная 4 (ОПРСТ) Выбором 5 (УФХЦЧ) Быстрая 6 (ШЩЭЮЯ) Слиянием Таблица Условие построение подмассивов Вариант Способ построения подмассивов 1 (АБВГД) Выбрано такое количество элементов в первый подмассив, чтобы сумма вероятности первого подмассива имеет минимальное отличие от суммы вероятности второго подмассива 2 (ЕЖЗИК) Выбрано наибольшее число элементов первого подмассива, при котором сумма вероятности его элементов не больше полусуммы вероятностей всех элементов массив. Если это условие не может быть выполнено, то первый подмассив состоит из одного элемента с наибольшей вероятностью. 3 (ЛМНОП) Выбрано наибольшее число элементов первого подмассива, при котором сумма вероятности оставшихся элементов не меньше полусуммы вероятностей всех элементов массив. Если это условие не может быть выполнено, то первый подмассив состоит из одного элемента с наибольшей веро271 ятностью. 4 (РСТУФХЦ) Выбрано наименьшее число элементов первого подмассива, при котором сумма вероятности его элементов больше полусуммы вероятностей всех элементов массив 5 (ШЩЭЮЯ) Выбрано наименьшее число элементов первого подмассива, при котором сумма вероятности оставшихся элементов не больше полусуммы вероятностей всех элементов массив Задание 4 Задана вероятность встречи «0» и «1» в двоичном коде (сумма этих вероятностей равна 1). Для различного размера блоков реализовать алгоритм Хафмена и определите среднюю степень сжатия. Исходя из варианта, определите особенность организации очереди (таблице 1) и алгоритм обхода дерева (таблице 2). Таблица Варианты организации очереди Вариант Особенности организации очереди Направление сортировки 1 (АБ) Предварительная сортировка массива. Алгоритм сортировки – вставкой Убывание 2 (ВГ) Предварительная сортировка массива. Алгоритм сортировки – пузырьковой Убывание 3 (ДЕ) Предварительная сортировка массива. Алгоритм сортировки – выбором Убывание 4 (ЖЗИ) Предварительная сортировка массива. Алгоритм сортировки – обменом Убывание 5 (КЛ) Сортировку осуществлять при добавлении в очередь Убывание 6 (МН) Предварительная сортировка массива. Алгоритм сортировки – вставкой Возрастание 272 7 (ОП) Предварительная сортировка массива. Алгоритм сортировки – пузырьковой Возрастание 8 (РС) Предварительная сортировка массива. Алгоритм сортировки – выбором Возрастание 9 (ТУ) Предварительная сортировка массива. Алгоритм сортировки – обменом Возрастание 10 (ФХЦШ) Сортировку осуществлять при добавлении в очередь Возрастание 11 (ЩЭЮЯ) Без сортировки очереди Таблица 2 Врианты обхода дерева Вариант Алгоритм обхода дерева 1 (А-К) Префиксный 2 (Л-Я) Постфиксный Задание 5 Дан либо исходный текст, либо код этого текста (в зависимости от вида функции варианта). Реализовать алгоритм с соответствующими особенностями. Таблица Выбор алгоритма и вида функции Название Вариант словарного алгоритма 1 (А) 2 (Б) LZ77 LZ77 Вид функции Особенности алгоритма поиск в словаре подстроки из буфера, для определения ее первого вхождения справа кодирование кодирование 273 поиск в словаре подстроки из буфера, для определения ее первого вхождения слева 3 (В) 4 (Г) LZ77 LZSS декодирование кодирование поиск в словаре подстроки из буфера, для определения ее первого вхождения справа поиск в словаре подстроки из буфера, для определения ее первого вхождения слева 5 (Д) LZSS кодирование 6 (Е) LZSS декодирование 7 (ЖЗ) LZB кодирование поиск в словаре подстроки из буфера, для определения ее первого вхождения справа поиск в словаре подстроки из буфера, для определения ее первого вхождения слева 8 (И) LZB кодирование 9 (К) LZB декодирование 10 (Л) LZ78 кодирование 11 (М) LZ78 декодирование 12 (Н) LZW кодирование 13 (О) LZW декодирование 14 (П) 15 (Р) LZC LZC кодирование модификация LZW: ограничение размера словаря, при превышении его размера словарь очищается модификация LZW: ограничение декодирование размера словаря, при превышении его размера словарь очищается 16 (С) LZC кодирование модификация LZW: ограничение размера словаря, при превышении его размера из словаря убираются строки, которые редко используются 17 (Т) LZ77 кодирование использования больших массивов из текстовых файлов 18 (У) LZ77 кодирование использования больших массивов из 274 текстовых файлов 19 (Ф) LZSS кодирование использования больших массивов из текстовых файлов 20 (Х) LZSS кодирование использования больших массивов из текстовых файлов 21 (Ц) LZ78 кодирование использования больших массивов из текстовых файлов 22 (ШЩ) LZ78 кодирование использования больших массивов из текстовых файлов 23 (Э) LZW декодирование использования больших массивов из текстовых файлов 24(ЭЮЯ) LZW кодирование использования больших массивов из текстовых файлов 275 ЗАДАНИЯ ДЛЯ САМОПРОВЕРКИ Тесты для самоконтроля 1. Отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется, отражает … 1) синтаксическая адекватность 2) семантическая адекватность 3) прагматическая адекватность 4) смысловая адекватность 2. Информация не может быть следующих видов: 1) дискретная 2) логическая 3) аналоговая 4) нет правильного ответа 3. Для измерения смыслового содержания информации используется …. 1) синтаксическая мера информации 2) семантическая мера информации 3) прагматическая мера информации 4) вероятностная мера информации 4. К методам классификации объектов не относится … 1) иерархический 2) сетевой 3) фасетный 4) дескрипторный 5. Классификационное кодирование включает в себя: 276 1) логическое 2) параллельное 3) полудуплексное 4) симметричное 6. Регистрационное кодирование включает в себя: 1) групповую 2) порядковую 3) серийную 4) логическую 7. Цель сжатия - это … 1) уменьшение информации, необходимой для хранения или передачи данных, путем отбрасывания маловажной информации 2) уменьшение количества бит, необходимых для хранения или передачи заданной информации, что дает возможность передавать сообщения более быстро и хранить более экономно и оперативно 3) возможность передавать сообщения более быстро и хранить более экономно и оперативно 8. Семантическую емкость, равную отношению количества семантической информации в сообщении к объему обрабатываемых данных отражает … 1) репрезентативность 2) содержательность 3) достаточность 4) доступность 277 9. То, что информация содержит минимальный, но достаточный для принятия правильного решения состав (набор) показателей означает … 1) содержательность 2) достаточность 3) доступность 4) актуальность 10. Поступление информации не позже заранее назначенного момента времени, согласованного с временем решения поставленной задачи, означает … 1) доступность 2) актуальность 3) своевременность 4) точность 11. Степень близости получаемой информации к реальному состоянию объекта (процесса, явления и т.д.) определяет … 1) доступность 2) актуальность 3) своевременность 4) точность 12. Способность информации реагировать на изменения исходных данных без нарушения необходимой точности отражает … 1) доступность 2) актуальность 3) устойчивость 4) точность 278 13. По признаку места возникновения информацию не выделяют класс … информации 1) входной 2) выходной 3) управляющей 4) внутренней 14По стадии обработки не может быть … информации 1) первичной 2) дополнительной 3) промежуточной 4) результатной 15. По способу отображения информация не подразделяется на: 1) текстовую 2) графическую 3) логическую 4) нет правильного ответа 16. По стабильности информация не может быть: 1) справочной 2) переменной 3) постоянной 4) нет правильного ответа 17. При классификации информации по функциям управления не выделяют следующие группы. 1) плановая 2) нормативно-справочная 3) учетная 279 4) стратегическая 18. Постоянная информация не может быть: 1) справочной 2) нормативной 3) управленческой 4) плановой 19. Информацию нельзя передавать … 1) последовательно 2) параллельно 3) симметрично 4) нет правильного ответа 20. Вероятностный подход к измерению дискретной и непрерывной информации предложил … 1) Р. Клаузиус 2) Р. Фишер 3) К. Шеннон 4) К. Вирт 21. Система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком – это … 1) кодирование 2) сжатие 3) классификация 4) верификация 280 22. Метод, алгоритм которого заключается в следующем: «значения дискретная СВ располагают в порядке убывания их вероятностей, а затем последовательно делят на две части с приблизительно равными вероятностями, к коду первой части добавляют 0, а к коду второй – 1», это … 1) метод Шеннона-Фэно 2) метод Хаффмена 3) арифметическое кодирование 4) метод LZW 23. В фасете содержится … 1) совокупность однородных значений классификационного признака 2) классификаторы 3) классификационный признак 4) атрибуты информационного объекта 24. Структура кода - это … 1) порядок расположения в коде символов, используемых для обозначения классификационного признака 2) порядок следования в коде символов 3) совокупность правил кодового обозначения объектов 4) зашифрованное сообщение 25. Теория информации изучает … 1) разделы кибернетики 2) свойства информации 3) дискретные и непрерывные случайные величины 4) алгоритмы кодирования 281 26. На первом шаге процесса функционирования АИПС происходит … 1) выделение из поискового массива тех документов, содержание которых соответствует поисковому предписанию 2) процесс индексирования текстов 3) кодирование 4) ввод запроса пользователя 27. Недостаток иерархической системы классификации состоит в … 1) сложности построения 2) простоте построения 3) абсолютной негибкости структуры 4) нет правильного ответа 28. Сообщение – это … 1) изменяющийся во времени физический процесс 2) известие 3) совокупность знаков или первичных сигналов, содержащих информацию 4) нет правильного ответа 29. Экономическая информация – это … 1) система распределения объектов по классам в соответствии с определенным признаком 2) процедура группировки на качественном уровне, направленная на выделение однородных свойств 3) отражение социально-экономических процессов и сведения, служащие для управления этими процессами и коллективами людей в производственной и непроизводственной сфере 282 4) дискретные и непрерывные случайные величины 30. АИПС предназначена для ввода, обработки, хранения и поиска 1) синтаксической информации 2) семантической информации 3) прагматической информации 4) логической информации 31. В классификации АИПС не существует класса … 1) документальные системы 2) фактографические системы 3) информационно-логические системы 4) интеллектуальные системы 32. В АИПС не выделяют обеспечивающей подсистемы … 1) информационного обеспечения; 2) лингвистического обеспечения; 3) алгоритмического обеспечения 4) технического обеспечения 33. «Специализированный искусственный язык, предназначенный для описания основного содержания и формальных характеристик документов с целью информационного поиска» определяет понятие … 1) язык 2) информационный язык 3) информационно-поисковый язык 4) алгоритмический язык 34. Представления языковых объектов не различают следующего уровня … 283 1) семантика 2) синтаксис 3) полисемия 4) фонетика 35. Основным элементом ИПЯ не является 1) алфавит 2) синтаксис 3) лексика 4) грамматика 36. В качестве лексических единиц ИПЯ не используются: 1) слова, фрагменты слов, словосочетания и выражения любого естественного языка; 2) коды и шифры 3) правила языка 4) нет правильного ответа 37. К информационно-поисковым языкам, его конструкциям и элементам может быть предъявлено требование … 1) ИПЯ должен располагать лексико-грамматическими средствами для точного выражения основного содержания текста 2) ИПЯ должен быть двусмысленным. 3) ИПЯ должен содержать элементы, отображающие волевое побуждение, эмоции и т.д. 4) ИПЯ должен быть удобным для изучения. 38. По характеру входной продукции не различают следующие АИПС 1) интеллектуальные 284 2) документальные 3) фактографические 4) информационно-логические 39. Разбиение АИПС, позволяющее выделить ее информационные, программные, технические и трудовые компоненты – это … 1) функциональная декомпозиция 2) покомпонентная декомпозиция 3) декомпозиция на обеспечивающие составляющие 4) организационная декомпозиция 40. Разбиение АИПС на обеспечивающие подсистемы – это … 1) функциональная декомпозиция 2) покомпонентная декомпозиция 3) декомпозиция на обеспечивающие составляющие 4) организационная декомпозиция 41. Совокупность всех отношений, реализуемых синтаксисом ИПЯ - это … 1) синтагматические отношения 2) парадигматические отношения 3) логические отношения 4) информационные отношения 42. По способу образования словарного состава не различают … 1) ИПЯ с жестким словарем 2) ИПЯ со свободным словарем 3) ИПЯ со словарем понятий и определений 4) ИПЯ без словаря 285 43. По наличию парадигматических отношений не различают 1) ИПЯ с базисными отношениями 2) ИПЯ без базисных отношений 3) ИПЯ с внешними отношениями 4) нет правильного ответа 44. По учету синтагматических отношений не различают ИПЯ: 1) с мощной синтагматикой 2) с неразвитой синтагматикой 3) с развитой синтагматикой 4) нет правильного ответа 45. В основе построения дескрипторных ИПЯ лежит … 1) принцип координатного индексирования 2) принцип полного индексирования 3) принцип выборочного индексирования 4) принцип статистического индексирования 46. Полисемия – это … 1) слова, сочетания, выражения, текста при одинаковом написании имеют различный смысл 2) один и тот же знак выражает пучок родственных концептов 3) один и тот же денотат имеет разные знаки 4) система грамматических категорий и способов их выражения 47. При морфологическом анализе в ИПС процедуры усечения не применяются: 1) с использованием словарей 2) без использования словарей 3) с использованием аппарата математической статистики 286 4) нет правильного ответа 48. Перевод запросов на ИПЯ не выполняется в следующих вариантах: 1) перевод всего информационного запроса на ИПЯ и формирование единого ПОЗа 2) использование в процессе поиска всего оригинального сообщения или его составляющих 3) перевод отдельных составляющих на ИПЯ и формирование поисковых образов подзапросов. 4) нет правильного ответа 49. Поисковое предписание (ПП), т.е. задание АИПС на поиск информации, не формулируется следующим образом: 1) формулировка единого ПП, соответствующего единому ПОЗу; 2) формулировка нескольких ПП, соответствующих подзапросам. 3) формулировка одного ПП, соответствующего всем ПОЗам 4) нет правильного ответа 50. Поисковый аппарат АИПС не включает … 1) математический аппарат формализованного представления и поиска информации 2) методы и средства структурирования информационных запросов 3) стратегии формирования информационного обеспечения 4) критерии выдачи информации 51. Процесс формирования ПОЗа не включает следующие этапы: 1) выявление значимых терминов запроса 2) перевод дескрипторов на естественный язык 3) формирование поискового образа запроса 4) не правильного ответа 287 52. Не существует следующих морфологических словарей 1) основ слов 2) окончаний слов 3) ключевых слов 4) нет правильного ответа 53. Управление контентом предприятия – это … 1) система электронного документооборота, включающая представление документации с использование Интернет - технологий 2) решение, объединяющее EDMS - технологии 3) единый интернет - портал предприятия 4) нет правильного ответа 54. Отличия Enterprise content management (ECM) от Web content management (WCM): 1) ECM используется для управления контентом всего предприятия, а WCM только для управления контентом, размещенного на Web - портале; 2) ECM используется как хранилище знаний предприятия; 3) ECM используется, чтобы управлять информацией, не связывая ее с источником или требуемым представлением 4) не существует отличий 55. Можно ли отнести к АСУП системы электронного документооборота и почему? 1) нельзя, так как система документооборота является только частью системы управления предприятием 2) нельзя, так как функции системы документооборота не совпадают с функциями АСУП 288 3) можно, в том случае если основной продукцией предприятия являются документы 4) нельзя, так как система электронного документооборота является документальной системой, а АСУП фактографической 56. К основной задаче информационной системы бюджетирования относится … 1) формирование бюджета организации 2) формирование отчетов об использовании средств предприятия 3) прогноз финансового состояния 4) нет правильного ответа 57. АСТПП (Автоматизированные системы технологической подготовки производства) позволяют автоматизировать следующие операции: 1) подготовка оборудования к выпуску продукции 2) планирование и управление вспомогательными процессами на производстве 3) разработка маршрутов изготовления изделий 4) нет правильного ответа 58. Что отличает системы CAD (Computer Aided Design) и CAE (Computer-Aided Engineering)? 1) СAD и CAE не отличаются ничем, так как обе они используются в инженерном проектировании 2) CAE включает CAD, так как расчет конструкций является первым этапом проектирования 3) CAE реализуют математические алгоритмы инженерного проектирования, а CAD, как правило, реализуют функции инженерной графики 4) нет правильного ответа 289 59. Что отличает концепции компьютеризированного интегрированного производства (CIM -Computer Integrated Manufacturing) и гибкие производственные системы (ГПС)? 1) это одна и та же концепция автоматизированного производства в русскоязычном и англоязычном вариантах 2) гибкие производственные системы не предполагают обязательного использования компьютерной техники; возможно, реализовать «гибкость» путем организационных мероприятий 3) концепция ГПС предполагает создание автоматической производственной системы, в то время как, CIM не требует полной автоматизации 4) нет правильного ответа 60. Что отличает Управление цепочками поставок (SCM - Supply Chain Management) и Управление взаимоотношениями с клиентами (CRM - Customer Relationships Management)? 1) это одни и те же системы, главной задачей которых является планирование работы с поставщиками 2) SCM основное внимание уделяет работе поставщикам, в то время как, CRM основное внимание уделяет покупателям 3) главная задача SCM - систем – планирование и оптимизация снабжения, в то время как, CRM акцентирует внимание на взаимодействии с клиентом 4) нет правильного ответа 61. Что отличает концепции CALS (Continuous Acqusition and Life cycle Support - непрерывные поставки и информационная поддержка жизненного цикла продукции) и PLM (Product Lifecycle Management управление жизненным циклом изделия)? 1) PLM совокупность средств информационной поддержки изделия и ин-тегрирования автоматизированных систем предприятия, что практически 290 совпадает с определением понятия CALS, как единой информационной системы, обеспечивающей интеграцию промышленных автоматизированных систем 2) CALS и PLM обозначает одну и ту же концепцию. CALS аббревиатура используется в военной промышленности, а PLM в гражданской 3) в отличие от PLM методология CALS регламентируется стандартами 4) нет правильного ответа 62. Что отличает автоматизированные системы (АС) и информационные системы? 1) АС и ИС отличает объект автоматизации 2) АС и ИС обозначает одно множество компьютерных систем 3) АС регламентируются стандартом ГОСТ 34, в то время как, понятие ИС не имеет четкого определения 4) нет правильного ответа 63. Что отличает автоматизированные системы (АС) и информационные системы? 1) АС не используют хранилища данных 2) АС и ИС обозначает одно множество компьютерных систем 3) АС предполагает автоматизацию бизнес - процессов, в то время как, ИС могут использовать только ручную обработку информации 4) нет правильного ответа 64. Что общего в автоматизированных системах (АС) и информационных системах? 1) в АС и ИС в систему включаются люди, взаимодействующие с технологическим оборудованием 2) АС и ИС предполагают использование баз данных 3) АС и ИС предполагают использование компьютеров 4) нет правильного ответа 291 65. «Информационная система (ИС) — это система, предназначенная для ведения информационной модели, чаще всего — какой-либо области человеческой деятельности». Что не определено в данной формулировке. 1) не определено участие компьютерных систем 2) не определено участие человека в качестве составляющей системы 3) не определены задачи информационной системы 4) нет правильного ответа 66. Можно ли отнести машинные информационные системы (computer-based information systems) к информационным системам и почему? 1) можно, так как машинные информационные системы выполняют теже задачи, что и информационные системы 2) машинные информационные системы являются подмножеством информационных систем 3) нельзя, так как это только часть информационных систем 4) нет правильного ответа 67. Комплекс стандартов на автоматизированные системы включает в себя … 1) ГОСТ 34.ххх 2) ГОСТ 19.ххх 3) ГОСТ 21.ххх 4) ГОСТ 37.ххх 68. В соответствии ГОСТ 34.ххх ТЗ не разрабатывают в случае: 1) плохо выраженных требований к АС 2) когда требования к АС включены в задание на проектирование 3) когда разрабатывается часть АС 4) нет правильного ответа 292 69. В соответствии ГОСТ 34.ххх изменения к ТЗ на АС не оформляются: 1) дополнением к ТЗ 2) протоколом, подписанным заказчиком и разработчиком 3) новой версией ТЗ 4) нет правильного ответа 70. В какой части ТЗ по ГОСТ 34.602 порядок оформления и предъявления заказчику результатов работ по созданию системы: 1) раздел требований к системе 2) раздел «порядок контроля и приемки системы» 3) раздел общих требований 4) нет правильного ответа 71. В соответствии ГОСТ 34.ххх перечень наименований и комплектность разрабатываемых документов на АС: 1) должен быть определен в техническом задании на создание АС 2) должен быть определен в договоре между заказчиком и исполнителем 3) не определяется 4) нет правильного ответа 72. В соответствии ГОСТ 34.201 к документации на автоматизированную систему не относят: 1) комплекс взаимоувязанных документов, в котором полностью описаны все решения по созданию и функционированию системы 2) только техническое задание 3) совокупность документации на АС, необходимой для изготовления, строительства, монтажа и наладки автоматизированной системы в целом 4) нет правильного ответа 293 73. В соответствии ГОСТ 34.603 испытания АС проводят на стадии: 1) рабочая документация по ГОСТ 34.601 2) ввод в действие по ГОСТ 34.601 3) сопровождение АС по ГОСТ 34.601 4) нет правильного ответа 74. В соответствии ГОСТ 34.603, в зависимости от взаимосвязей испытываемых в АС объектов, не может быть … испытаний 1) автономных 2) комплексных 3) гибридных 4) нет правильного ответа 75. Укажите верное высказывание: 1) приемочным испытаниям АС должна предшествовать ее опытная эксплуатация на объекте 2) опытной эксплуатации АС на объекте должны предшествовать ее приемочные испытания 3) опытная эксплуатация АС на объекте производится параллельно с приемочными испытаниями 4) нет правильного ответа 76. В соответствии ГОСТ 34.603, в зависимости от вида требований, предъявляемых к АС на испытаниях, проверке или аттестации в ней не подвергают…. 1) персонал; 2) АС в целом 3) техническую документацию 4) нет правильного ответа 294 77. Работу по комплексным испытаниям завершают (ГОСТ 34.603)… 1) оформлением акта приемки в опытную эксплуатацию 2) протоколом результатов испытаний 3) нет верного ответа 4) нет правильного ответа 78. Во время опытной эксплуатации АС по ГОСТ 34.603 для отражения информации об отказах, сбоях, аварийных ситуациях и т.п. ведут: 1) акт сверки с требованиями; 2) рабочий журнал 3) протоколы 4) нет правильного ответа 79. Результаты испытаний объектов, предусмотренных программой, фиксируют в (ГОСТ 34.603): 1) акт сверки с требованиями 2) рабочий журнал 3) в протоколах 4) нет правильного ответа 80. В соответствии ГОСТ 34.602, состав какого раздела ТЗ на АС может включать расчёт ожидаемой эффективности системы: 1) расчёты и оценки включают в состав приложений к ТЗ 2) расчёты и оценки включают в раздел состав и содержание работ по созданию системы 3) расчёты и оценки не включают в состав ТЗ 4) нет правильного ответа 81. Согласно ГОСТ 34.602 номера листов в ТЗ проставляют: 295 1) начиная с первого листа, следующего за титульным, в верхней части листа 2) начиная с первого листа, следующего за титульным, в нижней части листа 3) начиная с первого (титульного) листа, в верхней части листа 4) нет правильного ответа 82. В соответствии ГОСТ 34.602 подписи разработчиков ТЗ на АС помещают: 1) на титульном листе ТЗ 2) на последнем листе ТЗ 3) не помещают, т.к. помещаются лишь подписи заказчика и разработчика 4) нет правильного ответа 83. Какие типы бизнес - процессов обычно не выделяют (ИСО 9000): 1) процессы управления 2) процессы контроля 3) процессы вспомогательные 4) операционные процессы 84. Компьютерная система (computer –based information system) является… 1) синонимом информационной системы, в которой используется компьютерная техника 2) частью информационной системы 3) понятием, включающим информационную систему и технические средства, на которых развернута информационная система 4) нет правильного ответа 296 85. СИБИД – это…. 1) система стандартов по информации, библиотечному и издательскому делу 2) стандарты, интегрирующие бизнес - процессы и документацию 3) стандарты информационно - библиотечной иерархии документов. 4) нет правильного ответа 86. ГПС (ГОСТ 26228-90) - это… 1) системы, реализующие концепцию «безлюдного производства» 2) государственная правовая система 3) гибкие системы проектирования, позволяющие разработать информационные системы согласно требованиям заказчика 4) нет правильного ответа 87. АСУ является…. 1) наряду с САПР, частным случаем АС 2) синонимом автоматизированных систем 3) обобщением понятия АС, так как любые автоматизированные системы имеют функцию управления 4) нет правильного ответа 88. Русскоязычный термин «хранилища данных» обозначает: 1) Data Warehouse 2) системы хранения данных, таких как Direct-Attached Storage, Storage Area Network 3) СУБД большой емкости 4) нет правильного ответа 89. СППР – это … 1) инструмент, одной из главных функций которого является оказание помощи лицу, принимающего решения 297 2) система программно-проектной разработки 3) программная система, реализующая алгоритмы принятия управленческих решений 4) нет правильного ответа 90. Можно ли OLTP - системы считать частным случаем баз данных, и почему? 1) можно, так как OLTP системы должны использовать хранилища данных 2) нельзя, так как базы данных не являются информационными системами 3) нельзя, так как OLTP системы используют не базы данных, а хранилища данных 4) можно, так как OLTP системы и базы данных не являются информационными системами 91. Инженер по знаниям выполняет следующие задачи в экспертной системе: 1) создает новые знания 2) отображает знания экспертов в базу знаний экспертной системы 3) обучает пользователей системы знаниям работы с ней 4) нет правильного ответа 92. Наиболее распространенные СППР - … 1) СОД 2) IRS (information reporting systems- ИС генерации отчетности) 3) Business Intelligence 4) нет правильного ответа 93. Недостатки ROLAP (Relational OLAP): 298 1) малая производительность системы 2) ограниченный объем хранилища данных 3) трудность реализации функций SQL языка 4) отсутствуют недостатки 94. Какой из вышеприведенных нормальных форм удовлетворяют реляционные хранилища ROLAP: 1) 1 НФ 2) 2 НФ 3) 3 НФ 4) всем вышеперечисленным 95. Что отличает системы Business Intelligence и KDD (Knowledge Discovery in Databases)? 1) система Business Intelligence включает процесс поиска полезных знаний в «сырых» данных 2) процесс поиска полезных знаний в «сырых» данных использует системы Business Intelligence 3) это одни и те же системы, различное название используется различными производителями систем 4) нет правильного ответа 96. Data mining (Добыча данных) - это….. 1) процесс добычи знаний из большого массива данных, находящихся в разнородных хранилищах 2) процесс аналитического исследования больших массивов информации состоящий из трех этапов: исследование, построение прогнозирующей модели или структуры и ее проверку 3) набор алгоритмов исследования данных с целью выявление отклонений результатов от плана 4) нет правильного ответа 299 97. Что отличает алгоритмы Data mining от статистических алгоритмов обработки данных? 1) алгоритмы Data mining не работают с большим массивом данных; 2) статистические алгоритмы основаны на том, что сначала высказывается гипотеза, а затем проверяется ее достоверность, в то время как, в основе data mining заложены готовые фрагменты (паттерны дынных), которые позволяют определить заранее неизвестные типы закономерности из известных 3) статистические алгоритмы дают возможность обработать данные, но не получить неизвестные знания о системе 4) нет правильного ответа 98. В чем отличие документальных систем и документных? 1) документальные системы включают в качестве подмножества системы документооборота, к которым и относятся документные системы 2) документные системы основаны на представление информации в документах, поэтому они обозначают те же самые системы, что и документальные 3) документные системы включают все системы, работающие с документами, следовательно, и системы, в которых информация представлена в текстовом виде (документальные системы) 4) нет отличия 99. Чем отличают документальные системы от других информационных систем? 1) в данном типе систем используется ИДП (информации документальной преобразование) 2) в данном типе систем информация отображается в текстовом виде 3) в данном типе систем входная и выходная информация представляется документами 300 4) нет отличия 100. Что общего у поисковых алгоритмов и алгоритмов классификации информации? 1) поисковые алгоритмы и алгоритмы классификации информации используются в информационных системах; 2) поисковые алгоритмы включают в качестве подзадачи классификацию информации; 3) поисковые алгоритмы ИПЯ, проводят индексирование и классификацию индексов, используя фасетные, иерархические и дескрипторные алгоритмы 4) нет общих признаков 101. Что общего у документальных информационных систем и автоматизированных систем (АС)? 1) АС включают компьютерные документальные системы; 2) АС используют те же алгоритмы поиска информации, что и документальные системы; 3) документальные системы могут использовать АС в качестве подсистем. 4) нет правильного ответа 102. Что общего у систем выборки данных и информационнопоисковых систем? 1) они используют одинаковый алгоритм классификации информации 2) они используют одинаковый критерий выбора документов 3) и те и другие системы могут использоваться для поиска фактов 4) нет общих признаков 103. Фактографические поисковые системы это…. 1) системы, предназначенные для поиска фактов 301 2) системы, использующие в качестве языка запроса искусственный язык, такой как SQL 3) это документальные системы, предназначенные для поиска фактов 4) нет правильного ответа 104. Что отличает информацию, представленную в Интернете, от информации в классических документальных системах? 1) неструктурированность и избыточность информации Интернета; 2) представление информации по различным протоколам 3) представление документов в Интернете в различных форматах 4) нет отличия 105. Какие из перечисленных показателей могут быть отнесены к экспертным оценкам качества информации в Интернете? 1) PageRank метрика 2) структурные и вспомогательные индексы 4) показатель релевантности 4) ни одно из вышеперчисленных 302 Ключи к тестам для самоконтроля № теста 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 № ответа 3 2 2 2 2 2 2 2 2 3 4 3 3 2 3 1 4 3 3 3 3 1 1 1 2 2 3 3 3 2 4 3 3 3 2 № ответа 3 1 1 2 3 1 3 3 1 1 2 3 2 3 3 2 3 2 3 3 3 3 3 3 3 3 3 3 1 2 3 1 2 3 3 № теста 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 303 № теста 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 № ответа 1 2 2 3 1 3 1 2 3 1 1 2 2 2 1 1 1 1 1 2 2 2 1 1 1 2 2 1 1 3 1 3 1 1 1 Темы контрольных работ Цель контрольной работы – вооружить обучаемых практическими навыками использования методологий разработки информационных систем, способствовать восприятию ими новых подходов к разработке программного обеспечения, выработать логику принятия решений при выборе средств разработки. В результате выполнения практической работы студенты должны научиться оценивать реальный объем проекта, его цели и задачи на основе выявленных функций и информационных элементов автоматизируемого объекта, а также формировать техническое задание на информационную систему. В соответствии с тербованиями ГОС по данной дисциплине контрольная работа предусматривает закрепление теоретических знаний, приобретение практических навыков по решению задач разработки информационных систем, а также формирование у обучаемых представления о составе, содержании и процедуре создания основных документов в процессе канонического проектирования ИС. Отчет по практической работе предоставляется в виде Word-файла, в котором средствами приложения он оформляется с использованием табличных и графических материалов. Каждый обучаемый проводит обследование отдельной предметной области (в соответствии со своим вариантом). В качестве результата представляет отчет об обследовании, который содержит разделы: • Анализ существующего уровня автоматизации. • Составляется список программного обеспечения, используемого в компании, и приводятся данные об использовании этих пакетов в каждом из подразделений организации. • Общие требования к ИС (формулируются общие требования к функциональности разрабатываемой системы). 304 • Формы документов (устанавливается перечень и структура документов, которые должны формироваться системой). • Описание системы учета. Описание системы учета включает в себя следующие документы:  учетная политика компании;  план счетов и используемых аналитик;  список типовых хозяйственных операций и их отражение в проводках. • Описание справочников. По каждому справочнику, проектируемому в системе, дается описание необходимой иерархической структуры. • Организационная диаграмма (организационная диаграмма используется для отражения организационной структуры подразделений предприятия и их зон ответственности). • Описание состава автоматизируемых бизнес-процессов (все бизнес-процессы компании должны быть перечислены в общем списке и каждый должен иметь свой уникальный номер). • Физическая диаграмма (физическая диаграмма служит для того, чтобы описать взаимодействие организации на верхнем уровне с внешними контрагентами) • Описания бизнес-процессов (книга бизнес-процессов). • Проект технического задания. Таблица Варианты контрольной работы Вариант Предметная область 1 (А) Продуктовый магазин 2 (Б) Книжный магазин 3 (В) Страховое агентство 305 4 (Г) Риэлторская фирма 5 (Д) Фитнес-клуб 6 (Е) Дом отдыха, туристическая база 7 (ЖЗ) Кафе, столовая 8 (И) Строительно-монтажное предприятие 9 (К) Авторемонтное предприятие 10 (Л) Гостиница 11 (М) Туристическое агентство 12 (Н) Центр проката спортивного снаряжения 13 (О) Аптека 14 (П) Библиотека 15 (Р) Товарищество собственников жилья 16 (С) Рекламное агентство 17 (Т) Ателье 18 (У) Отдел материально-технического снабжения предприятия 19 (Ф) Бюро по трудоустройству 20 (Х) Отдел кадров 21 (Ц) Отдел вневедомственной охраны 22 (ШЩ) 23 (Э) 24(ЭЮЯ) Агентство доставки грузов Дошкольное учреждение Библиотека 306 Вопросы для подготовки к экзамену (зачету) 1. Формально-структурные характеристики информации 2. Степень соответствия образа объекта и самого объекта 3. Отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется 4. Виды информации 5. Меры количества информации 6. Измерение смыслового содержания информации 7. Методы классификации объектов 8. Требования, соблюдаемые при любой классификации 9. Системы кодирования 10. Классификационное кодирование 11. Параллельное кодирование 12. Последовательное кодирование 13. Регистрационное кодирование 14. Понятие сжатия информации и ее цели 15. Качественные характеристики информации 16. Классификация информации по признаку места возникновения 17. Классификация информации по стадии обработки 18. Классификация информации по способу отображения 19. Классификация информации по стабильности 20. Классификация информации по функциям управления 21. Способы передачи информации 22. Вероятностный подход к измерению дискретной и непрерывной информации 23. Энтропия дискретной случайной величины 24. Виды связи между дескрипторами 25. Метод сжатия Шеннона-Фэно 26. Метод сжатия Хаффмена 307 27. Арифметическое кодирование 28. Метод сжатия LZW 29. Классификационные понятия точности информации 30. Структура 31. Свойства энтропии дискретных случайных величин 32. Понятие сообщения и информации 33. Понятие экономической информации 34. Назначение Автоматизированной Информационно–Поисковой Системы 35. Процесс функционирования АИПС 36. Классификация АИПС 37. Обеспечивающие подсистемы АИПС 38. Понятие поиска информации 39. Понятие языка 40. Понятие информационного языка 41. Понятие алгоритмического языка 42. Понятие информационно-поискового языка 43. Уровни представления языковых объектов 44. Основные элементы ИПЯ 45. Понятие лексических единиц ИПЯ 46. Требования к информационно-поисковым языкам, его конструкциям и элементам 47. Парадигматические отношения в ИПЯ 48. Синтагматические отношения в ИПЯ 49. Классификация АИПС по характеру входной продукции 50. Разбиение АИПС на функциональные составляющие (подсистемы) 51. Разбиение АИПС, позволяющее выделить ее информационные, программные, технические и трудовые компоненты 52. Разбиение АИПС на обеспечивающие подсистемы 53. Разбиение АИПС на организационные составляющие 308 54. Разбиение логико-семантических средств, обеспечивающих создание и функционирование АИПС 55. Понятие синтагматических отношений 56. Классификация ИПЯ по По характеру использования грамматических средств 57. Классификация ИПЯ по способу образования словарного состава 58. Классификация ИПЯ по характеру словаря 59. Классификация ИПЯ по наличию парадигматических отношений 60. Классификация ИПЯ по учету синтагматических отношений 61. Основы построения дескрипторных ИПЯ 62. Нежелательные ситуации, возникающие при поиске при использовании чистой координации 63. Ликвидация недостатков использования чистой координации при поиске 64. Способы построения словарей 65. Количественные характеристики словарей информационно-поискового языка 66. Процедуры усечения, применяемые при морфологическом анализе в ИПС 67. Перевод запросов на ИПЯ 68. Поисковое предписание 69. Поисковый аппарат АИПС 70. Процесс формирования ПОЗа 71. Основные показатели функциональной эффективности АИПС 72. Типы информационных массивов, используемых в ИПС 73. Уровни представления языковых объектов 74. Основные элементы дескрипторных ИПЯ 75. Морфологические словари 76. Системы электронного документооборота 309 77. Направления развития систем EDMS — Electronic Document Management Systems 78. Управление контентом предприятия 79. Enterprise content management (ECM) 80. Отличия между Enterprise content management (ECM) от Web content management (WCM) 81. Соотношение АСУП и системы электронного документооборота 82. Отличие между ERP-системами и системами процессноориентированного управления ABM/С (activity-based management, activity-based cost 83. Отличие между MRP II - системами и ERP–системами 84. Бухгалтерские информационные системы 85. Основные задачи информационной системы бюджетирования 86. Понятие САПР 87. АСТПП (Автоматизированные системы технологической подготовки производства) 88. Отличие системы CAD (Computer Aided Design) и CAE (ComputerAided Engineering 89. Отличие между концепцией компьютеризированного интегрированного производства (CIM-Computer Integrated Manufacturing) и гибкими производственными системами (ГПС) 90. Отличие между Управлением цепочками поставок (SCM - Supply Chain Management) и Управлением взаимоотношениями с клиентами (CRM Customer Relationships Management) 91. Отличие между концепцией CALS (Continuous Acqusition and Life cycle Support - непрерывные поставки и информационная поддержка жизненного цикла продукции) и PLM (Product Lifecycle Management управлением жизненным циклом изделия) 92. Отличие между автоматизированными системами (АС) и информационными системами 310 93. Общие черты в автоматизированных системах (АС) и информационных системах 94. Понятие информационной системы 95. Машинные информационные системы (computer-based information systems) 96. Комплекс стандартов на автоматизированные системы 97. Разработка ТЗ в соответствии с ГОСТ 34.ххх 98. Перечень наименований и комплектность разрабатываемых документов на АС в соответствии ГОСТ 34.ххх 99. Документация на автоматизированную систему 100. Испытания АС в соответствии ГОСТ 34.ххх 101. Разработка предварительных проектных решений по системе и её частям в соответствии ГОСТ 34.601 102. Стадии создания АС в соответствии ГОСТ 34.601 103. Требования ТЗ для информационного обеспечения системы в соответствии ГОСТ 34.602 для программного обеспечения системы в соответствии ГОСТ 34.602 104. Сроки согласования проекта ТЗ на АС согласно ГОСТ 34.602 105. Расчёт ожидаемой эффективности системы в соответствии ГОСТ 34.602 106. Порядок разделов и подразделов ТЗ на АС, установленный в ГОСТ 34.602 107. Правила оформления ТЗ согласно ГОСТ 34.602 108. Классификация информационных систем 109. Подсистемы, выделяемы в информационной системе 110. Жизненный цикл информационной системы 111. Бизнес – процесс (ИСО 9000) и его виды 112. Компьютерная система (computer –based information system) 113. ГПС (ГОСТ 26228-90) 311 114. Классификация систем, основанная на форме представления информации 115. Группа стандартов, определяющая документальные информационные системы 116. Система Обработки Данных 117. Автоматизированные системы управления и их функции 118. Management information systems (MIS) 119. Системы поддержки принятия решений (СППР). Примеры. 120. OLTP 121. Информационные системы руководства (ИСР, executive information systems – EIS 122. Методы искусственного интеллекта 123. Системы Business Intelligence 124. Экспертная система и цели ее создания 125. Инженер по знаниям и его задачи в экспертной системе 126. Принципы, относящиеся к OLAP–системам 127. Операции с OLAP кубами 128. Системы MOLAP (Multidimensional OLAP) и их достоинства 129. Недостатки ROLAP (Relational OLAP) 130. Семантический слой в системах Business Intelligence 131. Сравнение системы Business Intelligence и KDD (Knowledge Discovery in Databases) 132. Системы Data mining и их алгоритмы 133. Отличие документальных систем от документных и других информационных систем 134. Информации документальной преобразование (ИДП) 135. Поисковые алгоритмы и алгоритмы классификации информации 136. Организация поисковой системы 137. Общие черты систем выборки данных и информационно-поисковых систем 312 138. Фактографические поисковые системы 139. Общие черты поиска в Интернете и задачи классического поиска информации 140. Поисковая система Интернета 141. Характеристики информации, представленной в Интернете 142. Показатели экспертной оценки качества информации в Интернете 143. Использование ручного труда для классификации информации в Интернете 313 СПИСОК ЛИТЕРАТУРЫ Основная литература 1. Информационные системы в экономике: Учебник под ред. В.В. Дика – М.: Финансы и статистика, 2004 г. 2. Вендеров А.М. Проектирование программного обеспечения экономических ИС: учебник – М.: Финансы и статистика, 2000 3. Автоматизированные информационные технологии в экономике. Учебник/ М.И. Семенов, И.Т. Трубилин, В.И. Лейко – М.: Финансы и статистика, 2003 4. Гайдамакин И.А. Автоматизированные ИС, банки и БД: уч. Пособие – М.: Гелиос, АРВ, 2002 5. Ланкастер Ф.У. Информационные поисковые системы. – М.: Мир, 1972 6. Компьютерные технологии в обработке информации / под ред. С.В. Назарова, - М.: Финансы и статистика, 1995 7. Якубайтис Э.А. Информационные сети и системы. – М.: Финансы и статистика, 1996 8. Мишенин А.И. Теория экономических информационных систем. - М.: Финансы и статистика, 2003. Дополнительная литература 1. Матвеев ЛЛ. Информационные системы: Поддержка принятия решений: Учебное пособие. - Спб.: Изд-во СПбУЭФ, 1996. 2. Пономарева К.В., Кузьмин Л.Г. Информационное обеспечение АСУ. - М.: Высш. шк., 1991. 3. Криницкий Н.А., Миронов Г.А., Фролов Г.Д. Автоматизированные информационные системы. -М.: Наука, 1982. -384 с. 314 4. Максимович Г.Ю., Романенко А.Г., Самойлюк О.Ф. Фактографические базы данных: модели данных, концептуальное и логическое проектирование.- М.: РГГУ, 1997. -83 с. 5. Мартин Дж. Организация баз данных в вычислительных системах. М.:Мир, 1980.-662 с. 6. Попов И.И., Романенко А.Г., Сумароков Л.Н. Теоретико-множественное моделирование информационных систем //Вопросы информационной теории и практики.- М.: ВИНИТИ, 1978. № 33-34. -С. 16-63. 7. Романенко А.Г. Моделирование информационных систем. - М.: МГИАИ, 1988. -83 с. 315 ГЛОССАРИЙ Business Intelligence - интеллектуальный инструментарий, позволяющий решать проблемы доступа к разнородным данным, построению отчетов пользователей и анализу данных. Данные системы могут включать: хранилища данных, запросы конечного пользователя и инструмент для создания отчетов, OLAP инструменты, Data Mining инструменты. Data mining (Добыча данных) - процесс аналитического исследования больших массивов информации (обычно экономического характера) с целью выявления определенных закономерностей и систематических взаимосвязей между переменными, которые затем можно применить к новым совокупностям данных. Этот процесс отнюдь не является аналогом поиска отклонений в данных при помощи OLAP-инструментария и включает три основных этапа: исследование, построение прогнозирующей модели или структуры и ее проверку. Как правило, приложения для "добычи данных" существенно отличаются от OLAP-продуктов и в большей степени предназначены непосредственно для специалистов. В системах "добычи данных" реализованы совершенно другие инструментальные средства от производителей ПО иного, чем средства OLAP. HOLAP (Hybrid OLAP). Гибридные системы (Hybrid OLAP, HOLAP) разработаны с целью совмещения достоинств и минимизации недостатков, присущих предыдущим классам. В книге Т. Конноли /49/ данная технология описана как инструмент, управляемый средой запросов (MQE) c промежуточным MOLAP кубом. Knowledge Discovery in Databases (KDD) - процесс поиска полезных знаний в «сырых данных». KDD включает в себя процессы: подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining (DM), постобработки данных. KDD не задает набор методов обработки и алгоритмов, он определяет последовательность действий, кото- 316 рые необходимо сделать для того, чтобы из исходных данных получить знания. MOLAP (Multidimensional OLAP). В MOLAP-модели многомерное представление данных реализуется физически. В специализированных СУБД, основанных на многомерном представлении данных, данные организованы не в форме реляционных таблиц, а в виде упорядоченных многомерных массивов. OLAP-технология — это технология комплексного динамического синтеза, анализа и консолидации больших объемов многомерных данных. ROLAP (Relational OLAP). Системы оперативной аналитической обработки реляционных данных (ROLAP) позволяют представлять данные, хранимые в реляционной базе в многомерной форме, обеспечивая преобразование информации в многомерную модель через промежуточный слой метаданных. В этом случае гиперкуб эмулируется СУБД на логическом уровне. Автоматизированная система (АС) - система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций (по стандарту ГОСТ 34.ххх) Адекватность информации — это определенный уровень соответствия создаваемого с помощью полученной информации образа реальному объекту, процессу, явлению и т.п. Актуальность информации определяется степенью сохранения ценности информации для управления в момент ее использования и зависит от динамики изменения ее характеристик и от интервала времени, прошедшего с момента возникновения данной информации. Алгоритмический язык - язык, предназначенный для записи информации и алгоритмов ее обработки в форме, воспринимаемой ЭВМ. Каждый из названных языков предназначен для описания языковых объектов и, следовательно, в той или иной мере обладает смысло-выразительной способностью, т.е. способностью выражать смысловое содержание текстов. Указанная 317 способность зависит от того, на каких уровнях представляются языковые объекты средствами данного языка. Алфавит ИПЯ - система знаков, используемых для записи слов и выражений ИПЯ. Это могут быть буквы русского и/или английского языка, знаки препинания, арабские цифры, любые иные символы. Алфавитный словарь - словарь дескрипторов или ключевых слов, упорядоченных по алфавиту. Архитектура ИС - описание ее функций с точки зрения конечных пользователей и интерфейсов взаимодействия с внешней средой. Архитектура ИС - это внешний взгляд на описываемый объект, безотносительно к его реализации, в частности, к структуре. База знаний состоит из правил анализа информации от пользователя по конкретной проблеме. Задача инженера по знаниям - отобразить знания экспертов в предметной области в формальную структуру базы знаний. Бизнес-процесс - последовательность взаимосвязанных задач, решающих специфическую проблему. Есть три типа бизнес-процесса. Бухгалтерский учет представляет собой упорядоченную систему сбора, регистрации и обобщения информации в денежном выражении об имуществе, обязательствах организаций и их движении путем сплошного, непрерывного и документального учета всех хозяйственных операций. Бюджетирование - это технология управления бизнесом на всех уровнях компании, обеспечивающая достижение ее стратегических целей с помощью бюджетов, на основе сбалансированных финансовых показателей. Информационная система бюджетирования обеспечивает данные технологии соответствующими прогнозами, формируемыми в виде управленческих отчетов. Бюджеты - это планы деятельности предприятия и различных его структурных единиц, выраженные в финансовых показателях. Основное назначение бюджетов - поддержка решения трех управленческих задач: 318 В силу того что данное учебное пособие рассчитано на студентов специальности «Прикладная информатика в экономике», необходимо рассмотреть особенности экономической информации. Вспомогательные процессы - поддерживают основные процессы. Например, бухгалтерский учет, наем работников, ИТ-поддержка. Географические информационные системы (ГИС) - информационные системы, обеспечивающие сбор, хранение, обработку, отображение и распространение данных, а также получение на их основе новой информации и знаний о пространственно-координированных явлениях. Геоинформатика (GIS science, geographic information science, geoinforma-tics) — наука, технология и производственная деятельность по научному обоснованию, проектированию, созданию, эксплуатации и использованию географических информационных систем, по разработке геоинформационных технологий и по приложению ГИС для практических или геонаучных целей. Входит составной частью в геоматику (по одной из точек зрения) или предметно, методически и технологически пересекается с ней. Геоинформационные технологии, ГИС-технологии (GIS technology) — технологическая основа создания географических информационных систем, позволяющая реализовать функциональные возможности ГИС в форме программных средств. Геоматика - область деятельности, связанную с использованием системного подхода к выбору средств сбора, интеграции, обработки и распространения пространственных данных в бесконечном потоков цифровой информации. Гнездовой словарь - совокупность классов (гнезд) семантически связанных между собой дескрипторов или ключевых слов, упорядоченных по алфавиту дескрипторов, отображающих вершины классов. Государственные стандарты (ГОСТы) принимаются государственными органами, имеют силу закона. Разрабатываются с учетом мирового опыта или на основе отраслевых стандартов. Могут иметь как рекоменда319 тельный, так и обязательный характер (стандарты безопасности). Для сертификации создаются государственные или лицензированные органы сертификации. Грамматика ИПЯ - совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис. Морфология - совокупность средств и способов построения и изменения слов. Синтаксис - совокупность средств и способов соединения слов в выражения и фразы. Данные - информация, обработанная и представленная в формализованном виде для дальнейшей обработки /4/. Данные - информация, представленная в виде, пригодном для обработки автоматическими средствами при возможном участии человека /11/. Данные - некоторый факт, то на чем основан вывод или любая интеллектуальная система /12/ Данные - факты, понятия или инструкции, представленные в условной форме, удобной для пересылки, интерпретации и обработки человеком или автоматизированными средствами» (Ассоциация стандартов Франции АФНОР). Данные - это зарегистрированные на любых носителях сведения об объекте (реальном или вымышленном) независимо от того, дошли они до какого-нибудь приемника и интересуют ли они его. Декомпозиция на обеспечивающие составляющие АИПС. Обеспечивающими составляющими или подсистемами АИПС называют элементы, которые обеспечивают реализацию заданных функций АИПС. Денотат - обозначаемое (объект, предмет и т. д.). Дескриптор - понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов, т.е. это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание. Словарь дескрипторов с заданными парадигматическими отношениями между 320 его элементами носит название тезауруса. Тезаурус является основным типом словарей современных ИПС. Документная система или система управления документами (records system) - информационная система, обеспечивающая сбор документов (включение документов в систему), управление документами и доступ к ним в течение времени /50/. Большинство систем управления документами используют ИДП. Документы - специализированная форма информации. Можно определить деятельность с целью создания документа и деятельность, побочным продуктом которой может стать документ. Стандарт ГОСТ Р ИСО 15489-12007 определяет документ как зафиксированную на материальном носителе идентифицируемую информацию, созданную, полученную и сохраняемую организацией или частным лицом в качестве доказательства при подтверждении правовых обязательств или деловой деятельности /10/. Достаточность (полнота) информации означает, что она содержит минимальный, но достаточный для принятия правильного решения состав (набор показателей). Понятие полноты информации связано с ее смысловым содержанием (семантикой) и прагматикой. Как неполная, т.е. недостаточная для принятия правильного решения, так и избыточная информация снижает эффективность принимаемых пользователем решений. Достоверность информации определяется ее свойством отражать реально существующие объекты с необходимой точностью. Измеряется достоверность информации доверительной вероятностью необходимой точности, т.е. вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности. Доступность информации восприятию пользователя обеспечивается выполнением соответствующих процедур ее получения и преобразования. Например, в информационной системе информация преобразовывается к доступной и удобной для восприятия пользователя форме. Это достигается, в 321 частности, и путем согласования ее семантической формы с тезаурусом пользователя. Знак - обозначение данного денотата. Знание — в теории искусственного интеллекта, совокупность сведений (у индивидуума, общества или у системы ИИ) о мире, включающих в себя информацию о свойствах объектов, закономерностях процессов и явлений, а также правилах использования этой информации для принятия решений. Главное отличие знаний от данных состоит в их активности, то есть появление в базе новых фактов или установление новых связей может стать источником активности системы. Знание — информация, о которой кто-либо осведомлен. Знание - селективная, упорядоченная, определенным способом (методом) полученная, в соответствии с какими-либо критериями (нормами) оформленная информация, имеющая социальное значение и признаваемая в качестве именно знаний определенными социальными субъектами и обществом в целом /9/. Знание — это закономерности предметной области (принципы, связи, законы), полученные в результате практической деятельности и профессионального опыта, позволяющие специалистам ставить и решать задачи в этой области.» /14, 15/ Знания - проверенный практикой результат познания действительности, верное её отражение в сознании человека. Знание противоположно незнанию, т. е. отсутствию проверенной информации о чём-либо?. Сущность научных знаний заключается в понимании действительности в её прошлом, настоящем и будущем, в достоверном обобщении фактов, в том, что за случайным оно находит необходимое, закономерное, за единичным - общее и на этой основе осуществляет предвидение. Мышление человека постоянно движется от незнания к знанию, от поверхностного ко всё более глубокому и всестороннему знанию /1/; 322 Иерархический словарь - совокупность имен классов условной эквивалентности лексических единиц, упорядоченная в соответствии с заданным на ней отношением порядка (род-вид, часть-целое и т.д.). Индексирование - процесс перевода текстов естественного языка на ИПЯ. Индексирование базируется на совокупности инструкций, детально описывающих процесс индексирования и представляющих собой комплекс правил, включающих и правила применения ИПЯ. Информационная Система (ИС) - система людей, хранимых данных и процессов обработки данных и информации в контексте конкретной организации. Обработка включает ручные или автоматизированные процессы Информационная система (ИС) — это система, предназначенная для ведения информационной модели, чаще всего — какой-либо области человеческой деятельности. Эта система должна обеспечивать средства для протекания информационных процессов: хранение, передача, преобразование информации. По мнению одних авторов, ИС включает в себя персонал, её эксплуатирующий, по мнению других — нет». Информационно поисковый тезаурус (ИПТ) по сути представляет собой нормативный словарь-справочник, в котором зафиксирована часть знаний человечества, относящихся к данной предметной области. ИПТ можно представить как мультиграф, узлы которого соответствуют понятиям предметной области, а дуги - существующим парадигматическим отношениям между ними. Информационное обеспечение АС: Совокупность форм документов, классификаторов, нормативной базы и реализованных решений по объемам, размещению и формам существования информации, применяемой в АС, при ее функционировании. Информационно-поисковая система (Information retrieval system), ИПС - совокупность справочно-информационного фонда и технических средств информационного поиска в нем. Информационный поиск осуществляется с целью распространения информации, Распространенная информа323 ции является составной частью справочно-информационного обслуживания (СИО). Информационно-поисковый язык - специализированный искусственный язык, предназначенный для описания основного содержания (центральной темы) и формальных характеристик документов с целью информационного поиска. Информационный язык - формальная семантическая система, включающая алфавит, правила образования конструкций, их преобразования и интерпретации и предназначенная для описания, обработки, логической переработки и поиска информации. Информационными коммуникациями - пути и процессы, обеспечивающие передачу сообщений от источника информации к ее потребителю, называются. Информация - 1) что-то сказанное, новости; знание, полученное любым способом; 2) в информационной теории и теории компьютеров: это точная мера информации, измеренная в битах и охватывающая диапазон от нуля (это когда все известно заранее) и до какого-то максимального значения, когда ничего заранее о содержании сообщения не известно;3) любые данные, хранящиеся в компьютере» (Webster New World Dictionary of the American Language ed. David Guralnik, Prentice Hall Press, Division of Simon & Schuster). Информация (от лат. informatio - разъяснение, изложение), первоначально - сведения, передаваемые одними людьми другим людям устным, письменным или каким-либо другим способом (например, с помощью условных сигналов, с использованием технических средств и т. д.), а также сам процесс передачи или получения этих сведений. Впоследствии термин притерпел два принципиальных изменения в трактовке. Во-первых, оно было расширено и включило обмен сведениями не только между человеком и человеком, но также между человеком и автоматом, автоматом и автоматом; обмен сигналами в животном и растительном мире. Передачу признаков от клетки к клетке и от организма к организму также стали рассматривать как 324 передачу информации. Во-вторых, была предложена количественная мера информации (работы К. Шеннона, А. Н. Колмогорова и др.), что привело к созданию информации теории. Классификатор — систематизированный свод наименований и кодов классификационных группировок. Классификация — система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком. Ключевое слово (КС) - полнозначное слово естественного языка, выражающее смысловое содержание фрагмента документа или запроса самостоятельно или в наборе с другими КС. Кодовый словарь - перечень лексических единиц, систематизированный по убыванию или возрастанию их кодов. Компьютерной систему иногда называют программно-технический комплекс информационной системы (ПТК ИС). Только компьютерная система и программное обеспечение являются подсистемами информационной системы. Концепт - свойство денотата, его смысл, значение, информация, которую несет знак о денотате и о его месте в системе реалий. Знак обозначает денотат и выражает его концепт. Например: знак Ф.И.О.; денотат - конкретный человек; концепт - человек, а не дерево и не животное. Лексические единицы (ЛЕ) языка - это знаки. Омонимия знака состоит в том, что один и тот же знак выражает разные концепты. Корпоративные стандарты разрабатываются крупными фирмами (корпорациями) с целью повышения качества своей продукции. Такие стандарты разрабатываются на основе собственного опыта и с учетом требований мировых стандартов. Корпоративные стандарты не сертифицируются, но являются обязательными для применения внутри корпорации. В условиях рыночной конкуренции могут иметь закрытый характер. В ИТ сфере известны стандарты, разработанные Microsoft, Intel, IBM. 325 Критерий релевантности - совокупность процедур (правил) определения смыслового соответствия ПОДа ПОЗу. Лексика, или словарный состав ИПЯ, - совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ. Лингвистическое обеспечение АС: Совокупность средств и правил для формализации естественного языка, используемых при общении пользователей и эксплуатационного персонала АС с комплексом средств автоматизации при функционировании АС. Лицензия — это право (разрешение) на осуществление какой-либо деятельности. Логико-семантический комплекс АИПС. Логико-семантический комплекс (ЛСК) - комплекс языковых, логических, и математических средств формализованного представления семантической информации с целью ее автоматизированной обработки и поиска (рисунок 6.3.). ЛСК представляет собой теоретическую и практическую базу создания и функционирования как каждой составляющей всех ранее рассмотренных декомпозиций АИПС, так и АИПС в целом. Математическое обеспечение АС: Совокупность математических методов, моделей и алгоритмов, примененных в АС. Международные стандарты. Разрабатываются, как правило, специальными международными организациями на основе мирового опыта и лучших корпоративных стандартов. Имеют сугубо рекомендательный характер. Право сертификации получают организации (государственные и частные), прошедшие лицензирование в международных организациях. Методическое обеспечение АС: Совокупность документов, описывающих технологию функционирования АС, методы выбора и применения пользователями технологических приемов для получения конкретных результатов при функционировании АС. Морфология - основные закономерности построения слов языка, т.е. система грамматических категорий и способов их выражения. 326 Научная информация - это получаемая в процессе познания логическая информация, которая адекватно отображает закономерности объективного мира и используется в общественно-исторической практике. В этом определении названы четыре наиболее существенных признака, которые необходимы и, по-видимому, достаточны для раскрытия понятия «научная информация». Необходимо отметить, что ИПС может не использовать компьютерные технологии, но нас эти системы интересовать не будут. В силу этого термины «Автоматизированная ИПС» и «ИПС» будем считать синонимами. Омонимия слова, сочетания, выражения, текста (любого знака) состоит в том, что они при одинаковом написании имеют различный смысл. Например, понятие «соль» может обозначать вещество, ноту, главную часть, суть чего-либо. Операционные процессы – в этих процессах создаются первичные потоки данных, они - часть основного бизнеса. Типичные операционные процессы - покупка, производство, маркетинг и продажа. Организационная декомпозиция АИПС. Такая декомпозиция соответствует организационной структуре информационного института, центра или иной организации, в структуру которой входит АИПС. Среди элементов организационной декомпозиции могут быть: вычислительный центр, отделы или лаборатории. Декомпозиция на обеспечивающие подсистемы в чем-то перекрываясь с покомпонентной декомпозицией, тем не менее представляет новую точку зрения на состав и структуру АИПС. Организационное обеспечение АС: Совокупность документов, устанавливающих организационную структуру, права и обязанности пользователей и эксплуатационного персонала АС в условиях функционирования, проверки и обеспечения работоспособности АС. Отраслевые стандарты действуют в пределах организаций некоторой отрасли. Например, строительные нормы и правила разрабатываются с уче- 327 том требований мирового опыта и специфики отрасли. Подлежат сертификации. Парадигматические отношения - это отношения, обусловленные наличием не языковых, а логических связей между предметами и явлениями, обозначенными данными словами. Наиболее важны следующие парадигматические отношения: Переменная информация отражает фактические количественные и качественные характеристики производственно-хозяйственной деятельности фирмы. Она может меняться для каждого случая как по назначению, так и по количеству. Например, количество произведенной продукции за смену, еженедельные затраты на доставку сырья, количество исправных станков и т.п. Пермутационный словарь - словарь словосочетаний, упорядоченный по алфавиту каждого слова словосочетания. Каждое словосочетание встречается в таком словаре столько раз, сколько слов оно включает. Поиск информации - выделение из поискового массива тех документов, содержание которых соответствует поисковому предписанию. Поискового образа документа (ПОД) и/или поискового образа запроса (ПОЗ) - некоторой характеристикой, кратко отражающей его смысловое содержание (Иногда ПОЗ называют поисковым предписанием (ПП)) Покомпонентная декомпозиция АИПС. Такая декомпозиция вызвана необходимостью самостоятельного рассмотрения информационной, программной и технической среды АИПС. С этих позиций в составе АИПС целесообразно выделить: информационную базу (базу данных, словари, справочники и т.д.), программные средства (СУБД/ПС, пользовательские программы - software АИПС); технические средства (hardware АИПС), организационные средства. Полисемия знака состоит в том, что один и тот же знак выражает пучок родственных концептов. Например, знак «ключ» обозначает дверной ключ, нотный ключ, ключ к шифру. Все три концепта близки между собой по смыслу. 328 Полнозначные слова - существительные, прилагательные, глаголы, наречия, числительные, местоимения. Неполнозначные слова - предлоги, союзы, связки, частицы. Посткоординированные ИПЯ - ИПЯ, словарный состав которых не связан грамматикой заранее и такая связь осуществляется в процессе индексирования и/или поиска. Постоянная (условно-постоянная) информация — это неизменная и многократно используемая в течение длительного периода времени информация. Правовое обеспечение АС: Совокупность правовых норм, регламентирующих правовые отношения при функционировании АС и юридический статус результатов ее функционирования. Правописание - система правил, устанавливающая единообразные способы передачи речи на письме. Прагматическая (потребительская) адекватность. Она отражает отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется. Проявляются прагматические свойства информации только при наличии единства информации (объекта), пользователя и цели управления. Прагматический аспект рассмотрения связан с ценностью, полезностью использования информации при выработке потребителем решения для достижения своей цели. С этой точки зрения анализируются потребительские свойства информации. Эта форма адекватности непосредственно связана с практическим использованием информации, с соответствием ее целевой функции деятельности системы. Прекоординированные ИПЯ - это ИПЯ, словарный состав которых жестко связан грамматическими средствами в единую структуру. Лексика и грамматика такого языка, а также синтаксис, морфология, все парадигматические и синтагматические отношения самостоятельно не существуют, а образуют единую жесткую связанную структуру. Индексирование текстов (перевод текстов на ИПЯ) выполняется только с использованием элементов та329 кой жесткой структуры. По сути дела, каждый ИПЯ этого тина представляет собой некоторую систему классификации. Преобразование информации документальной (ИДП) - процесс аналитико-синтетического изучения документов (текстов) и подготовки вторичной информации, отражающей наиболее существенные элементы содержания этих документов. Наиболее распространённые формы представления результатов ИДП - библиографическое описание, аннотация, реферат, конспект, обзор и т. п. Преобразование может осуществляться в виде индексирования, извлечения из документов необходимых фактографических данных, свёртывания объёма текста при относительном сохранении объёма смысловой информации, представления данных в наиболее рациональной для хранения и восприятия форме и т. д. В общем смысле ИДП включает также перевод текстов с одного языка на другой /1/. Принцип координатного индексирования - принцип, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов, т.е. списком наиболее существенных для понимания текста назывных полнозначных слов. Принцип чистого координатного индексирования и поиска состоит в индексировании документов и запросов списками ключевых слов, являющихся ПОДами и ПОЗами, и в последующем сравнении полученных списков. Программное обеспечение АС: Совокупность программ на носителях данных и программных документов, предназначенная для отладки, функционирования и проверки работоспособности АС. Процесс индексирования текстов - перевод содержания документа и /или запроса с естественного языка на ИПЯ Процессы управления - процессы, которые управляют действием системы. Типичные процессы управления включают «общее управление» и «стратегическое управление». Реквизит — логически неделимый информационный элемент, описывающий определенное свойство объекта, процесса, явления и т.п. 330 Релевантность - смысловое соответствие сообщения (документа) тексту информационного запроса на естественном языке. Релевантность сообщения запросу в таком понимании может оценить только человек. Критерий, которым он при этом пользуется при принятии решения о релевантности, сформулировать невозможно. Репрезентативность информации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта. Своевременность информации означает ее поступление не позже заранее назначенного момента времени, согласованного с временем решения поставленной задачи. Семантика - основные закономерности строения внутренней (смысловой) стороны языковых объектов. Семантический уровень представления языковых объектов позволяет отобразить их смысловое содержание, выразить связь смыслов отдельных знаков со смыслом текста (связь смысла языковых объектов между собой и со смыслом образуемого ими более сложного языкового объекта). Семантическая (смысловая) адекватность. Эта форма определяет степень соответствия образа объекта и самого объекта. Семантический аспект предполагает учет смыслового содержания информации. На этом уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи. В информатике устанавливаются смысловые связи между кодами представления информации. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения. Сертификат на услуги — документ, подтверждающий, что качество услуг соответствует определённым требованиям. Сертификация — процедура подтверждения соответствия, посредством которой независимая от изготовителя (продавца, исполнителя) и потребителя (покупателя) организация удостоверяет в письменной форме, что продукция соответствует установленным требованиям. 331 Сетевые роботы - это программы, которые, исходя из некоторого начального множества ссылок (URL), рекурсивно сканируют Веб-страницы, извлекая из них новые ссылки. Как правило, извлеченные ссылки сначала передаются модулю стратегии сканирования, который определяет, какие из них стоит посещать и отдает соответствующие ссылки обратно сетевым роботам. Синонимия знака состоит в том, что один и тот же денотат имеет разные знаки. Например, знаки «коллега», «друг», «тезка» могут обозначать один и тот же денотат. Однако выражаемые этими знаками концепты могут отличаться друг от друга. В данном примере смысл знака «коллега» существенно отличается от смысла знака «тезка», т.е. концепты знаков не совпадают. Знаки «коллега», «тезка», «друг» - условные синонимы. Абсолютная синонимия имеет место тогда, когда разные знаки обозначают один и тот же денотат и выражают одинаковый концепт. Синтагматические отношения - это совокупность всех отношений, реализуемых синтаксисом ИПЯ. С этой точки зрения синтаксис представляет собой совокупность способов и средств выражения синтагматических отношений. Простейшим видом синтагматических отношений является отношение вхождения нескольких лексических единиц ИПЯ в один и тот же текст, фрагмент текста, фразу и т.д., т.е. отношение координации. Иногда говорят: ИПЯ без грамматики. Но поскольку ни один ИПЯ не может функционировать без синтаксиса, выражающего синтагматические отношения между его словами, информационно-поисковые языки без грамматики фактически не существуют. Синтаксис - основные закономерности, определяющие отношения между единицами языка в пределах конкретных текстов. Синтаксический уровень представления языковых объектов позволяет выразить их структуру, отношения знаков в тексте, закономерности построения текстов. Синтаксическая адекватность. Она отображает формально- структурные характеристики информации и не затрагивает ее смыслового 332 содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т.п. Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, так как при этом не имеет значения, смысловая сторона. Эта форма способствует восприятию внешних структурных характеристик. Т.е. синтаксической стороны информации. Система (system) - комбинация взаимодействующих элементов, организованных для достижения одной или нескольких поставленных целей (ГОСТ Р ИСО/МЭК 15288—2005). Система индексирования (СИ) - совокупность методов и средств перевода текстов с ЕЯ на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ. Помимо правил применения ИПЯ, система индексирования может включать большое разнообразие инструкций, положений, методов и т. д., регламентирующих те или иные этапы процесса индексирования. Существующие системы индексирования сильно отличаются друг от друга, и описать их общий состав и структуру не представляется возможным. Однако наличие общих признаков позволяет дать системное представление о классах систем индексирования. Система кодирования - совокупность правил кодового обозначения объектов. Системы автоматизированного проектирования (САПР) - общий термин для обозначения всех аспектов проектирования с использованием средств вычислительной техники. Обычно охватывает создание геометрических моделей изделия (твердотельных, трехмерных, составных), а также генерацию чертежей изделия и их сопровождение. Следует отметить, что отечественный термин "САПР" по отношению к промышленным системам имеет более широкое толкование, чем CAD. Он включает в себя как CAD, так и CAM, а иногда и элементы CAE. К наиболее известным CAD - система можно отнести AutoCAD (САПР фирмы Autodesk, реализующая решения для 333 различных отраслей промышленности, начиная с машиностроительных проектов до геоинформационных систем - ГИС), ArchiCAD (программное обеспечение для архитектурного проектирования от компании Graphisoft). Системы обработки данных (СОД) - комплекс взаимосвязанных методов и средств сбора и обработки данных, необходимых для организации управления объектами. СОД основываются на применении ЭВМ и других современных средств информационной техники, поэтому их также называют автоматизированными системами обработки данных (АСОД) /1/. Словарь отрицаний - перечень лексических единиц, не рекомендуемых для индексирования и поиска. Словосочетание - последовательность нескольких слов (обычно 2-5) естественного языка, выражающая основное смысловое содержание фрагмента документа или запроса. Словосочетание может использоваться и в роли ключевого слова. Обычно словарь КС включает и отдельные слова и словосочетания. Однако число словосочетаний в словаре КС мало по сравнению с числом отдельных слов. И наоборот, словарь словосочетаний в основном состоит из словосочетаний. Содержательность информации отражает семантическую емкость, равную отношению количества семантической информации в Стандартизация — это деятельность, направленная на разработку и установление требований, норм, правил, характеристик, как обязательных для выполнения, так и рекомендуемых; обеспечивающая право потребителя на приобретение товаров надлежащего качества, а также право на безопасность и комфортность труда. Тезаурус — это совокупность сведений, которыми располагает пользователь или система. Техническое задание на создание автоматизированной системы является основным документом, определяющим требования и порядок создания (развития или модернизации) автоматизированной системы, в соответствии с которым проводится разработка АС и ее приемка при вводе в дей334 ствие. Техническое обеспечение АС: Совокупность всех технических средств, используемых при функционировании АС. Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т.п. Для информации, отображаемой цифровым кодом, известны четыре классификационных понятия точности: Указанные уровни представления языковых объектов позволяют описать преобразование: звук - фонема - морфема - слово - текст - смысл. Управление взаимоотношениями с клиентами (CRM - Customer Relationships Management) - это стратегия компании, касательно взаимодействия с клиентами во всех организационных аспектах - рекламе, продаже, доставке и обслуживанию клиентов, дизайне и производстве новых продуктов, выставлении счетов и т.п. CRM - концептуально новый подход к взаимодействию с клиентом. Данный модуль интегрирован, как правило, в системах ERP II (Enterprise Resource & Relationship Processing) Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлена выбранной методикой ее отбора и формирования. Фонетика - основные закономерности поведения речевого аппарата и способы их использования. Формальная релевантность - соответствие ПОДа ПОЗу. Поскольку ПОД и ПОЗ представляют собой формализованные структуры, оценку такой релевантности может дать компьютер. Однако для этого необходимо задать ему формальное выражение критерия релевантности. Функциональная декомпозиция АИПС - декомпозиция на функциональные подсистемы. Частотный словарь - словарь лексических единиц, упорядоченный по убыванию или возрастанию частоты их употребления в поисковом массиве. 335 Экономическая информация — совокупность сведений, отражающих социально-экономические процессы и служащих для управления этими процессами и коллективами людей в производственной и непроизводственной сфере. Экономическая информация, информация об экономических отношениях и процессах обществ. воспроизводства. Знания, сведения, входящие в экономической информации, с точки зрения воспринимающих их субъектов содержат информацию лишь в той мере, в какой они новы и полезны для решения каких-либо задач /2/. Экспертная система (ЭС, expert system) - это компьютерная программа, а не информационная система. Ее цель - заменить специалиста-эксперта в решении проблемной ситуации. Энтропия дискретной СВ - это минимум среднего количества бит, которое нужно передавать по каналу связи о текущем значении данной дискретная СВ Эргономическое обеспечение АС: Совокупность реализованных решений в АС по согласованию психологических, психофизиологических, антропометрических, физиологических характеристик и возможностей пользователей АС с техническими характеристиками комплекса средств автоматизации АС и параметрами рабочей среды на рабочих местах персонала АС. Язык - это знаковая система любой физической природы, выполняющая познавательную и коммуникативную функции и процессе человеческой деятельности. Естественный язык (ЕЯ) есть особого рода преобразователь заданных смыслов в тексты, и наоборот. 336 СПИСОК ИСТОЧНИКОВ ИНФОРМАЦИИ 1. Большая советская энциклопедия. http://www.rubricon.com/ 2. Большой толковый словарь компьютерных терминов (Collins Dictionary of Personal Computing, ed. Ian R. Sinclaire), изд-во Вече. АСТ. М. 1999. 3. Политехнический словарь //под ред. акад. А. Ю. Ишлинского, изд-во «Советская Энциклопедия», М. 1980 4. ГОСТ 7.0-99. Информационно-библиотечная деятельность, библиография. Термины и определения. - Взамен ГОСТ 7.0-84, ГОСТ 7.26-80; введ. 01.07.2000. 5. Толковый словарь по вычислительной технике: более 50 000 терминов: пер. с англ. - М.: Рус. ред. 1995. - 478 с 6. Федеральный закон РФ от 27.07.2006 г. N 149-ФЗ «Об информации, информационных технологиях и о защите информации». - Взамен ФЗ от 20.02.1995 г. N 24-ФЗ Об информации, информатизации и защите информации и ФЗ от 4.06.1996 г. N 85-ФЗ Об участии в международном информационном обмене. 7. Информатика. Энциклопедический систематизированный словарьсправочник - http://slovari.yandex.ru/dict/informatica. 8. Википедии — свободная энциклопедия. - http:// ru.wikipedia.org/ 9. Новейший философский словарь: 3-е изд., исправл. - Мн.: Книжный Дом. 2003.- 1280 с. 10. ГОСТ Р ИСО15489-1— 2007 Система стандартов по информации, библиотечному и издательскому делу. Управление документами. 11. ГОСТ 15971-90 СИСТЕМЫ ОБРАБОТКИ ИНФОРМАЦИИ. Термины и определения. 12. Webster's New World Dictionary of the American Language, D. B. Guralnic, ed., Williiam Collins and World Publishing Co., New York, 1974. 13. IEEE Std 610.12-1990 IEEE Standard Glossary of Software Engineering Terminology. 337 14. Википедия - http://ru.wikipedia.org/ 15. Wikipedia - http://en.wikipedia.org/ 16. Першиков В.И. Толковый словарь по Информатике / В.И. Першиков, В.М. Савинков.- 2-е изд, доп. - М.: Финансы и статистика, 1995. - 543 с. 17. ГОСТ Р ИСО/МЭК 15288—2005. Информационная технология. Системная инженерия. Процессы жизненного цикла систем. 18. Ф.С. Воройский. Информатика. Энциклопедический систематизированный словарь-справочник. (Введение в современные информационные и телекоммуникационные технологии в терминах и фактах). - М.: 2007. 19. ГОСТ 34.003-90. Информационная технология. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Термины и определения. 20. Информатика: Учебник. – 3-е перераб. Изд. /Под ред. Н.В. Макаровой. – Финансы и статистика, 2000. – 768 с. 21. Максимович Г.Ю., Шрубек А.Н. Документальные базы данных. Пакеты прикладных программ для хранения, поиска и обработки текстовой информации. – М.: РГГУ, 1997. – 56с. 22. Ревунков Г.Н., Самохвалов Э.Н., Чистов В.В. Базы и банки данных и знаний. – М.: Высшая школа, 1992. – 367с. 23. Лидовский В.В. Теория информации - Интернет-университет информационных технологий - ИНТУИТ.ру, 2007 24. Шеннон К. Работы по теории информации и кибернетики М.: Издательство иностранной литературы, 1963 25. Винер Н. Кибернетика М.: Наука, 1983 26. Нечаев В.И. Элементы криптографии М.: Высшая школа, 1999 27. Мастрюков Д. Алгоритмы сжатия информации «Монитор» 7/93–6/94 28. Питерсон Р., Уэлдон Э. Коды, исправляющие ошибки М.: Мир, 1976 29. Розанов Ю. А. Лекции по теории вероятностей М.: Наука, 1986 338 30. Берталанфи Л. Общая теория систем – обзор проблем и результатов //Системные исследования. Ежегодник. – М.: Наука, 1969. 31. Рапопорт А. Различные подходы к общей теории систем //Системные исследования. Ежегодник. – М.: Наука, 1969. 32. Анфилатов В. С., Емельянов А. А., Кукушкин А. А. Системный анализ в управлении. – М.: Финансы и статистика, 2002. 33. Перегудов Ф. И., Тарасенко Ф. П. Введение в системный анализ. – М.: Высшая школа, 1989. 34. Зыков В. В. Введение в системный анализ: моделирование, управление, информация. – Тюмень: Изд-во ТюмГУ, 1998. 35. Васильев В. И., Романов Л. Г., Червоный А. А. Основы теории систем. – М.: МГТУ ГА, 1994. 36. Дегтярев Ю. И. Системный анализ и исследование операций. – М.: Высшая школа, 1996. 37. Уемов А. И. Системный подход и общая теория систем. – М.: Мысль, 1978. 38. Советов Б. Я., Яковлев С. А. Моделирование систем. Учебник для вузов. – М.: Высшая школа, 2001. 39. Месарович М., Такахара Я. Общая теория систем: математические основы. – М.: Мир, 1978. 40. Моисеев Н. Н. Математические задачи системного анализа. – М.: Наука, 1981. 41. ГОСТ Р ИСО 9000-2001 Системы менеджмента качества. Основные положения и словарь. 42. ГОСТ Р ИСО/МЭК ТО 15271-2002 «Информационная технология. Руководство по применению ГОСТ Р ИСО/МЭК 12207 (Процессы жизненного цикла программных средств)». 43. Архитектура и стратегия. «Инь» и «Янь» информационных технологий предприятия / А. Данилин, А. Слюсаренко. – М. Интернет-Ун-т Информ. Технологий, 2005, -504с. 339 44. Р 50-605-80-93 Рекомендации по стандартизации. СРПП. Термины и определения. 45. ГОСТ Р 15.000-94. Система разработки и постановки продукции на производство. Основные положения. 46. Информационные системы. Уч. пособие / под ред. В.Н. Волковой, Б.И. Кузьмина – Спб.: Изд-во СПбГПУ,2004.-224с. 47. ГОСТ 26228-90 Системы производственные гибкие. Термины и определения, номенклатура показателей. 48. ГОСТ 24.103-84 Автоматизированные системы управления. Общие положения. 49. Т. Конноли, К.Брег, А.Страчан, Базы данных: проектирования реализация и сопровождения. Теория и практика, 2-е изд.- М.: Издательский «Вильямс»,2001.-1120с. 50. Основные подходы к архитектуре Хранилищ данных http://www.interface.ru/fset.asp?Url=/ca/osnpodhodi.htm 51. Емельянова Н. З.,Партыка Т.Л.,Попов И. И. Основы построения автоматизированных информационных систем: Учеб. пособие. М.: ФОРУМ: ИНФРА-М, 2005-416 с. 52. ГОСТ Р ИСО 15489-1— 2007 Система стандартов по информации, библиотечному и издательскому делу. Управление документами. 53. РД. Безопасность информационных технологий. Руководство по формированию семейств профилей защиты. - Гостехкомиссия России, 2003 г. [Электронный ресурс] - Режим доступа: http://www.fstec.ru/spravs/spc/doc_3_3_022.htm. 54. ГОСТ 7.73-96. СИБИД. Поиск и распространение информации. Термины и определения. 55. ГОСТ 7.74–96. СИБИД. Информационно-поисковые языки. Термины и определения. 56. Н. Пантелеева, Вводный курс по поисковым системам. http://meta.math.spbu.ru/~nadejda/ir-tutorial/nadejda_ir.html 340 57. Некрестьянов, И.С. Тематико-ориентированные методы информационного поиска/ диссерт. на соиск. физ. мат. н. - СПб.; СПбГУ, 2000. 58. Сегалович, И. Как работают поисковые системы. http://company.yandex.ru/articles/article10.html 59. S. Brin, L. Page The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Science Department, Stanford University, Stanford, CA 94305. http://google.stanford.edu/ 60. Определение ECM http://www.aiim.org/about-ecm.asp 61. Ulrich Kampffmeyer, «ECM — Herrscher über Informationen». ComputerWoche, CW-exktraKT, Munich, September 24th, 2001. 62. Электронные словари ABBYY Lingvo 12. Выпуск12.0.0.442. Словарь ABBYY Lingvo 12 English (LERP1200038440640185). 63. Федеральный закон об электронной цифровой подписи. N 1-ФЗ от 10 января 2002 года. 64. Д. Шеперд Освой самостоятельно XML за 21 день. 2-е изд.- М.: Издательский «Вильямс»,2002. - 432с. (в свободном доступе книга находится по http://www.natahaus.ru/) 65. http://www.bpmi.org/ 66. Институт типовых решений производства (ИТРП). http://www.itrp.ru/content/theory/ 67. SAS Activity Based Management http://www.dssdev.ru/Solution/ABM.php 68. Описание стандарта MRPII - http://www.citforum.ru/cfin/mrp/mrp2.shtml 69. Федеральный закон «О бухгалтерском учете»от 21 ноября 1996 г. N 129-ФЗ 70. ABB (Activity-Based Budgeting) Процессно-ориентированное бюджетирование. - http://www.proces.biz/ABB/index.html 71. Информационные технологии и системы - http://www.itstan.ru/ 72. Управление цепочками http://www.logistics.ru/21/7/1/i8_466.htm 341 поставок (SCM). 73. Гудков Д. Информационная поддержка изделия на всех этапах жизненного цикла (CALS «Continious Acquisition And Life-Cycle Support»). http://www.espotec.ru/art_info.htm 74. ГОСТ 24.104-85 Автоматизированные системы управления. Общие требования (Раздел 3 заменен на ГОСТ 34.603-92). 75. ГОСТ 24.202-80 Требования к содержанию документа Техникоэкономическое обоснование. 76. ГОСТ 24.203-80 Требования к содержанию общесистемных документов. 77. ГОСТ 24.204-80 Требования к содержанию документа Описание постановки задачи. 78. ГОСТ 24.205-80 Требования к содержанию документов по информационному обеспечению. 79. ГОСТ 24.206-80 Требования к содержанию документов по техническому обеспечению. 80. ГОСТ 24.207-80 Требования к содержанию документов по программному обеспечению. 81. ГОСТ 24.208-80 Требования к содержанию документов стадии Ввод в эксплуатацию. 82. ГОСТ 24.209-80 Требования к содержанию документов по организационному обеспечению. 83. ГОСТ 24.210-82 Требования к содержанию документов по функциональной части. 84. ГОСТ 24.703-85 Типовые проектные решения. Основные положения. 85. ГОСТ 34.201-89 Информационная технология. Комплекс стандартов на автоматизированные системы. Виды, комплектность и обозначения документов при создании автоматизированных систем (Взамен ГОСТ 24.101-80, ГОСТ 24.102-80). 342 86. ГОСТ 34.601-90 Информационная технология. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Стадии создания. (Взамен ГОСТ 24.601-86, ГОСТ 24.602-86). 87. ГОСТ 34.602-89 Информационная технология. Комплекс стандартов на автоматизированные системы. Техническое задание на создание автоматизированной системы (Взамен ГОСТ 24.201-85). 88. ГОСТ 34.603-92 Информационная технология. Виды испытаний автоматизированных систем (Взамен ГОСТ 24.104-85 в части разд. 3.). 89. РД 50 - 34.698 – 90 «Методические указания информационная технология. Комплекс стандартов и руководящих документов на автоматизированные системы. Автоматизированные системы требования к содержанию документов». 90. РД 50-682-89 Информационная технология. Комплекс стандартов и руководящих документов на автоматизированные системы. Общие положения. 91. РД 50-680-88 Автоматизированные системы. Основные положения. 92. Р 50-34.126-92. Информационная технология. Правила проведения работ при создании автоматизированных систем. 93. ГОСТ Р ИСО/МЭК 12207-99 «Информационная технология. Процессы жизненного цикла программных средств» 94. Бойченко А.В., Кондратьев В.К., Филипов Е.Н. Основы открытых информационных систем. - М.:Издательский центр АНО «ЕОАИ», 2004. 128 с. 95. Буч Г.,Якобсон А., Рамбо Дж. UML. Классика CS. 2-е мзд./ Пер. с англ.; Род общей редакцией проф. С. Оролова – СПб: Питер. 2006. - 736с. 96. Максимович Г.Ю., Романенко А.Г., Самойлюк О.Ф. Информационные системы: Учебное пособие /Под общей ред. К.И. Курбакова. – М.: Издво Рос. Экон. Акад., 1999. – 198 с. 97. Михайлов А.И., Черный А.Н., Гиляревский Р.С. Научные коммуникации и информатика. – М.: Наука, 1976. – 755 с. 343 98. Попов И.И., Романенко А.Г., Сумароков Л.Н. Автоматизированные системы и сети: Учебное пособие. – М.: МИФИ, 1978. – 51 с. 99. Системы управления базами данных и знаний: Справочник /А.Н. Наумов, А.М. Вендров, В.К. Иванов и др.; Под ред. А.Н. Наумова. – М.: Финансы и статистика, 1991. – 349 с. 100. Винер Н. Кибернетика или управление и связь в животном и машине. 2-е изд. – М.: Сов радио, 1968. – 325 с. 101. Лахути Д.Г. Автоматизированные документально-фактографические информационно-поисковые системы. //Итоги науки и техники. Сер. Информатика. Т. 12. – М.: ВИНИТИ, 1988. – 168 с. 102. Сэлтон Г. Автоматическая обработка, хранение и поиск информации. – М.: Сов. радио, 1973. – 364 с. 103. Урсул А.Д. К обсуждению определения понятия «информация». //НТИ, серия 1, 1966. - №-6. – С. 1-7. 104. Романенко А.Г. Моделирование информационных систем. – М.: МГИАИ, 1988. – 83 с. 105. Попов И.И., Романенко А.Г., Сумароков Л.Н. Теоретикомножественное моделирование информационных систем //Вопросы информационно теории практики. – М.: ВИНИТИ, 1978. - № 33-34 – С. 16-63. 106. Шемякин Ю.И. Введение в информатику. – М.: Финансы и статистика, 1985. – 190 с. 107. Криницкий Н.А., Миронов Г.А., Фролов Г.Д. Автоматизированные информационные системы. – М.: Наука, 1982. – 384 с. 108. Мцяшек, Лешек, А. Анализ требований и проектирование систем. Разработка систем с использованием UML / пер. с англ. - М.: Издательский дом «Вильямс», 2002. – 432 с. 109. Википедия – свободная энциклопедия. – http://ru.wikipedia.org/ 344 110. SWOT-анализ как инструмент стратегического менеджмента. (подготовлено компанией «БИГ – Петербург» в рамках проекта «7 нот менеджмента» - http://bigs.ru/publications/swot_analise.php 111. Wikipedia the free encyclopedia. - http://en.wikipedia.org/wiki/Main_Page 112. Реинжиниринг: не автоматизируйте – уничтожайте. / пер. с англ. Reengineering Work: Don’t Automate, Obliterate by Michael Hammer; Harvard Business Review, July-August 1990. http://www.cfin.ru/chuvakhin/bpr.shtml/ 113. Хаммер М., Чампи Д. Реинжиниринг корпораций. Манифест революции в бизнесе / пер. с англ. Ю.Е. Корнилович. - М.: Манн, Иванов и Фербер, 2006. – 287 с. 114. Value Chain Framework http://www.12manage.com/methods_porter_value_chain_ru.html 115. Тельнов Ю.Ф. Реинжиниринг бизнес-процессов. Компонентная методология. 2-е изд. Переаб. И доп. М.: Финансы и статистика, 2004. – 320 с. 116. Michael Porter’s Value Chain //Электронный ресурс: http://markus.spb.ru/navalochnaya/porter.shtml; с ссылкой на © Harvard Business School Publishing. Журнал «Искусство управление». 2001. № 4. 117. TOGAF – The Open Group Architecture Framework. - http://www.opengroup.org/ 118. Zachman Framework - http://www.zifa.com 119. John Zachman / Concepts of The Framework For Enterprise Architecture/ http://apps.adcom.uci.edu/EnterpriseArch/Zachman/zachman3_files/sachma n3.htm 120. Description of Row to Row differences by David Hays. http://apps.adcom.uci.edu/EnterpriseArch/Zachman/ 121. E.F. Codd, S.B. Codd, C.T. Salley. Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate. - E.F.Codd & Associates, 345 1993. (http://www.minet.uni- jena.de/dbis/lehre/ss2005/sem_dwh/lit/Cod93.pdf) 122. Бурцева Е.В., Рак И.П., Селезнев А.В., Терехов А.В., Чернышов В.Н. Информационные системы: Учебное пособие. Издательство ТГТУ 2009.- 121с. (http://window.edu.ru/library/pdf2txt/260/68260/41810/page6). 123. Калинина Л.В. Тарасова Е.Г. Информационные системы. Учебнопрактическое пособие; Ульян.гос.тех.ун-т.г. - Ульяновск : УлГТУ, 2008-178с. 346

Информационные системы и технологии испр

Related documents

Products

Support

Информационные системы и технологии испр

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib