Информационные системы: Общие характеристики информационных систем Курс лекций Содержание

advertisement
Информационные системы:
Общие характеристики информационных систем
Курс лекций
В.А.Капустин
Содержание
Лекция 1. Введение. Основные понятия, связанные с информационными
системами 3
Функции информационной системы ..............................................................................................3
Предметная область ............................................................................................................................4
Подсистемы ...........................................................................................................................................4
Обеспечения ..........................................................................................................................................5
Жизненный цикл информационной системы ..............................................................................5
Линейный жизненный цикл информационной системы ......................................................6
Спиральный жизненный цикл .....................................................................................................6
Лекция 2.
Общая функциональность информационных систем ...................................9
Функция ввода информации .............................................................................................................9
Виды ввода информации................................................................................................................9
Обработка информации в процессе ее ввода ............................................................................9
Нормативно-справочная информация .......................................................................................9
Интерфейсы информационной системы .................................................................................10
Лекция 3.
Обработка, поиск и вывод информации ............................................................15
Обработка информации...................................................................................................................15
Функции поиска и вывода информации ......................................................................................15
Функция поиска информации ....................................................................................................15
Функция вывода информации ....................................................................................................16
Лекция 4.
Архитектуры и администрирование информационных систем ..............19
Архитектуры информационных систем.......................................................................................19
Архитектура клиент-сервер .........................................................................................................19
Многозвенные архитектуры .........................................................................................................19
Администрирование ИС ..................................................................................................................21
Надежность ......................................................................................................................................21
Доступность .....................................................................................................................................23
Эффективность................................................................................................................................23
Лекция 5.
Резервное копирование .............................................................................................24
Средства резервного копирования ................................................................................................25
Схемы организации резервного копирования ...........................................................................25
Лекция 6.
В.А.Капустин
Типология информационных систем ..................................................................27
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
2
Классификация информационных систем по времени отклика ...........................................27
Классификация информационных систем по структуре хранимой информации...........27
Объектографические информационные системы .................................................................27
Документальные информационные системы .........................................................................27
Лекция 7.
Основы теории информационного поиска .......................................................29
Несколько слов об истории .............................................................................................................29
Информационная потребность. Понятие пертинентного документа ..................................29
Информационный поиск и взаимодействие культур ...........................................................30
Информационный шум....................................................................................................................30
Информационно-поисковые системы — ИПС ...........................................................................31
Запрос к ИПС ..................................................................................................................................32
Понятие релевантного документа ..............................................................................................32
Полнота и точность информационного поиска .....................................................................32
Координация терминов ................................................................................................................33
Лекция 8.
Предкоординированные ИПС ................................................................................34
Предметные ИПС ...............................................................................................................................34
Отсылка .............................................................................................................................................35
Ссылка ...............................................................................................................................................36
WebRing — предметная ИПС Интернета .....................................................................................36
Классификационные ИПС ...............................................................................................................36
Взаимодействие культур при поиске в классификационной ИПС ...................................38
Ссылка и отсылка ...........................................................................................................................38
Лекция 9.
Словарные ИПС ............................................................................................................39
Введение................................................................................................................................................39
Логические операторы ......................................................................................................................39
Правое усечение .................................................................................................................................40
Слова далекие и близкие ..................................................................................................................41
Ранжирование результатов поиска................................................................................................41
Лекция 10.
Стратегия поиска: использование нескольких источников....................43
Пример из жизни...............................................................................................................................43
Еще два элемента стратегии ............................................................................................................44
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
3
Лекция 1. Введение. Основные понятия, связанные с
информационными системами
Информационная система (ИС) — основной объект прикладной информатики. Кроме
информационных систем, объектами прикладной информатики являются пользователи
и разработчики, обеспечивающее программное обеспечение и оборудование и др.
Несмотря на разнообразие ИС, все они имеют много общего. Курс «Информационные
системы как раз и выделяет то общее, что присуще всем (или многим) ИС. Материал
курса используется и другими курсами специальности/направления «Прикладная
информатика», прежде всего, курсами «Проектирование информационных систем» и
«Высокоуровневые методы информатики и программирования».
Функции информационной системы
Информационная система
Обработка
ИС
Ввод
Хранение
Поиск
Вывод
ИС
ИС
Рис. 1 — Основные функции информационной системы
Дать всеобъемлющее и удовлетворительное определение информационной системы (ИС)
трудно. Я определю информационную систему через ее основные функции:

ввод информации (сбор информации, прием информации из других ИС)

обработка информации (в частности, хранение и поиск информации)

вывод информации (демонстрация ее человеку, передача в другие ИС).
Информационная система не обязательно использует компьютеры. Существуют многочисленные примеры некомпьютерных ИС: бухгалтерские учетные системы XVI – XX вв.,
карточные каталоги библиотек, любая книга, снабженная печатным справочным материалом, например, указателем.
Минимальная единица информации, хранимая и обрабатываемая информационной системой, называется записью. Многие операции, выполняемые информационными системами в процессе обработки информации, используют несколько записей одновременно.
Запись сама может иметь (и, как правило, имеет), внутреннюю структуру. Составляющие
(элементы) записи обычно называются полями. Информационная система при обработ-
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
4
ке записи работает со всеми полями записи, хотя может создавать иллюзию того, что некоторые поля в обработке записи не участвуют.
Три функции информационной системы присутствуют в любой ИС, хотя могут иметь
рудиментарные формы (например, в предметном указателе книги сбор информации и ее
обработка были выполнены единственный раз, а вывод осуществляется перелистыванием
книги ее читателем). Почти всякая отдельная программа может рассматриваться как информационная система. Например, текстовый процессор позволяет ввести информацию,
он ее обрабатывает (хотя долговременным хранением информации для текстового процессора занимается операционная система), в текстовом процессоре возможет поиск информации, и уж конечно текстовый процессор умеет выводить информацию.
Предметная область
Информационные системы никогда не существую сами по себе. Они всегда связаны с какой-то деятельностью человека (организации): расчётом траектории ракеты, управлением
движением самолётов, дозировкой лекарств, вводимых больному, расчётом заработной
платы, учётом недвижимости, поиском веб-страниц, реконструкцией археологических
объектов и др.
Деятельность, связанная непосредственно с информационными системами (и только с ними), редко бывает основной (если только организация не занята исключительно разработкой и/или сопровождением ИС). Информационная система всегда только обслуживает
основную деятельность организации/человека.
Зачастую в организации эксплуатируется несколько информационных систем. Например, в библиотеке может работать библиотечная ИС (учёт читателей, электронный каталог, учёт книговыдачи и др.) и кадрово-бухгалтерская система (отдел кадров, учёт зарплаты).
Наличие тесной связи информационной системы и обслуживаемой ею деятельности позволяет говорить о предметной области ИС — объектах той деятельности, с которой эта
ИС связана, и отношениях между этими объектами. Так, в библиотечной ИС объектами
предметной области являются издания (книги, журналы, эстампы, музыкальные записи и
др.), средства хранения изданий (хранилища и стеллажи), читатели, библиографы и др. А
в кадрово-бухгалтерской информационной системе объектами предметной области будут
сотрудники, должности, рабочее время, штатное расписание, премии и надбавки, налоги
и пр.
Подсистемы
Каждая функция информационной системы может выполняться отдельным компонентом ИС. Такой компонент называется подсистемой или модулем (в зависимости от
произвольно оцениваемой сложности или размера компонента). В небольших ИС подсистема может реализовать несколько функций; в больших и сложных ИС их функции
детализируются (простейший пример — разделение функций хранения и обработки информации). Каждая такая детальная функция может реализовываться своей подсистемой; подсистемы могут реализовывать несколько различных детальных функций (относящихся, например, к одному из видов информации, обрабатываемой ИС). Например, подсистема расчета заработной платы в бухгалтерской ИС может реализовывать все 4 функции ИС, но по отношению только к некоторой части финансовой информации (используемой при расчете заработной платы, но не требующейся, например, для учета движения оборудования).
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
5
Обеспечения
Для того, чтобы подсистемы ИС могли реализовывать функции ИС, необходимы компоненты, согласованно используемые всеми или, по крайней мере, несколькими подсистемами. Такие компоненты называются обеспечениями (или видами обеспечения). Различают по крайней мере пять обеспечений:

Аппаратное (компьютеры в той или иной комплектации; специфические для
ИС периферийные устройства: сканеры. принтеры, синтезаторы звука, цифровые
микрофоны, кассовые аппараты, устройства отображения информации и др.;
устройства управления датчиками физических величин и считывания данных с них
(например, счетчик яиц на конвейере птицефабрики); кабели и оборудование
телекоммуникационных сетей; аппаратура электропитания и вентиляции и др.).

Программное (операционные системы; языки программирования1, на которых
выполняется разработка ИС; системы управления базами данных (СУБД); информационно-поисковые системы (ИПС); библиотеки программных компонентов;
серверное программное обеспечение, например, веб-сервер). В программное обеспечение информационных систем никогда не включаются2 средства их разработки
(редакторы программных текстов, компиляторы и др.).

Лингвистическое (словари данных и другая метаинформация (информация об
информации), искусственные языки, используемые в ИС — например, языки
запросов к СУБД/ИПС, языки форматных преобразований; описания
коммуникативных форматов и др.).

Информационное (полупостоянная информация, мало или совсем не изменяемая за время жизни ИС — нормативно-справочная информация (НСИ), — например, перечень районов города или список слов, не включаемых в словарь ИПС).
Информационное и лингвистическое обеспечения иногда объединяют, включая
лингвистическое обеспечение в информационное или наоборот.

Организационное (производственные роли, руководства пользователей и администраторов ИС).
Для реализации каждой функции информационной системы могут использоваться все
или только часть обеспечений.
Четыре основные функции для всех видов ИС имеют много общего, поэтому в дальнейших лекциях остановимся на каждой из этих функций подробнее.
Жизненный цикл информационной системы
Информационные системы не существуют вечно — они создаются, работают (эксплуатируются) и замещаются другими информационными системами. Период от появления замысла информационной системы до её полного замещения другой ИС называется жизненным циклом ин формационной системы . Структуры жизненных циклов различных ИС бывают различны, о чаще всего они либо линейны — когда одна стадия жизненного цикла последовательно сменяет другую, — либо представляют собой спираль,
когда стадии жизненного цикла сменяют друг друга, неоднократно повторяя некоторую
последовательность стадий — каждый раз для более развитой версии информационной
системы.
1
Для доработки и/или исправления ошибок в ИС зачастую необходимо иметь информацию о
языке программирования, на котором разработан компонент информационной системы.
2
Так поступают потому, что средства разработки, как правило, не бывают доступны в процессе
эксплуатации информационной системы.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
6
Линейный жизненный цикл информационной системы
Стадии
Разработка
Эксплуатация
и сопровождение
Замещение
Время
Рис. 2 — Линейный жизненный цикл информационной системы
Линейный жизненный цикл информационной системы состоит из трёх стадий:

Разработка (создание, производство)

Эксплуатация и сопровождение (использование и доработка)

Замещение другой информационной системой (с сохранением накопленных
данных)
Линейный жизненный цикл в настоящее время характерен для военных и других информационных систем, связанных с использованием определённого оборудования (например, мобильных телефонов; с выработкой ресурса оборудования ИС замещается вместе с
оборудованием) или высокими требованиями к качеству ИС (управление воздушным
движением, обеспечение жизнедеятельности пациента в больнице и др.).
Существенным элементом линейного жизненного цикла информационной системы является так называемое сопровождение системы . Процесс сопровождения включает две
разновидности мероприятий:

Администрирование — мероприятия, направленные на поддержание
приемлемых эксплуатационных характеристик ИС (используемые ресурсы,
надёжность и др.),

Сопровождение разработки — мероприятия, имеющие целью изменение
характеристик ИС (прежде всего, обнаружение и исправление ошибок; но также и
модификация ИС для решения новых задач, не предусмотренных при её разработке, или для обеспечения возможности эксплуатации ИС в условиях, которые
также не были предусмотрены, например, на иной аппаратуре).
Сопровождение разработки при линейном жизненном цикле информационной системы
—аналог авторского надзора в строительстве— может выполняться как разработчиками,
так и эксплуатационным персоналом и/или третьими организациями.
Спиральный жизненный цикл
Большинству современных информационных систем присущ спиральный жизненный
цикл. В спиральном жизненном цикле информационной системы эксплуатация ИС может быть не связана с процессом сопровождения разработки (однако от администрирования всё равно никуда не деться). Ошибки, обнаруженные в процессе эксплуатации, и
требования изменений, которые необходимо внести в информационную систему, фиксируются в фазе оценки информационной системы и поступают к разработчикам, которые
через определённые интервалы времени выпускают новый вариант информационной
системы, называемый версией (редакцией, релизом и т.п.). С получением очередной
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
7
версии ИС эксплуатационный персонал замещает ею её предыдущую версию. В реальности фазы эксплуатации, оценки и разработки могут совмещаться во времени.
Внедрение / смена версии
Время
Разработка
Эксплуатация
Оценка
Рис. 3 — Спиральный жизненный цикл информационной системы
Использование информационных систем со спиральным жизненным циклом позволяет:
во-первых, сократить время от начала разработки до начала эксплуатации ИС (за
счёт ограничения функциональности первой версии ИС);
во-вторых, относительно быстро (с задержкой, равной времени выпуска очередной версии, которое может быть равным, например, даже двум неделям) реагировать на обнаруживаемые ошибки, изменяющиеся требования пользователей и
изменяющиеся условия эксплуатации информационной системы.
С каждой формой жизненного цикла информационной системы связан определённый
тип процесса её разработки. Линейному жизненному циклу соответствует так называемый «водопадный» процесс («сразу и целиком»), а спиральному жизненному циклу —
разнообразные итерационные (пошаговые) процессы разработки ИС.
В литературе (да и в жизни) для информационных систем со спиральным жизненным
циклом понятия жизненного цикла и процесса разработки зачастую отождествляются.
Причина такого отождествления понятна — в этом случае разработка ведётся параллельно эксплуатации ИС, в течение всего её жизненного цикла.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
8
Разработка
Внедрение
Замещение
Замещение
●●●
Стадии
Разработка
Оценка
Эксплуатация
Разработка
Оценка
Эксплуатация
Разработка
Оценка
Эксплуатация
Время
Рис. 4 — Спиральный жизненный цикл как смена версий
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
9
Лекция 2.
систем
Общая функциональность информационных
Функция ввода информации
Виды ввода информации
Зачастую на стадии ввода информации говорят о данных. Ввод информации может включать и некоторую обработку данных. Ввод информации может осуществляться различными способами:

Получение информации от человека. В этом случае говорят о вводе (иногда даже
о "ручном вводе" или "клавиатурном вводе ") информации. Информация, получаемая от человека, не обязательно является клавиатурным вводом. Это может быть
сканирование изображений или запись звука/видео, трассировки линейных изображений (чертежей, карт) и др.

Автоматический сбор, например, от датчиков технологических линий или радиолокатора истребителя. Выделяют также получение данных/информации из других
ИС.
Обработка информации в процессе ее ввода
Все виды ввода информации могут сопровождаться теми или иными процедурами обработки информации. Такая обработка может иметь различный уровень сложности. Например, клавиатурный ввод может сопровождаться проверкой орфографии; числовые данные могут проверяться на допустимые границы (зарплат в 1 000 000 руб./мес. в Университете сейчас не бывает); линейные изображения могут сглаживаться и спрямляться; речь
может распознаваться; показания датчиков — усредняться по времени и группам
датчиков и т.д.
Форматные преобразования
Данные, получаемые от других ИС, как правило, подвергаются преобразованию формата
— конвертированию из коммуникативного формата, в котором удобно передавать
данные, во внутренний формат ИС, в котором информацию удобно хранить,
обрабатывать, искать и выводить. При конвертировании данных также могут выполняться
различного рода проверки.
Нормативно-справочная информация
Многие виды проверок данных при вводе информации выполняются с использованием
нормативно-справочной информации (НСИ). НСИ бывает, в основном, двух видов:

Перечни (линейные упорядоченные/неупорядоченные списки)

Иерархические (древовидные) классификаторы.
Примеры перечней:



Перечень улиц
Перечень видов законодательных актов (закон, постановление, указ,
распоряжение ...)
Перечень видов изданий для целей библиотечного описания.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
10
Пример классификатора:
Виды товаров (в магазине)
Продовольственные
Бакалея
Крупы
Рис
Греча
Макаронные изделия
...
спиртные напитки
крепкие
коньяки и бренди
ром
джин
виски
водка
вина
сухие
сладкие
полусладкие
вермуты
шипучие
...
Непродовольственные
хозтовары
галантерея
парфюмерия
одежда
обувь
...
другая точка зрения
марочные
ординарные
другая точка зрения
белые
красные
розовые
Рис. 5. Пример классификатора
Интерфейсы информационной системы
Ввод информации информационная система осуществляет через свои интерфейсы.
Информационные системы имеют интерфейсы трех типов:

аппаратные (с датчиками в АСУТП, аппаратурой регистрации в магазине — кассы,
считыватели штрихкодов и т.п.)

межсистемные — с другими ИС

человеко-машинные — для ручного ввода данных и восприятия данных человеком.
Остановимся на двух последних типах интерфейсов.
Межсистемные интерфейсы
Межсистемные интерфейсы обеспечивают передачу информации между ИС и должны
обеспечивать необходимые скорость этой передачи и уровень безошибочности. Межсистемный интерфейс может быть реализован как передача файла (набора файлов), полученного в результате вывода информации из ИС, а может быть реализован в виде протокола, т.е. набора соглашений о передаче и приеме информации и действиях, необхоВ.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
11
димых в случае рассогласования и возникновения иных ошибок взаимодействия ИС. Наличие протокола позволяет передавать информацию между ИС более оперативно, чем
позволяет обмен файлами.
И структуры файлов, и протоколы обмена информацией должны быть согласованы с информационными потребностями взаимодействующих ИС. Если такое согласование достигнуто, то говорят об интероперабельности таких ИС. Уровень интероперабельности может быть различным. Так, файлы формата .doc позволяют сохранить в них программу VBA, а файлы формата .rtf — нет.
Форматы файлов и протоколы, обеспечивающие межсистемные интерфейсы, называют
коммуникатив ными.
Коммуникативные форматы
Существует четыре широко распространенных универсальных коммуникативных формата:

т.н. меточный

CSV — компактный, для линейных данных фиксированной структуры

семейство форматов TLV (Tag–Length–Value — Метка–Длина–Значение), наиболее
известным форматом этого семейства является ISO2709 — компактный, предназначен для линейных данных с повторениями и пропусками

XML — более "рыхлый", но, в принципе, позволяет описать любые древовидные и
списковые данные
и несколько стандартов описания коммуникативных протоколов, наиболее гибкими из
которых является Abstract Syntax Notation One (ASN.1), используемый в настоящее время,
в основном, в области коммуникаций (GSM, SSL, шифрование).
Самих коммуникативных протоколов очень много. Коммуникативный протокол может
использовать коммуникативный формат файла для описания структуры передаваемой
порции данных. Так, например, SOAP использует XML, а протоколы, описанные с помощью ASN.1, могут использовать ISO2709 (на самом деле они используют слегка другой
формат — BER (Basic Encoding Rules) или даже совсем иные форматы, например, Packed
Encoding Rules).
Коммуникативные форматы удобны для передачи данных, но не удобны для обработки,
хранения и поиска информации, поэтому всегда применяются конвертеры —
программы, преобразующие внутренний формат данных информационной системы в
коммуникативный и наоборот.
Меточный формат
Меточный формат — наиболее простой из коммуникативных форматов. Стандарта на
этот формат не существует, однако существуют общепринятые соглашения. Файл этого
формата состоит из строк, каждая из которых либо соответствует одному полю записи,
либо является разделителем записи. В качестве разделителей записей в меточном
формате используются либо пустые строки, либо строки, содержащие те или иные
заранее оговоренные последовательности символов, например, единственный знак
«равно» ("= ").
Каждое поле записи меточного формата занимает ровно одну строку, начинающуюся с
метки этого поля (отсюда и название формата), за которой следует разделитель (обычно
двоеточие, ": ").
Name:Иванов
FirstName:Пётр
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
12
CitizenOf:Россия
Name:Анненкова
FirstName:Полина
CitizenOf:
Cargo:800 тонн
Name:Бендер-бей
FirstName:Остап
OtherNames:Сулейман
OtherNames:Берта
OtherNames:Мария
CitizenOf:Бразилия
Рис. 6. Записи меточного формата
Записи меточного формата могут содержать повторяющиеся поля, поля с пустыми значениями, состав (перечень полей) записей в одном и том же файле может быть разным.
CSV-Comma Separated Values
CSV также, скорее, не стандарт, а общепринятое соглашение. В CSV-файле (расширение
может быть любым) хранятся записи переменной длины. Для каждой записи отводится
одна строка. CSV-записи содержат одинаковое число полей переменной длины. Поля отделяются друг от друга разделителем — запятой, точкой с запятой, кодом табуляции или
любым другим символом, одинаковым для всего файла. Форматы числовых полей и полей, содержащих даты, не регламентированы и для обеспечения интероперабельности
должны согласовываться дополнительно. Строковые поля могут заключаться в двойные
кавычки; если значение поля содержит символ-разделитель, то поле должно быть заключено в двойные кавычки. Если двойная кавычка содержится в значении поля, то она удваивается. Сочетание { д в о й н а я к а в ы ч к а , р а з д е л и т е л ь , д в о й н а я к а в ы ч к а } в
значении поля обычно не допускается.
ISO2709 (TLV)
ISO2709 — международный стандарт Международной организации по стандартизации
(International Standard Organization), впервые принят в 60-х годах XX в., последняя версия
относится к 1996 г. Этот формат принадлежит семейству форматов { м е т к а , д л и н а ,
з н а ч е н и е } — { T a g , L e n g t h , V a l u e } (TLV). Все длины, о которых говорится в
описании формата, измеряются в октетах (байтах). Файл этого формата содержит записи
переменной длины, состоящие из трех частей:

Лидер

Справочник

Область данных
Лидер имеет фиксированную длину. Эта часть записи разбита на несколько полей, каждое из которых имеет также фиксированную длину. В этих полях задаются основные характеристики справочника, разделители полей и записей, информация о разбиении
длинной записи на строки фиксированной длины и краткая информация об ИС, породившей запись.
Среди задаваемых характеристик справочника присутствуют количество байтов,
отводимых под:

Метку поля

Длину поля (включая разделитель полей, но исключая разделитель записей)
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
13

Смещение поля

Количество элементов в справочнике
Каждое поле записи идентифицируется меткой фиксированной длины. Содержание метки поля — предмет договоренности между разработчиками/администраторами взаимодействующих ИС. Например, в библиотечном формате MARC используются трехсимвольные цифровые метки. Поля с одинаковыми метками могут присутствовать в записи
многократно; при этом значения экземпляров полей могут быть различными (например,
для передачи информации о нескольких авторах).
Наличие длин, смещений и разделителей позволяет контролировать целостность поля/записи и читать файл, пропуская дефектные поля/записи.
Порядок полей в справочнике может не совпадать с порядком полей в области данных.
0
1
2
3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2
Лидер
Длина
записи
С
Код
применения
Справочник
Базовый
адрес
данных
И П
Прим
В Н
Рез
Метка
Длина
Сме
0 0 4 2 2 0 0 0 0 0 0 1 0 0 1 2 9 0 0 0 4 5 0 0 0 4 4 0 0 7 8 0 0
Справочник
щение
Метка
Длина
Смещение
Метка
Длина
Смещение
Метка
Длина
0 0 0 0 5 0 0 0 1 1 0 0 0 7 8 0 6 9 0 0 7 7 0 0 0 8 9 0 2 4 0 0 6
Справочник
Смещение
Метка
Длина
Смещение
Метка
Длина
Смещение
0
#
o
e
0
M
g
r
p
t
#
f
n
a
a
s
o
a
M
Смещение
1 1 0 0
e t h o
y :
p
S y m
1 a n t
i o n ,
T e c h
t r a
t s # P
g a l ,
2
d
r
p
n
n
a
А
6
o
o
o
p
m
i
s
r
.
3
l
c
s
h
e
q
p
i
С
Метка
0
o
e
i
y
a
u
i
s
.
7
g
e
u
s
s
e
r
0
y
d
m
i
u
s
a
U
# F
Длина
0 0
o
i n
# I
o l
r e
f
t i
n e
r a
1
f
g
n
o
m
o
o
s
n
Смещение
2 0
p
s
c l
g y
e n
r
n
c o
c o
0
l
o
.
,
t
t
o
Метка
2 7 4 0 7
a n t
e
f
t h e
b i b l .
p l a n
a n d
h e
m e
f
i n d
l 9 6 5 #
, C . M . #
Длина
0 0 0
c o M o
# P a
t
t
i n s
a s u
i v i
р . 2
V u ,
0
p
n
p
r
t
r
d
1
T
32
Метка
9 0 0 1 6 6 0 2 6 0 0 1 8 0 0 2 3 5 0 3 0 0 0 1 0 0 0 2 5 3 0 7 0
Справочник
Длина
0
64
Смещение
6
h
t
e
a
r
e
u
1
.
0
y
p
r
n
u
m
a
#
0 2 8 6 96
s i o l 128
e l l i 160
o n : 192
s p i r 224
m e n t 256
e n t
288
l
p l 320
2 2 4 # 352
#
384
Рис. 7. Пример записи ISO2709
Записи ISO2709 могут выступать как данные других записей ISO2709. При этом процедуры контроля целостности данных и пропуска дефектных данных становятся более сложными.
XML (eXtensible Markup Language)
XML будет посвящена отдельная большая часть курса
Человеко-машинные интерфейсы
Человеко-машинные интерфейсы в подсистеме ввода информации представлены формами. В подсистеме вывода мы увидим другой человеко-машинный интерфейс — отчет.
Форма содержит компоненты двух основных типов:

Метки

Поля ввода данных.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
14
Поля ввода данных, как можно предполагать из их названия, служат для ввода данных.
Каждое поле ввода данных, как правило, снабжено меткой, указывающей пользователю,
какие именно данные ожидает от него ИС в соответствующем поле. Метки обычно
располагаются слева или сверху от соответствующего поля.
Фамилия:
Имя:
[_________________________]
[_______________]
Рис. 8. Фрагмент формы ввода, содержащий поля ввода и их метки
Поля ввода данных, в свою очередь, бывают различных типов:

Текстовое, отображаемое (в том числе с масками, например, для ввода телефонного номера:
+Ц (ЦЦЦ) ЦЦЦ-ЦЦЦЦ

Текстовое неотображаемое (каждый вводимый символ заменяется символом-маской; используется, например, для ввода пароля)

Поле выбора (радио-кнопка)

Булево поле (галочка, checkbox)

Поле выбора из списка
На последнем типе полей следует остановиться особо. Как правило, список для выбора
формируется из нормативно-справочной информации (НСИ), но может формироваться
и из уже введенных в систему данных. Таким образом, для демонстрации пользователю
формы, предназначенной для ввода данных, ИС обращается к своей функции вывода информации.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
15
Лекция 3.
Обработка, поиск и вывод информации
Обработка информации
Хранение информации является важнейшей функцией ИС, поэтому для хранения информации разрабатываются специальные аппаратные (от НЖМД к RAID к средам хранения) и программные (СУБД, ИПС) средства. Программные средства хранения информации зачастую имеют многочисленные настроечные параметры, позволяющие повысить
эффективность хранения информации (например, уменьшить время доступа к ней).
Важнейшими характеристиками подсистемы хранения информации являются:

Емкость (в гигабайтах, записях)

Время доступа к данным

Надежность, которая характеризуется:
o
Временем наработки на отказ
o
Временем восстановления после отказа
Надежность обеспечивается аппаратурой (в том числе резервированием) и программным
обеспечением, а также организационными мерами (резервным копированием, о котором
будем говорить в другой лекции).
Другие виды обработки информации индивидуальны в каждой ИС (их еще называют
бизнес-логикой).
Функции поиска и вывода информации
Функции поиска и вывода информации тесно связаны: обычно для вывода информации
необходимо выполнить поиск.
Остановимся сначала на поиске информации.
Функция поиска информации
Для осуществления поиска пользователем или какой-то подсистемой ИС задаются критерии поиска, определяющие требуемую для вывода часть информации. Для задания
отдельных составных частей критерия поиска (т.н. локальных крит ериев ) пользователем используются экранные формы запросов на поиск, аналогичные формам ввода данных. Такие формы могут содержать поля всех тех же типов, что и в формах ввода (в т.ч. и
списки выбора, формируемые из НСИ). Разница между формами запроса и формами
ввода заключается в том, что запрос, как правило, не сохраняется. ИС используют различные формальные языки (называемые языками запросов) для задания критериев поиска:
регулярные выражения, SQL, ISO8001, CQL, XQuery и др.
Наивный подход к реализации поиска заключается в просмотре информационной системой каждого своего информационного объекта и сопоставления его с критерием поиска.
Именно так поступают, когда в качестве запросов выступают регулярные выражения, хотя
для сравнения критерия поиска с записями при этом используются совершенно нетривиальные алгоритмы. При этом время поиска пропорционально объему хранимых данных
и может составлять десятки минут. Как правило, однако, используется построение индексов. Индекс — это упорядоченная по значению последовательность пар {значение,
информационный объект}.
Значение (часто называемое ключом индекса) является однозначной функцией информационного объекта (записи); обратное, вообще говоря, неверно. Если отображение
ключ↔(информационный объект) взаимно однозначно, ключ называется уникальным.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
16
Поскольку ключи в индексе упорядочены, их, как правило, хранят в B-дереве (существуют
и другие способы организации индексов), что позволяет найти нужное значение (а по нему и информационный объект) за время, пропорциональное логарифму объема данных.
Для больших объемов данных времена полного просмотра и поиска с использованием
индекса могут различаться на многие порядки.
Некоторые ИС разрешают поиск только с использованием индексов. В этом случае название функции, отображающей информационный объект в ключ, называется точкой
входа (для поиска). Например, в библиотечной ИС точкой входа может быть автор (точнее, фамилия автора).
Функция вывода информации
Вслед за поиском происходит вывод результатов поиска (пользователю, сформировавшему запрос, другому пользователю или другой ИС). Этот вывод, как правило, осуществляется в форме отчета.
Отчет — это упорядоченный или неупорядоченный список информационных
объектов, снабженный дополнительными элементами:

Шапками

Подножиями

Итогами и подитогами.
Информационные объекты, включенные в отчет, могут быть сгруппированы по определенным критериям (связанным или не связанным с запросом) и тем или иным образом
отсортированы внутри группы. Шапки и подножия могут относиться ко всему отчету,
группе информационных объектов и/или странице отчета (если он разбит на страницы).
Части отчета, имеющие шапки и/или подножия, зачастую называются секциями отче та. Шапки и подножия секции отчета могут быть и пустыми — когда структура одной
секции резко отличается от структуры смежной секции.
Итоги представляют собой суммы каких-то численных характеристик ИО, включенных в
отчет; подитоги — итоги, относящиеся к разделу/странице.
Отчет, как правило, не содержит полную информацию о каждом включенном в него информационном объекте. Поэтому, если отчет выводится на экран, каждая запись об информационном объекте в отчете может быть связана с более подробным описанием информационного объекта (например, с формой ввода данных об этом информационном
объекте).
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
17
Шапка отчета
Компания XYZ
Шапка страницы
ОАО КБ Банк
Платежная ведомость
Май 2002 г.
Всего страниц 13
Стр. 1
Шапка раздела
Отдел №27
№ П/п
Фамилия ИО
Сумма
№ зарплатной карты
1
Абрамов Д.И.
12 000
6202...8124
2
Абросимов С.С.
7 800
6200...7892
~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ Подитог
~ ~ ~ ~ ~ ~ ~ ~ ~страницы
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
20
Петрова М.М.
32 334
6202...8001
Всего по странице
347 812
20 карт
Генеральный директор
Подножие страницы
Компанейский И.И.
Главный бухгалтер
Деньгова М.И.
Стр. 2
Шапка страницы
Отдел №27
№ П/п
Фамилия ИО
Сумма
№ зарплатной карты
21
Разумов К.Ю.
8 210
6202...7013
22
Сидорова И.В.
3 500
6201...7136
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
29
Яковлев А.П.
2 400
6198...0011
Подитог раздела
Всего по странице
45 172
9 карт
Всего по отделу
392 984
Генеральный директор
Главный бухгалтер
(29 карт)
Компанейский И.И.
Подножие страницы
Деньгова М.И.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Стр. 13
Отдел №74
№ П/п
Фамилия ИО
Сумма
№ зарплатной карты
41
Каюров Н.К.
3 500
6202...1307
42
Щепа Н.Т.
8 410
6203...9912
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
53
Юрова Т.М.
4 200
6202...4357
В
с
е
г
о
п
о
с
т
р
а
н
и
ц
е
1
9
2
1
8
3
13 карт
Подитог раздела
Итог отчета
Всего по отделу
489 002
(53 карты)
Всего по ведомости
5 910 807
(217 карт)
Пять миллионов девятьсот десять тысяч восемьсот семь рублей
Генеральный директор
Подножие отчета
Компанейский И.И.
Главный бухгалтер
Деньгова М.И.
Рис. 9. Пример отчета: платежная ведомость
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
18
Итог отчета
Шапка отчета
Подножие отчета /страницы
Рис. 10. Пример отчета: результаты поиска в Яндекс. Строки отчета являются ссылками.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
19
Лекция 4. Архитектуры и администрирование
информационных систем
Архитектуры информационных систем
Архитектура — обобщенный взгляд на ИС. Всякий дом имеет фундамент, стены, двери,
окна и крышу, но в разных сочетаниях. Так и ИС может в разных своих компонентах поразному сочетать свои функции. Говоря об архитектуре ИС, обычно рассматривают пространственно-логическое разделение функций между компонентами ИС.
В простейшем случае все функции ИС сосредоточены в одном компоненте (выполняются
на одном компьютере). Такие ИС называют монолитными. Монолитные ИС, как правило,
— однопользовательские.
Архитектура клиент-сервер
Распространена архитектура клиент-сервер. В компоненте "клиент" сосредотачиваются
функции клавиатурного ввода, формирования запросов на поиск, формирования результатов вывода; хранение и обработка, собственно поиск и формирование вывода выполняются сервером. Клиент и сервер взаимодействуют по определенному протоколу, фактически выступая как самостоятельные неполнофункциональные ИС. Обычно один сервер
может взаимодействовать с несколькими клиентами. Клиент и сервер не обязательно размещаются на различных компьютерах, но могут быть размещены и на одном компьютере.
Разделение функции между клиентом и сервером может быть различным. Например,
клиент может только собирать вводимые данные, а все проверки выполняться сервером; в
другом варианте ИС часть (или все) проверок может быть перенесена в клиента. Клиент
может выполнять и какую-то обработку данных. Чтобы отразить степень переноса функций в клиента, говорят о тонких (thin) и толстых (fat) клиентах. Тонкий клиент менее требователен к вычислительным ресурсам компьютера, упрощает централизованное
администрирование ИС, но повышает требования к вычислительным ресурсам сервера.
Толстый клиент более требователен к вычислительным ресурсам, но снижает нагрузку на
сервер.
Многозвенные архитектуры
Клиент-серверную архитектуру ИС иногда называют двухзвенной (two-tier). Существуют трехзвенные архитектуры и архитектуры с большим количеством звеньев. Многозвенные архитектуры возникают в случае необходимости сложной и/или специализированной обработки информации в ИС.
Примеры многозвенных архитектур
Диспетчер транзакций
Операции поиска и обработки данных, например, в банке или системе резервирования
авиабилетов, могут быть схожими для различных клиентов и состоять из последовательностей коротких несложных операций, которые, однако, могут влиять на операции соседних клиентов (например, запросить рейс –> запросить место –> зарезервировать место –>
отметить оплату –> место продано). Такие последовательности операций (называемые
транзакциями) нельзя прерывать — последовательность либо должна быть выполнена целиком, либо целиком отменена.
Операции по координации таких действий возлагаются на диспетчер транзакций.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
20
К лиент
Диспетчер
транзак ций
Сервер
баз данных
К лиент
Data General
К лиент
К лиент
К лиент
Рис. 11. Архитектура информационной системы с диспетчером транзакций
Сервер аутентификации
Сервер аутентификации проверяет возможность доступа в ИС, а OLAP-сервер выполняет
сложный анализ данных.
К лиент
Сервер
аутентифик ации
HEWLETT
PACKARD
Диспетчер
транзак ций
Сервер
баз данных
К лиент
Data General
К лиент
К лиент
d i gi t a l
OLAP сервер
Рис. 12. Сервер аутентификации проверяет возможность доступа к ИС,
а OLAP-процессор выполняет сложный анализ данных
Веб-сервер с динамическим порождением страниц
Клиент — веб-браузер — взаимодействует с веб-сервером по протоколу HTTP через два
межсетевых экрана (брандмауэра, файервола) и прокси-сервер. На веб-сервере выполняВ.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
21
ется приложение PHP (ASP, JSP, Perl или какое-либо другое), которое обращается к серверу баз данных.
Рис. 13. Взаимодействие веб-браузера с веб-сервером
Администрирование ИС
Администрирование ИС — это совокупность мероприятий, обеспечивающих требуемые
характеристики эксплуатации ИС и выполняемых специально обученным персоналом —
администраторами. Требуемые эксплуатационные характеристики могут быть различными, однако некоторые из них встречаются в большинстве ИС, а некоторые — во всех ИС.
Рассмотрим эти (встречающиеся во всех ИС) характеристики — надежность , доступность (для пользователей) и эффективность — и соответствующие мероприятия.
Надежность
Надежность функционирования требуется от всех ИС.
Введем некоторые определения.

Сбой — прекращение функционирования ИС (или ее компонента), после
которого ИС восстанавливает свою работу без вмешательства администраторов.

Отказ — прекращение функционирования ИС (или ее компонента), при
котором для восстановления работоспособности ИС требуется вмешательство администратора. Отказ — более серьезная неисправность, чем сбой.

Катастрофа — отказ, вызванный внешним воздействием на ИС (атака, пожар).
Под прекращением функционирования ИС понимается не только физический выход из
строя оборудования, но и, например, такое изменение характеристик ИС, которое делает
невозможным ее обычное применение (например, изменение времени реакции системы
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
22
на действие пользователя с 0,1 до 10 сек или отказ в доступе санкционированному пользователю).
Количественные характеристики надежности ИС (частота сбоев/отказов или обратная величина — время наработки на сбой/отказ) задаются при разработке ИС при выполнении
определенных условий эксплуатации:

Использовании оборудования и ПО необходимого уровня надежности

Дублирования оборудования (горячего резервирования — во включенном состоянии)

Резервирования оборудования (холодного — в выключенном состоянии) и
электропитания

Защиты ИС от несанкционированных внешних воздействий (атак)

Выполнение работ по обслуживанию в соответствии с регламентом, например:
o
Обеспыливание системных блоков — 1 раз в 6 месяцев
o
Проверка и замена вентиляторов блоков питания — 1 раз в 6 месяцев
o
Проверка и замена вентиляторов процессоров — 1 раз в 2 месяца
o
Проверка напряжения в сети питания — 1 раз в 3 дня
o
Обновление БД антивируса — ежедневно
o
Сканирование НЖМД — 1 раз в три дня
o
Анализ и установка заплат ПО — 1 раз в 2 дня
o
и т.д.
Выполнение регламентных работ фиксируется в журналах регламентных работ.
Журнал регламентных работ
Дата
10.01.2004
11.01.2004
12.01.2004
12.01.2004
12.01.2004
13.01.2004
13.01.2004
Работа
Исполнитель
Обновление БД антивируса
Обновление БД антивируса
Обновление БД антивируса
Проверка напряжения в
сети питания
Антивирусное сканирование
НЖМД
Обновление БД антивируса
Инженер Петрова
Инженер Петрова
Инженер Петрова
Инженер Волков
Обеспыливание системных
блоков
Отметка
Замечания о
исполнения –
выполнении
подпись
работы
исполнителя
Инженер Петрова
Инженер
Лютикова
Инженер Волков
Рис. 14. Пример журнала регламентных работ
Известно, что увеличение частоты сбоев является предвестником отказа. Поэтому большинство ИС и все базовое ПО (ОС, СУБД) ведут журналы, в которых протоколируются
сбойные ситуации. В обязанности администратора входит регулярный (в соответствии с
регламентом) просмотр этих журналов, планирование и выполнение действий, направленных на нейтрализацию причин сбоев и предотвращение отказов.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
23
Пример
В СУБД создали новую базу. После этого в журнале событий стали появляться сообщения
о невозможности завершения резервного копирования другой, уже существовавшей базы.
Новая база копируется без проблем. В чем же дело? Для копирования обеих баз задан
один и тот же раздел жесткого диска, которого как раз хватило для одной базы, но который оказался мал для двух баз. Планируемое действие: увеличить объем дисковой памяти (или перенаправление резервного копирования в другой раздел или и т.д.).
Отказы дублированных (резервированных) компонентов ИС могут рассматриваться как
сбои ИС. Однако такие сбои могут приводить к длительному падению эффективности
функционирования ИС и, возможно, к временному (на период восстановления отказавшего компонента) снижению надежности ИС. Пример: отказ диска в массиве RAID5 на
время замены и восстановления содержимого отказавшего диска (около 1 часа) понижает
как надежность массива, так и производительность дисковой подсистемы.
Доступность
Доступность измеряется долей времени, в течение которой ИС работоспособна, и тесно
связана с надежностью ИС.
Время неработоспособности ИС — это время ее восстановления после сбоя/отказа. Если
время восстановления после сбоя, как правило, определяется при разработке ИС и обычно невелико (от долей секунды до нескольких минут), то время восстановления после отказа зависит от наличия плана восстановления, выполнения мероприятий по подготовке
к восстановлению после отказа, и обученного и тренированного персонала — администраторов ИС.
Эффективность
Эффективность функционирования ИС заключается в удержании определенных параметров ИС в требуемых пределах. Один из основных таких параметров — время реакции (отклика) на внешние воздействия (изменения данных, действия пользователей и др.). Время
реакции ИС должно быть разумно малым; для этого следует выполнять настройки использования всех видов памяти, используемой ИС (перемещения часто используемых данных в
более быструю память, - например, в специальную буферную область ОЗУ; удаление (архивирование) неиспользуемых данных; дефрагментацию дискового пространства (включая дефрагментацию свободного пространства на диске и пр.), настройки использования
индексов; настройки пропускных способностей сетей (сетевых карт; топологии сети; активного оборудования сети и др.).
Все эти работы требуют измерений соответствующих параметров (необходимые измерительные средства, как правило, присутствуют в составе ОС и СУБД/ИПС) и должны выполняться по определенным регламентам.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
24
Лекция 5.
Резервное копирование
Основной проблемой восстановления работоспособности ИС после отказа является восстановление хранимых данных. Отказ многих аппаратных компонентов ИС (процессора,
памяти, контроллеров, внешних устройств, сетей передачи данных и пр.), как правило,
нарушает целостность хранимых данных. Поэтому подготовка к восстановлению данных
является важнейшим элементом планов работ по восстановлению работоспособности
ИС. Такая подготовка включает в себя 3 компонента:

Изготовление резервных копий данных (резервное копирование)

Хранение резервных копий

Тренировки персонала по восстановлению данных
Начнем с последнего. Тренировки должны быть регулярными, обеспечивающими автоматизацию навыков администраторов по восстановлению данных. Дело в том, что восстановление данных может занимать часы и требовать от администратора действий, выполняемых в строго определенной последовательности. Нарушение такой последовательности может приводить к повторению процедуры восстановления с ее начала — снова вызывая простой ИС.
Хранение резервных копий зависит от вида носителей. Например, магнитные носители
следует хранить в размагниченном металлическом сейфе (шкафу), а оптические диски
можно хранить в любом непрозрачном контейнере.
На любых носителях обычно изготавливаются не менее 2 резервных копий (как правило,
3), одна из которых хранится в помещении, в котором предстоит восстановление данных,
а другая — в другом здании (желательно не ближе 10 — 15 км) — на случай стихийного
бедствия или теракта.
При использовании трех копий еще одна копия хранится в том же здании, где будет происходить восстановление данных, но в помещении, отдаленном от того помещения, где
эксплуатируется ИС.
Резервное копирование следует осуществлять настолько часто, насколько допустима потеря части данных после их восстановления из последней резервной копии; например, если
резервное копирование осуществляется 1 раз в сутки, то средний потерянный объем изменений данных — это изменения, сделанные за 12 часов работы ИС, а в худшем варианте
— за все 24 часа. Резервное копирование может быть длительным процессом. Например,
изготовление полной резервной копии базы данных объемом 1 Гигабайт может занимать
от 20 мин до 1 часа. А бывает ИС объемом в терабайты! Во время изготовления резервной
копии нельзя вносить изменения в данные, так что в это время функциональность ИС
снижена. Поэтому для резервного копирования следует принимать все возможные меры,
снижающие время изготовления копии:

Уменьшать объем копируемых данных

Повышать производительность оборудования, на котором изготавливаются копии

Использовать программное обеспечение, которое позволяет изменять данные, не
затрагивающие целостность резервной копии (например, уже полностью скопированные).
Последняя мера сильно зависит от структуры хранимых данных и среды хранения, а первые две носят универсальный характер.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
25
Средства резервного копирования
Рассмотрим вкратце современное оборудование, применяемое для резервного копирования.
Таблица 1
0,5–1
SCSI 10
ATA
микрокассета
отлично магнитооптический
диск
средне DVD/R
DVD/RW
хорошо CD-R/RW
0,1–0,8 SCSI 10
ATA
CD-R/RW
0,05–0,4 SCSI 10
массовый
ATA
CD-R/RW про- 2–10
SCSI 10–160 средне
мышленный
ATA
НЖМД
0,07–3
Время хранения
Гбайт
долл.
100–400
>100
В
>50
0,3–2
20
В
>100
4–25
>4
В
0,7
0,3
С
неизв
.
2
>10
В
5–10
50–100
С
>30
CD-R/RW в спе- 10–20
циальных
кассетах
SCSI 10–320 отлично жесткий диск
100–300
ATA
Надежность
тыс.
Мбайт/
долл.
сек
1—10 SCSI 30–400 плохо
Тип
Стоимость
единичного
носителя
Совместимость
оборудования разных
производителей
Скорость
передачи данных
Носитель данных
Емкость
единичного
носителя
Цифровой
магнитофон
Магнитооптический
привод
DVD/R/RW
Интерфейс
Тип
Стоимость
оборудования
Оборудование
лет
Выбор оборудования/носителей осуществляется исходя из баланса емкости, скорости записи, надежности и срока хранения и стоимости.
Схемы организации резервного копирования
Рассмотрим возможность уменьшения объема копируемых данных. Для этого используются 2 схемы организации копирования: дифференциальная и инкрементная. Для обеих
схем процесс изготовления резервных копий планируется по определенным календарным циклам. Например, при ежесуточном копировании цикл может составлять 5 — 7
дней, а при ежечасном — 6 — 12 часов.
В начале цикла выполняется полная копия данных. Эта копия делается дважды или большее число раз — в зависимости от принятого числа резервных носителей. Нельзя сделать
единственную копию, а затем реплики с нее, — потому, что именно эта единственная копия может оказаться поврежденной. Напротив, рекомендуется сравнить все изготовленные копии для выявления и отбраковки дефектных.
На втором шаге цикла и для дифференциальной , и для инкрементной схем копирования выполняется копия только той части данных, которая была изменена за интервал времени, прошедший с момента изготовления полной копии.
Объем таких данных в разы (а иногда в тысячи раз) меньше, чем объем полной копии
(см. Рис. 15).
На третьем и последующих шагах циклов резервного копирования действия для дифференциальной и инкрементной схем копирования различаются. Для дифференциальной
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
26
схемы по-прежнему изготавливается копия изменений данных относительно их состояния в момент полного копирования. Объем такой частичной (дифференциальной) копии
постепенно растет. Для инкрементной схемы копируются только изменения данных,
произошедшие за последний цикл копирования. Объем данных инкрементной копии остается небольшим.
Объемы копий
(Мб)
Полная копия
Инкрементная копия
Дифференциальная копия
120
100
80
60
40
20
0
1
2
3
4
5
6
7
8
9
10
11
12
13
Периоды копирования
Рис. 15. Объемы копирования (гипотетический случай)
при пятидневном цикле изготовления резервных копий.
По оси X — периоды копирования, по оси Y — объемы (в мегабайтах)
В результате полная копия выполняется долго, но сравнительно редко. Дифференциальная копия выполняется с нарастающим временем копирования, но использует немного
носителей, поскольку после успешного завершения очередного копирования прежняя
дифференциальная копия становится формально ненужной (в реальности предпоследнюю дифференциальную копию всегда сохраняют — на тот случай, если последняя
копия окажется поврежденной.). Инкрементная копия всегда выполняется быстро, но использует большое количество носителей.
Восстановление данных при использовании дифференциальной схемы резервного копирования происходит в 2 этапа: сначала восстанавливаются данные из последней полной
копии, а затем — изменения данных из дифференциальной копии. При использовании
инкрементной схемы процесс восстановления более длителен: вслед за восстановлением
из полной копии идет последовательное восстановление из всех инкрементных копий.
В процессе любого восстановления данных любая из копий может оказаться дефектной.
Поэтому во избежание полной потери данных обычно хранятся носители с копиями 2 —
3 предыдущих поколений (скажем, при пятидневном цикле резервного копирования хранятся три последние полные копии и до трех инкрементных копий текущего цикла). Конечно, получить ИС в состоянии двухнедельной давности — не подарок, но полная потеря
данных — это еще хуже.
Восстановление из резервной копии может требовать антивирусного сканирования — в
том случае, когда сохранялись данные, в которых могли переноситься вирусы (например,
документы Word или базы электронной почты), поскольку на момент изготовления копии вирус мог быть еще не обнаружен.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
27
Лекция 6.
Типология информационных систем
Информационные системы можно классифицировать по различным признакам. Чаще
всего используют 2 признака: структуру хранимой в информационной системе информации и время отклика.
Классификация информационных систем по времени отклика
По времени отклика информационные системы делятся на ИС реального времени и пакетные. Информационные системы реального времени имеют время отклика, достаточное для гарантированного решения задач, для которых они предназначены, в требуемые
сроки (например, время отклика ГИП не превышает времени комфортного ожидания
пользователя — 0,2 ... 5 сек). Время отклика пакетных ИС варьируется в широких
пределах и может составлять часы или даже сутки.
Классификация информационных систем по структуре хранимой
информации
По структуре хранимой информации информационные системы делятся на объектографические и документальные.
Объектографические информационные системы
Информация, хранимая и обрабатываемая в объектографических информационных системах, имеет строго определенную структуру. Каждая запись объектографической ИС
состоит из определенных элементов — полей, содержимое которых строго регламентировано (число, строка и др.). Записи объектографической ИС соответствуют объектам реального мира и искусственным сущностям — отсюда и название объектографическая .
Примеры объектографических систем — все системы поддержки управления предприятиями (ERP — Enterprise Resource Planning): бухгалтерия, кадры, склад, торговля, снабжение и поставки — объектографические.
Поиск в объектографических информационных системах осуществляется по сочетаниям
локальных критериев, каждый из которых представляет собой булеву функцию от значения того или иного поля (например, Н а к о п л е н н а я З а р п л а т а > 2 0 0 0 0 ). Типовые
задачи поиска в ОИС рассматриваются в процессе разработки ОИС и, как правило, должны находить все требуемые и только требуемые записи. Эффективность поиска обеспечивается использованием индексов. В качестве сред хранения информации ОИС используют т.н. реляционные СУБД, а в качестве языка запросов, как правило, SQL.
Документальные информационные системы
Документальные информационные системы хранят слабо структурированную информацию. Запись документальной информационной системы обычно соответствует привычному текстовому документу, хотя может содержать и некоторое количество полей типа
тех, которые используются в объектографической ИС, например, дату создания документа или его тип (статья, закон, стихи ...). Такие поля соответствуют формальным атрибутам
документа. Примеры документальных информационных систем: библиотечный каталог с
аннотациями; полнотекстовая ИС типа Yandex или Google.
Поиск в документальных информационных системах так же, как и в объектографических
ИС, осуществляется по сочетаниям локальных критериев, однако эти критерии применяются не к документу, как к целому, а к некоторой функции документа, называемой поисковым образом документа (ПОД). Документальные информационные системы, как
правило, отличаются непредсказуемым разнообразием поисковых задач, для которых,
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
28
как мы увидим в дальнейшем, полнота («найти все документы») и точность («найти только требуемые документы») недостижимы и/или несовместимы.
В качестве среды хранения документальные информационные системы используют информационно-поисковые среды с индексами в виде инвертированных файлов, о строении
которых мы поговорим в следующих лекциях.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
29
Лекция 7. Основы теории информационного поиска
Документальные информационные системы тесно связаны с процессами поиска
слабо структурированной информации. Поэтому нам предстоит познакомиться с этими
процессами и понять, как они влияют на архитектуры документальных информационных
систем. Поскольку в подсистемы хранения и поиска в документальных информационных
системах — наиболее сложные и важные из подсистем, и реализованы они с
применением документальных информационно-поисковых сис тем, я буду
использовать оба термина (документальные информационные системы и
информационно-поисковые сис темы) как эквивалентные. Это не совсем строго, но
позволяет сосредоточиться на основных проблемах архитектуры документальных
информационных систем.
Несколько слов об истории
Поиск информации — задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку
(например, посетителю библиотеки), были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ.
Сначала эти средства совершенствовались в каталогах и информационных отделах крупных библиотек. В 70-е годы XX века появились базы данных, доступ к которым сначала
обеспечивался через модемное подключение, а затем по протоколу t e l n e t через Интернет. Стоимость работы с такими базами данных весьма велика. Например, одна минута работы с базой данных DIALOG (www.dialog.com ) может стоить доллар (в зависимости
от раздела базы), а вывод на экран одного элемента найденной записи (из, например,
70) — 20 центов. Такая высокая стоимость поиска информации потребовала создания
эффективных приемов поиска.
Исследования по методам поиска информации публикуются в научных журналах. В нашей стране — в журнале "Научная и техническая информация" (НТИ), в США — в Journal
of American Society of Information Systems (JASIS).
Все найденные за много лет средства и приемы поиска информации реализованы в документальных поисковых системах, применяемых для поиска информации в Интернете, таких, как Yahoo!, Google, Апорт, Яндекс или Рамблер, которые мы для краткости будем называть ИПС Интернета.
Библиотеки используют, в основном, три вида каталогов: алфавитные, систематические и
предметные. ИПС Интернета, при всем их внешнем разнообразии, также попадают в
один из этих классов. Причина этого — общие законы, управляющие поиском информации. Поэтому познакомимся сначала с тем, как устроены абстрактные алфавитные
(словарные), систематические и предметные ИПС. А для этого придется познакомиться
еще и с некоторыми терминами из теории информационного поиска.
Информационная потребность. Понятие пертинентного документа
Итак, автор(ы) создает(ют) документ(ы). А у нас (у вас) возникает информационная по требность — отыскать документ (или документы), содержащие какие-то необходимые
нам сведения. Эта информационная потребность часто (как правило) даже не может быть
точно выражена словами — говорят, что информационная потребность, вообще говоря,
невербализуема. Информационная потребность выражается только в оценке просматриваемых документов — подходит или не подходит. В теории информационного поиска
вместо слова «подходит» используют термин пертинентный документ , а вместо «не
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
30
подходит» — непертинентный. Слово «пертинентный» происходит от английского
“pertinent”, что значит «относящийся к делу, подходящий по сути».
Рис. 16. Информационная потребность существует только в мыслях пользователя
Субъективно понимаемая цель информационного поиска — найти все пертинентные и
только пертинентные документы (мы хотим найти «только то, что хотим, и ничего больше», такой поиск называется исчерпывающим). Для сколько-нибудь больших документальных информационных систем эта цель недостижима.
Действительно, для того, чтобы решить, является ли документ пертинентным, необходимо просмотреть этот документ и сделать его оценку. Известно, что специалист в состоянии просмотреть с оценкой за один сеанс просмотра не более 50—100 документов, что
явно намного порядков меньше, чем то количество документов, которое содержится в
любой из современных ИПС.
Информационный поиск и взаимодействие культур
Информационная потребность выражается только в оценке просматриваемых документов. Но деятельность человека, связанная с выработкой оценок, всегда происходит в рамках той культуры (культур), с которыми связан человек. Для информационного поиска
наличие таких «культурных» ограничений означает присутствие препятствий, связанных
с различием культур автора и пользователя, ищущего документ. Наиболее ярко такое
различие проявляется в отличии языка текста документа от родного языка пользователя.
Этим, однако, подобные различия не ограничиваются. Поскольку, например, профессиональные сообщества зачастую порождают специфическую терминологию, то незнание
такой терминологии может служить непреодолимым препятствием в оценке найденных
документов.
Рассмотрение поиска в документальных информационно-поисковых системах как межкультурной коммуникации является весьма плодотворным и помогает находить ответы
на многие вопросы, связанные с поиском.
Информационный шум
Мы часто в состоянии оценить пертинентность документа только в сравнении с другими
документами (конечно, если цель нашего поиска — редактор для Quake, а попался документ с кулинарным рецептом, то он явно непертинентен, но принять решение о пертинентности документа так просто удается далеко не всегда). Для того, чтобы было с чем
сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются — «шум» (или информационный шум ). Слишком большой шум
затрудняет выделение пертинентных документов, слишком малый — не дает уверенности
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
31
в том, что найдено достаточное количество пертинентных документов (раз мы видим
только пертинентные документы, нет никакой уверенности в том, что и среди тех
документов, которые не попались нам на глаза, тоже не окажутся пертинентные).
Практика показывает, что когда количество непертинентных документов лежит в
интервале от 10% до 30%, ищущий чувствует себя комфортно, не теряясь в море шума и
считая, что количество найденных документов — удовлетворительно.
Информационно-поисковые системы — ИПС
Поскольку задача исчерпывающего поиска неразрешима, то человечество задумалось над
«средствами механизации» поиска, которые позволяли бы решать поисковые задачи в
удовлетворительном приближении. Такие «средства механизации» вынуждены работать
с тем «материалом», который присутствует в слабо структурированной информации —
словами естественного языка. Использование слов в том виде, в котором они присутствуют в документах, неэффективно — ведь в таком случае информационно-поисковая
система вынуждена была бы просматривать документы один за другим — почти так же,
как это делает человек. Хотя ИПС может просматривать документы очень быстро, но в тех
случаях, когда количество документов достигает сотен тысяч (как в юридических ИПС)
или миллиардов (как в ИПС Интернета), прямой «механический» просмотр всех
документов требует значительного времени. Поэтому ИПС почти никогда не работают
непосредственно с исходными документами. Вместо исходных документов ИПС
используют их представления — т.н. поисковые образы докумен тов (ПОД).
Преобразование документа в его ПОД в различных ИПС происходит по-разному. Ниже
при обсуждении различных типов документальных ИС мы рассмотрим процессы
формирования ПОД для них.
С другой стороны, и общение пользователя (пытающегося с помощью ИПС удовлетворить свою информационную потребность) с ИПС также не является простым процессом.
Обращение к ИПС с запросом на поиск обычно не может быть реализовано с помощью
экрана (бланка) запроса, содержащего набор простых локальных критериев. Ведь слов в
документах много, и лобовой подход, объявляющий каждое слово объектом такого локального критерия потребовал бы столько полей ввода в экране запроса, сколько присутствует отдельных слов в самом большом документе, хранимом документальной ИС.
ИПС
ры
то
Ав
Ответ
Информационная
потребность
До
н
ме
ку
ты
ПОД
ПОД
ПОД
ПОД
Запрос
Рис. 17. Запрос к ИПС и ответ ИПС
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
32
Запрос к ИПС
Зачастую вместо экранов запросов (и/или вместе с экранами запросов) документальные
информационные системы используют языки запросов (информационно-поисковые языки, ИПЯ), и для общения с ИПС информационная потребность должна быть
выражена средствами, которые эта ИПС «понимает» — должен быть сформулирован запрос на формальном входном языке запросов ИПС.
В ответ на запрос ИПС передает отчет — список найденных документов, так или иначе
идентифицирующий эти документы.
Понятие релевантного документа
Запрос редко может точно выразить информационную потребность — ведь информационная потребность невербализуема, а запрос, как правило, требуется писать на формальном языке.
Однако многие ИПС по разным причинам не могут определить, соответствует ли тот или
иной документ запросу — ведь они работают не с самими документами, а с их ПОДами.
Степень соответствия документа запросу называется релевантностью. Релевантный
документ может оказаться непертинентным и наоборот.
Пример
Известна (американская) ИПС, которая на запрос, состоящий из единственного слова
“R u s s i a ” (Россия), выдает список документов, в первом из которых этого слова нет вообще, но зато есть слово “G a g a r i n ”. Этот документ нерелевантен, но пертинентен для массовой американской аудитории.
В случае, когда ищется информация о шлюпочных якорях (кошках), запрос, состоящий
из слова «к о ш к а », почти в любой ИПС даст массу релевантных, но непертинентных документов.
Полнота и точность информационного поиска
Введем некоторые формальные определения. Пусть
Δ — множество документов, ПОДы которых представлены в документальной ИС;
π — общее количество пертинентных документов в Δ ; обычно π много меньше, чем
D — общее количество документов, ПОДы которых представлены в докумен-
тальной ИС;
F
— количество найденных по определенному запросу документов;
P
— количество найденных пертинентных документов, P < F ; P ≤ π ;
Полнота (recall) задается отношением
r
P
π
Точность (precision) информационного поиска задается отношением
p
P
F
Шум (noise) — это величина, дополнительная к точности:
n1
P
F
Для широкого класса ИПС и запросов к ним имеет место (полученное по результатам
многочисленных экспериментов) соотношение дополнительности:
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
33
p  r  const
Таким образом, если по каким-то причинам требуется произвести более или менее исчерпывающий поиск (обеспечить его высокую полноту), то придется мириться с высоким
шумом (низкой точностью поиска).
Сказанное можно проиллюстрировать двумя модельными ситуациями поиска. В первой
ситуации найден один-единственный пертинентный документ. В этом случае точность
p = 1 , а шум n = 0 . Но и полнота r , видимо, близка к нулю, поскольку многие из присутствующих в ИС пертинентных документов не найдены. В качестве другой модельной ситуации будем рассматривать все множество Δ как результат поиска. Тогда, напротив, шум,
как правило, велик (в этом случае точность p = π / D почти равна 0), а полнота равна 1.
Реальные ситуации документального поиска располагаются между приведенными модельными ситуациями, давая или высокий шум, или высокую полноту поиска.
Координация терминов
Почти очевидно, что слова в документах, создаваемых людьми, встречаются вовсе не в случайном порядке, и этот факт, видимо, можно использовать при разработке информационно-поисковых систем. Слова (строго говоря, лексические единицы) текста документа образуют друг с другом устойчивые сочетания, имеющие определенное смысловое содержание. Такие сочетания лексических единиц называют терминами. Термин обычно означает некоторое понятие. Одно и то же понятие может быть обозначено различными
терминами («компьютер» ~ «электронная вычислительная машина»); в таком случае говорят о синонимии терминов.
Пространственные (текстуальные) связи лексических единиц, образующие термин, называются отношением координации. Термины, в свою очередь, также могут находиться
друг с другом в отношениях координации, образуя новые термины, обозначающие более
общие понятия.
В процессе информационного поиска человек явно или неявно осуществляет координацию лексических единиц и терминов оцениваемых документов. Поэтому уже в начале XX
века возникла идея использовать предварительную (до поиска) координацию терминов
(тогда бумажных) документов, осуществляемую обученными специалистами. Результаты
такой координации — поисковые образы документов, состоящие только из терминов. В
результате в библиотеках возникли сначала предметные, а затем и систематические каталоги. Аналоги этих типов каталогов встречаются в Интернете и других документальных
информационных системах. Такого рода документальные информационно-поисковые
системы называются ИПС с предкоординацией терминов (или просто ИПС с предкоординацией — ИПС с предкоординированными ИПЯ — предкоординированные
ИПС).
Можно, однако, возложить всю работу по координации на того, кто ищет, предоставив
ей/ему возможность непосредственно работать с лексическими единицами текста документов. Такой подход к осуществлению информационного поиска называется посткоординацией термин ов . В бумажную эру это было непросто, и далее алфавитных авторских каталогов (в которых присутствовали только лексические единицы одного-единственного типа — фамилии авторов документов) дело заходило редко. Однако с появлением компьютеров создание посткоординированных ИПС стало реальностью. Такие
ИПС широко используются, например, для реализации юридических документальных
информационных систем и для поиска во Всемирной паутине.
Рассмотрению особенностей пред- и посткоординированных ИПС посвящены
следующие лекции.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
34
Лекция 8.
Предкоординированные ИПС
Предметные ИПС
Предметная ИПС устроена наиболее просто. На основе анализа взаимной встречаемости
терминов формируется список «предметов», о которых говорится в документах. Предмет, как правило, является достаточно абстрактным понятием. Предметом может быть
что-нибудь вещественное, например, «яблоко» (на самом деле, абстрактное яблоко, представляющее собой — как термин — некоторое множество некоторых аспектов реальных
яблок), но может быть и нечто невещественное, например, «индийская музыка». С названием предмета связываются списки соответствующих документов.
Это особенно удобно, если полный перечень предметов невелик — предметная ИПС
представляет собой «полки», на которых лежат ссылки на ресурсы, относящиеся к
названию полки («предмету»):
Предметная
-------------|
|------|
|------|
|------|
|------|
|------|
|------|
ИПС
Абажуры
Бублики
Индийская музыка
Куклы
Музыка
Программирование на языке Perl
|------- Яблоки
|
|------- Яблони
Такие «полки» с названиями предметов называются предметными рубр иками, а сам
перечень предметных рубрик — рубрикатором . Предметная рубрика предкоординированной ИПС, кроме названия предмета, может содержать перечни координированных
лексических единиц и терминов, отражающих содержание понятия, описываемого этой
рубрикой.
Предметные каталоги появились в библиотеках в начале XX века и продолжают развиваться. В настоящее время предметные каталоги крупных библиотек (например, Российской национальной библиотеки в Санкт-Петербурге) насчитывают 20—30 и более тысяч
предметных рубрик. Прямой ручной переборный поиск в таких списках рубрик невозможен, поэтому все мало-мальски значительные по размерам предметные ИПС оснащаются
дополнительным поисковым аппаратом (например, посткоординированной ИПС, в которой документами являются названия предметных рубрик, а в бумажных каталогах библиотек — хотя бы так называемым алфавитным ключом, указывающим, в каком ящике искать рубрики, названия которых начинаются на определенную букву).
При создании предметной ИПС всегда встают два основных вопроса:

Какие же термины следует считать «предметами»? (Следует ли, например, считать
яблоко предметом?)

Каков объем понятия, относящегося к «предмету»? (Что есть яблоко?)
В библиотеках для решения этих вопросов создаются специальные группы сотрудников,
называемые «комиссией по предметизации». Фактически эти группы являются авторами
предметных ИПС. Кроме описания решений, принятых по приведенным выше вопросам,
комиссия по предметизации разрабатывает инструкции, пользуясь которыми другие сотВ.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
35
рудники библиотеки (работники отдела предметизации, предметизаторы) и осуществляют предметизацию — приписывание документам предметных рубрик.
В результате функционирование предметной ИПС можно представить схемой (Рис. 18).
Разработчики
рубрикатора
то
стр
Ав
укц
ия
ИПС
Ин
ры
Ответ
Информационная
потребность
Предметизаторы
До
ку
ме
нт
ы
Запрос
Рис. 18. Схема функционирования предметной ИПС
Обратим внимание на то, что на этой схеме присутствуют, кроме авторов документов и
пользователя ИПС, еще две группы людей: разработчики рубрикатора и предметизаторы. Культуры, в которые погружены эти группы людей, зачастую отличаются друг от
друга и от культур авторов и пользователей ИПС.
Работа предметизатора также включает оценку (к какой предметной рубрике отнести документ — в соответствии с содержание его текста). Если предметизаторы (принадлежа к
другим культурам, нежели культура разработчиков рубрикатора) не следуют строго инструкции по предметизации, то документы оказываются приписанными к иным, чем предполагалось, рубрикам.
Если пользователь не понимает, как устроена культура разработчиков рубрикатора, он не
в состоянии обратиться к той предметной рубрике, которая должна содержать документы, пертинентные его информационной потребности. Ниже (при рассмотрении классификационных ИПС) мы увидим подобные примеры. Вековая история использования
предметных каталогов в библиотеках позволила выработать два приема, позволяющие в
этом случае смягчить проблему межкультурной коммуникации. Эти приемы называются
отсылкой и ссылкой.
Отсылка
Если комиссия по предметизации полагает, что в культурах пользователей существуют
синонимичные названия предметов («компьютер» ~ «электронная вычислительная машина»), то в рубрикатор вносятся оба этих названия, однако все документы, релевантные
данному предмету, приписываются только к одной из рубрик. Вторая остается пустой, в
нее помещается текст «См. (смотри) < имя наполненной рубрики > » — отсылка.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
36
Ссылка
Зачастую, однако, в рубрикаторе присутствуют близкие по значению или как-то иначе
связанные предметные рубрики. В этом случае используется ссылка — «См. также
< имя наполненной рубрики > »
WebRing — предметная ИПС Интернета
В середине 90-х годов XX века Web-мастера, занимающиеся, как они считали, одним
предметом, начали ставить на своих сайтах ссылки на сайты коллег, создавая кольцевые
ссылочные структуры (Рис. 19).
Рис. 19. Веб-кольцо — кольцевая ссылочная структура
В июне 1995 г. появился сайт W e b R i n g [h t t p : / / w w w . w e b r i n g . o r g ], объединивший
несколько колец. В настоящее время на этом сайте "присутствуют" более 50 тыс. колец, которые в общей сложности включают более 900 000 сайтов, т.е. средний размер кольца —
около 18 сайтов. Есть, однако, и кольца-гиганты, содержащие тысячи сайтов. Участники
таких колец используют не только двусторонние ссылки (как показано на рисунке), но и
ссылки «через сайт» и случайные ссылки, генерируемые программным образом.
Понятно, что найти нужный предмет интереса при большом количестве предметов непросто. W e b R i n g обзавелся собственными вспомогательными ИПС — классификационной и словарной, помогающими найти название предмета.
Поскольку предметные рубрики W e b R i n g не были разработаны какой-либо организацией, а процесс предметизации в W e b R i n g стихиен, то межкультурные проблемы
сказались на этой ИПС самым существенным образом. Существует множества непересекающихся веб-колец с идентичной тематикой — их авторы по каким-то причинам не желают взаимодействовать друг с другом. Некоторые тематики (например, классическая музыка) представлена на W e b R i n g весьма ограниченно, а многие другие (зачастую, маргинальные, например, рокеры) — очень широко. Это явление связано с уровнем активности
соответствующей культурной группы. И, конечно, основной язык представленных на
W e b R i n g сайтов — английский.
В силу сказанного, W e b R i n g обладает ограниченной ценностью как поисковая ИПС
Всемирной паутины.
Классификационные ИПС
В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ. При такой организации ИПС
есть не очень много (обычно менее двух десятков) "больших полок", каждая из которых
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
37
разделена на несколько меньших, каждая из которых, в свою очередь, вновь разделена на
еще более мелкие...
Рис. 1 Классификационная ИПС — продукт взаимодействия многих культур
Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС — систематический каталог. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов,
называемых СИСТЕМАТИЗАТОРАМИ. Систематизаторы, зная классификатор, читают
документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора (рубрикам) эти документы соответствуют.
Классический пример классификационной ИПС — Y a h o o (www.yahoo.com ). Едва появившись, быстро завоевала признание качественной проработкой классификатора.
Сейчас в Yahoo работают более 100 систематизаторов.
Классификационные ИПС обладают рядом специфических недостатков. Уже разработка
классификатора связана с оценкой относительной важности различных областей человеческой деятельности. Например, сравнивая классификаторы многих ИПС Интернета (таких, как Yahoo, Lycos, Look Smart), замечаем, что во многих из них нет раздела "Наука".
Любая оценка является социальным действием; она связана с обществом, культурой, социальной группой, к которым принадлежит человек, выносящий оценку. Поэтому уже
классификаторы, созданные разными коллективами в разных странах, могут иметь весьма
различную степень полезности при поиске информации — все зависит от того, кто и что
ищет. Но в создании классификационных ИПС участвуют еще и коллективы систематиВ.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
38
заторов, также выносящих свои оценки о соответствии документов разделам классификатора.
Взаимодействие культур при поиске в классификационной ИПС
Таким образом, при поиске информации с помощью классификационных ИПС возникает необходимость взаимодействия с другими культурами — культурами авторов, создателей классификаторов и систематизаторов.
Это непростая задача. Существует профессия, решающая эту задачу — переводчики. Хороший переводчик переводит не только слова, но и то, что называется "культурные реалии". В случае информационного поиска соответствующий профессионал называется
"ИНФОРМАЦИОННЫЙ БРОКЕР". Он владеет когнитологическими методиками, знает,
как устроены классификаторы и как их интерпретируют систематизаторы. Эти знания
позволяют информационному брокеру в беседе с вами изучить вашу информационную
потребность и превратить ее в запрос. В библиотеках такие "информационные брокеры"
работают в информационных и библиографических отделах. Информационные брокеры
Интернет у нас в стране уже встречаются, хотя пока еще редко.
Библиографы, понимая, что читатели не всегда глубоко изучают классификации, положенные в основу систематических каталогов, выработали два приема, облегчающие
жизнь читателям. Эти приемы носят название "ОТСЫЛКА" и "ССЫЛКА", и оба они применяются создателями классификационных ИПС Интернета.
Эти приемы используются в ситуации, когда документ может быть отнесен к одному из
нескольких разделов классификатора, а лицо, осуществляющее поиск (поисковик), может
не знать, к какому именно разделу.
Ссылка и отсылка
Отсылка используется тогда, когда создатели классификатора и систематизаторы в состоянии принять четкое решение об отнесении документа к одному из разделов классификатора, а поисковик с определенной вероятностью в поисках этого документа придет в другой раздел. Тогда в этом другом разделе помещается отсылка ("См.") в тот раздел классификатора, в котором действительно размещена информация о документах данного типа.
Например, информация о картах стран может быть размещена в разделах "Наука  География  Страна", "Экономика  География  Страна" или "Справочники  Карты 
Страна". Принимается решение, что карты стран помещаются во второй раздел: "Экономика  География  Страна"; тогда в остальные два раздела помещаются отсылки в него.
Этот прием активно используется в ИПС Yahoo (отсылка обозначается в ней знаком @ ).
Ссылка ("См. также") используется в менее однозначной ситуации, когда даже создатели
классификатора и систематизаторы не в состоянии принять четкого решения об отнесении документов к определенному разделу классификатора. В ИПС Интернет ссылка принимает разнообразные формы ("Relevant servers", "Похожие документы" и т.п.).
Классификационных ИПС в Интернет много. Большие классификационные ИПС (американская Yahoo, европейская EuroSeeek, российские Aport.Ru и List.Ru) используют вспомогательные словарные ИПС по собственным рубрикам (аналоги библиотечных алфавитных указателей). Другие классификационные ИПС просто существуют совместно с ИПС
словарного типа (Excite, Lycos, Aport.Ru, AltaVista).
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
39
Лекция 9.
Словарные ИПС
Введение
Культурные проблемы, связанные с использованием классификационных ИПС, привели
к созданию ИПС словарного типа, с обобщенным англоязычным названием search engines. Основная идея словарной ИПС — создать словарь из слов, встречающихся в документах Интернета, в котором при каждом слове будет храниться список документов, из
которых взято данное слово. Если поиск слов в таком словаре выполняется быстро, то
можно отказаться от услуг разработчиков классификаторов и от услуг систематизаторов,
оставаясь один на один с авторами документов.
К счастью, несмотря на обилие слов (и словоформ) в естественных языках, большинство
из них употребляются нечасто, что было замечено ученым лингвистом Ципфом еще в
конце 40-х годов нашего века. К тому же наиболее употребительные слова — это союзы,
предлоги и артикли, т.е. слова, совершенно бесполезные при поиске информации. В результате словарь одной из самых крупных словарных ИПС Интернета — AltaVista —
имеет объем всего лишь несколько Гбайт.
Поскольку слова в словаре упорядочены, поиск нужного слова может выполняться достаточно быстро — без последовательного просмотра. А наличие списков документов, в которых встречается искомое слово, позволяет ИПС выполнять операции с этими
списками — их слияние, пересечение или вычитание (для наглядности списки
документов изображены в виде овалов):
Документы со словом
Документы со словом
"стул"
"стол"
Документы со словом
"стол",
но без слова
"стул"
Документы со словами
"стол" и "стул"
Документы со словами
"стол" или "стул"
Рис. 2 Логические операции с множествами документов,
выполняемые словарными ИПС
Логические операторы
Вместо того, чтобы говорить "С п и с о к д о к у м е н т о в с о д е р ж а щ и х с л о в о ' стол' и л и
д о к у м е н т о в , с о д е р ж а щ и х с л о в о ' стул' ", употребляются сокращенные выражения,
приведенные на предыдущем рисунке. Дальнейшее сокращение эти выражения находят в
языке запросов словарных ИПС: вместо "Н а й т и с п и с о к д о к у м е н т о в с о д е р ж а щ и х
с л о в о ' стол' и л и д о к у м е н т о в , с о д е р ж а щ и х с л о в о ' стул' ", большинству
словарных ИПС достаточно написать что-то вроде
стол ИЛИ стул
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
40
Союз И Л И в запросе к словарной ИПС выступает в роли ЛОГИЧЕСКОГО ОПЕРАТОРА,
связывающего множества искомых документов. Словарные ИПС используют три логических оператора: И Л И , И и И - Н Е ("но без"); как правило, эти операторы обозначаются
одним из следующих способов:
Сокращенное
обозначение
Обозначение при простом
поиске
(кроме российской ИПС Rambler)
Оператор
Полное
обозначение
ИЛИ
OR
|
пробел
И
AND
&
+ (знак "плюс")
И-НЕ
AND NOT
! или &! или
!&
- (знак минус)
Эти операторы имеют приоритет (прежде всего выполняется И - Н Е , затем — И , и лишь
потом — И Л И ), поэтому для составления сложных запросов могут использоваться скобки
(исключение составляют лишь ИПС Go.Com и Google, которые вместо скобок применяют
другие обозначения). Как правило, словарные ИПС Интернета предоставляют пользователям два интерфейса — режим "сложного запроса" ("advanced search"), в котором доступны все логические операторы, и режим простого поиска, в котором, как правило, невозможно использование скобок, и, следовательно, можно использовать не все сочетания
операторов.
Правое усечение
Давайте рассмотрим гипотетический пример поиска информации о столах. С учетом
падежей слова "с т о л " и наших знаний о логических операторах, запрос к словарной
ИПС мог бы выглядеть так:
стол ИЛИ стола ИЛИ столу ИЛИ столе ИЛИ столом
Хорошо, что это только одно слово, но писать такое уже довольно тоскливо.
Западные ИПС, ориентированные на английский язык, предлагают простое решение:
вместо слова можно написать его начало, заменив изменяемую часть звездочкой:
стол*
Формально говоря, звездочка заменяет любое количество символов, поэтому говорят, что
она обозначает правое усечение. Называть обозначение "с т о л * " язык не поворачивается,
поэтому для таких частей логических выражений запросов используется название ТЕРМИН.
Запрос
стол*
отыщет и документы со словами "столовая", "столешница", "столоначальник" и даже
"столб". Такое явление — искусственная синонимия — может сильно мешать при поиске, однако его проявление зачастую невозможно предусмотреть заранее.
От чего пытались убежать, переходя от использования классификационных к применению словарных ИПС — от изучения других культур — к тому вернулись с другой
стороны: язык, на котором написаны искомые документы (а, следовательно, и культуру
авторов этих документов) все равно приходится изучать.
Для устранения искусственной синонимии необходимо читать найденные документы, которые образуют информационный шум, определять в них те термины, которые являются
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
41
порожденными нами искусственными синонимами, и устранять их, модифицируя запрос:
стол* И-НЕ (столова* ИЛИ столеш* ИЛИ столон* ИЛИ столб* ...)
Заметим, что в новом запросе нельзя написать "столов*" вместо "столова*" — пропадет
родительный падеж множественного числа слова "стол"; точно также нельзя написать
"столе*" вместо "столеш*" — пропадет предложный падеж слова "стол". Таким образом,
язык искомых документов необходимо знать не просто хорошо ; - )
Две российские ИПС (Апорт и Яндекс) "знают" русскую грамматику (точнее,
морфологию русского языка) и в словаре хранят только так называемую "нормальную
форму" слова (для существительного — именительный падеж единственного числа). Эти
системы допускают написание запроса на естественном языке, нормализуя термины
запроса, тем самым существенно упрощая поиск в русском Интернете.
Слова далекие и близкие
Описанные возможности словарных ИПС, хотя и достаточно мощные, зачастую оказываются совершенно недостаточными для поиска даже очень простой информации. Попробуем решить следующую задачу: отыскать сведения о продаже металлических стульев:
металлическ* И стул*
Но этому запросу отвечает прейскурант торговой фирмы, продающей плетеный (вторая
строка прейскуранта) и (178 строка прейскуранта). Оператор отыскивает документы, в
которых искомые слова встречаются в любом месте!
Для устранения этого недостатка некоторые ИПС хранят не просто список документов, в
которых встречается слово, но и номер этого слова в конкретном документе. Это позволяет в языке запросов такой ИПС использовать оператор Р Я Д О М , что решает
поставленную задачу:
металлическ* РЯДОМ стул*
Многие ИПС не позволяют написать такой запрос — они не разрешают использовать термины с правым усечением совместно с оператором Р Я Д О М , (только слова), но это
ограничение постепенно снимается, — следите за информацией на конкретных ИПС.
Оператор Р Я Д О М в различных ИПС обозначается по-разному (он имеется в AltaVista,
Lycos, Апорт и Яндекс и во всех этих ИПС используются разные обозначения). Более
того, в разных ИПС он может иметь и несколько различный смысл. Так, AltaVista считает,
что Р Я Д О М — это не более чем через 10 слов в любом порядке, в то время как другие
ИПС позволяют указывать требуемое расстояние между словами (ровно столько-то или
не более чем столько-то). Lycos позволяет указывать расстояние и требуемый порядок
слов. Апорт позволяет указывать расстояние между словами в словах; Яндекс — в словах
и абзацах (с возможностью указать порядок следования слов).
Ранжирование результатов поиска
Словарные ИПС способны выдавать списки документов, содержащие миллионы ссылок.
Даже просто просмотреть такие списки совершенно невозможно. Было бы удобно иметь
возможность задать формальные критерии (хотя бы относительной) важности (с точки
зрения пертинентности) документов с тем, чтобы наиболее важные документы попадали
бы в начало списка.
Многие ИПС предоставляют такую возможность ранжирования результатов поиска. Методы ранжирования в разных ИПС различны. Так, AltaVista позволяет (в режиме сложного поиска) указать перечень терминов, которые повышают ранг найденного документа
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
42
(т.е. перемещают его в начало списка), что для AltaVista особенно актуально, так как эта
ИПС показывает только первые 200 найденных документов. Яндекс позволяет указать вес
каждого из терминов, участвующих в запросе, что позволяет весьма точно настраивать порядок следования найденных документов.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
43
Лекция 10. Стратегия поиска: использование нескольких
источников
Дать общий рецепт эффективной стратегии поиска информации в Интернете, пожалуй,
невозможно. Есть лишь некоторые принципы, позволяющие тратить меньше времени.
Попробую их изложить.
Начну с примера. Если вам необходимо узнать, где растет древовидная черника, то вряд
ли вы пойдете в алфавитный каталог библиотеки. Может быть, вы найдете нужную литературу с помощью систематического каталога. С несколько большей вероятностью — с
помощью предметного. Но, скорее всего, ни один из библиотечных каталогов вам не поможет. Зайдите, однако, в информационно-библиографический отдел крупной библиотеки, и дежурный библиограф достанет библиографический указатель по кустарничкам
или какую-то похожую книжицу, из которой вы и найдете ответ на свой вопрос.
Подобную стратегию можно с успехом применять и в Интернет. В ИПС общего назначения можно утонуть в тысячах ссылок, выданных вам на простой запрос.
Целью использования универсальной ИПС общего назначения
может быть поиск специализированной ИПС,
посвященной тематике вашего поиска.
Такая ИПС может быть распознана по наличию слов "и н ф о р м а ц и я (i n f o r m a t i o n )",
"у к а з а т е л ь (d i r e c t o r y )" и т.п. в найденных в универсальной ИПС документах. Но часто
специализированная ИПС может скрываться на сервере общественной, профессиональной или специализированной организации, издательства.
Пример из жизни
Иногда приходится разыскивать несколько информационных систем со все более узкой
тематикой.
Однажды ко мне обратились с просьбой срочно найти информацию о продаже судов-сухогрузов (по-английски — b u l k e r ). Запрос в AltaVista (простой поиск)
+bulker* +sale*
дал нулевой результат; запрос
+ship* +sale*
дал тысячи ссылок на страницы, посвященные продажам катеров и яхт (впрочем, попалась и одна баржа).
Внимательное изучение нескольких первых страниц списка результатов поиска показало,
что в найденных текстах часто присутствует слово "m a r i n e (м о р с к о й )". И тут я вспомнил, что есть в английском языке слово "maritime", означающее "все морское". Запрос
+maritime +information*
уже среди первых десяти ссылок содержал ссылку на расположенную на
www.GeoCities.com информационную систему по морской тематике. Но и в ней информации о продаже сухогрузов не было. Зато была информация об отправке сухогрузов из
портов мира, включающая сведения о владельцах судов. Многие из фирм — владельцев
судов имели в своем названии слова "ship brokers (торговцы судами)". Этого английского
выражения я не знал. Однако запрос в AltaVista
+ship* +broker*
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
44
дал мне огромный список страниц, среди которых была одна с уже знакомым адресом —
www.GeoCities.com. Оказывается, существует специализированная ИПС по торговцам
судами!
Второй найденный с помощью такой ИПС торговец содержал Web-сервер, на котором
нашелся подходящий сухогруз.
Еще два элемента стратегии
Приведенный пример иллюстрирует еще один элемент стратегии: читайте найденные документы в поисках наиболее точных терминов и связей между терминами. Возможно, вы
мыслите совершенно не в тех терминах, которые используют авторы искомых документов
(вспомним о культурных различиях!).
Третий элемент стратегии: используйте несколько ИПС. Если вы регулярно занимаетесь
поиском информации по какой-то тематике, отметьте те ИПС. которые для вас наиболее
эффективны.
В.А.Капустин
Информационные системы: Общие характеристики информационных систем
Конспект лекций
2006
Download