Ответы к экзамену по БД

1 1.Основные компоненты системы баз данных Основными компонентами системы баз данных являются сама БД, СУБД, оборудование, организационно – методическое обеспечение. СУБД включает язык описания данных (ЯОД), язык манипулирования данными (ЯМД) – SQL, резидентный модуль СУБД, постоянно находящийся в оперативной памяти ЭВМ. База данных – это данные, организованные в виде набора записей определенной структуры и хранящиеся в файлах, где помимо самих данных, содержится описание их структуры. СУБД – это программно–технологический комплекс, интегрирующий аппаратные средства, БД на технических носителях, программное обеспечение управления БД в самом широком смысле этого термина (операции выборки, линейных преобразований БД и других), а также программируемую логику и набор процедур. ЯОД – позволяет описать БД в терминах, принятых в конкретной СУБД ЯМД – позволяет управлять данными (выбирать, сортировать, создавать и др.). 2.Методы контроля данных Процесс управления качеством данных можно разделить на следующие этапы: определение качества исходных данных: – определение правил обеспечения качества этих данных – разработка процессов очистки данных – внедрение этих процессов – контроль данных. Для этапа исследования можно использовать средства профилирования – они осуществляют быстрый анализ данных во всех исходных системах, выдавая заключение и предлагая инструкции по построению обработки данных. Определение и построение правил обеспечения качества данных крайне важно для стандартизации, сравнения и консолидации данных. Проверка качества данных становится отдельным этапом работ при загрузке БД. Обеспечение качества данных – нетривиальная задача. Основными методами контроля являются:  Самоконтроль;  Дублирование операций (или части операций) при вводе информации (двойной ввод);  Применение помехоустойчивых кодов, базирующихся на использовании признаков делимости чисел (четность, нечетность) запрещении использования некоторых символов, введение избыточной информации в передаваемые данные;  Осуществление программно-логического контроля (совместимость, непротиворечивость, нахождение в некотором заданном интервале значений, дополнение атрибутов до заданного формата поля, контроль существования значения атрибута, сравнение из различных источников). Для сведения к минимуму потерь от случайных искажений требуется создавать или использовать уже готовые программы:  Ведения системного журнала СУБД, подробно фиксирующего каждую операцию над БД (описание транзакции, адреса компьютера, пользователя, время, тип и адрес изменения данных, значение данных до и после выполнения транзакции);  Контроля достоверности, использующие соответствующие методы контроля данных;  Отката, контрольных точек и повторного исполнения транзакции, вызвавшей искажение БД. Учитывая характер наиболее массовых ошибок, целесообразно предусматривать две категории алгоритмов качества данных на каждом этапе преобразования информации:  Контроль соблюдения форматов записи данных на носитель (синтаксический контроль);  Контроль числовых значений параметров и признанных характеристик измерений при вводе данных (семантический контроль);  Контроль выходной информации из БД (прагматический контроль) Синтаксический – это по существу контроль достоверности данных, не затрагивающий содержательного смыслового аспекта информации. Предметом этого контроля являются контроль форматов представления данных, шаблонов и масок ввода данных, наличия атрибутов (их номенклатуры), порядка следования, наличие служебных признаков в структуре сообщения, 1 упорядоченности данных, появления запрещенных символов, комбинаций, полноты поступления первичной информации и сопровождающих ее метаданных. Семантический контроль оценивает смысловое содержание информации, его логичность, непротиворечивость, диапазон возможных значений параметров (предельные значения, область значений), динамику их изменения, возможных отклонений. Прагматический контроль определяет потребительскую ценность (полезность) информации для пользователя, своевременность и актуальность данных, их полноту и доступность. Реализуется экспертной и социологической оценкой данных. Новые технологии создают еще одно препятствие к управлению качеством данных. Появляются огромные объемы данных в реальном времени. Получив информацию для массовой рассылки, проверьте её на корректность. Типичные признаки «грязных данных» — дублирующиеся записи, неправильная информация, неверно скомпонованные поля и несоответствие почтовым требованиям. Тщательность подготовки данных отнюдь не гарантирует от проблем: иногда объединяются несколько файлов с данными, при этом создаются сотни дублирующихся записей. При создании БД очень часто используют средства очистки. К сожалению, такой подход, позволяет только удалить ошибочные данные. Средства очистки данных выполняют базовые функции контроля данных:     проверка значений атрибутов БД на пределы допустимого диапазона; проверка орфографии; проверка стандартных сокращений; поиск неверных кодов. По назначению контроль различается на профилактический, рабочий и генезисный. Профилактический – тестовый контроль - проводить как можно чаще, включать во все этапы переработки. Рабочий контроль (диагностический) - проверка работоспособности системы – установление места и причины неисправности. Генезисный проводится для выяснения технического состояния системы в прошлые моменты времени с целью определения причин сбоев и отказов системы, имевших место в прошлом, сбор статистических данных об ошибках, их характере – типах ошибок, величине, последствиях этих ошибок для пользователя. По способу реализации контроль может быть организационный, программный, аппаратный, и комбинированный. Организационный контроль представляет собой комплекс мероприятий, предназначенный для выявления ошибок на всех этапах переработки данных с участием человека. Методами организационного контроля являются разработка нормативных документов, обучение, выборочная проверка, контроль комплектности документов, сроков и условий передачи документов, условий и длительности хранения технических носителей данных, кондиционности бланков (носителей) и качества их заполнения, визуальный осмотр. Необходимо обеспечить правильный подбор и обучение персонала, на который будут возложены проведение наблюдения, систематический контроль за ходом наблюдений, широкая разъяснительная работа. Следует предусмотреть соответствующие меры во избежание сознательного искажения фактов, приписок и т.д., что является не только нарушением государственной дисциплины, но и прямым преступлением, наносящим вред интересам дела. Программный контроль основан на программировании достоверности данных. Примерами логического контроля являются:     логических методов проверки наличие связей между отдельными измеряемыми показателями, например, влажность измеренная и вычисленная по значениям сухого и смочено термометра; сравнение с измеренными параметрами на соседнем приборе, станции; экстраполяция значений, статистический прогноз; интерполяция данных между двумя измеренными значениями во времени или пространстве. Аппаратный контроль – контроль значений параметров на этапе измерений - включается в платы, служащие для преобразования данных из физических значений в натуральные (сопротивление в температуру, электропроводность в соленость воды, и т.п.). По степени выявления и корректировки ошибок контроль делится на:  Обнаруживающий, фиксирующий только сам факт наличия или отсутствия ошибки; 2   Локализующий, позволяющий определить и место ошибки, например, искаженный символ, атрибут, др.; Исправляющий, выполняющий функции обнаружения, локализации и исправления ошибки. Примерами исправляющих методов являются: Анализ текста свободного формата для выявления в данных имен и адресов позволяет идентифицировать компонент имени, должности, организации и адреса даже в случае непоследовательно введенных данных. Стандартизация слов, связанных с описанием организации, позволяет программе полностью проверить данные о организации - включая и сокращения - и стандартизировать описание организации в едином согласованном формате. Стандартизация представления значений некоторых полей. Данные имен и адресов могут вводиться в различных форматах, многие из которых вполне грамматически корректны. Например, "Улица", "Ул." и "Ул" обозначают одно и то же очевидное понятие в составе адреса. Существуют и другие стандарты для этих и других подобных случаев. Программы стандартизации трансформируют такие поля в согласованный набор обозначений. Проверка допустимости - средства распознавания допустимых международных и национальных адресов, проверяют допустимость адресных данных. Для выявления и устранения допущенных при регистрации ошибок может применяться счетный и логический контроль собранного материала. Счетный контроль заключается в проверке точности арифметических расчетов, применявшихся при составлении отчетности или путем сравнения полученных данных с другими источниками по этому же вопросу. Примером логического сопоставления могут служить листы переписи населения. Так, например, в переписном листе двухлетний мальчик показан женатым, а девятилетний ребенок — грамотным. Ясно, что полученные ответы на вопросы неверны. Подобные записи требуют уточнений сведений и исправления допущенных ошибок. Примером сравнения могут быть сведения о заработной плате работников промышленного предприятия, которые имеются в отчете по труду и в отчете по себестоимости продукции. В торговле примером такого логического контроля может служить сопоставление сведений о фонде оплаты труда, содержащихся как в отчетности по труду, так и в отчете по издержкам обращения. Оформление результатов контроля данных Данные наблюдения считаются принятыми, если они прошли контроль и, если потребовалось, в них внесены исправления. Основными показателями качества контроля данных являются:    Экономические – материальные, трудовые и временные затраты на контроль; Технико-эксплуатационные – алгоритмическая сложность контроля, вид и величина получаемой избыточности, точность и надежность контроля, универсальность - возможность использовать на различных этапах технологического процесса переработки данных, при решении различных задач, обработки различных видов данных; Системные – удобство работы, наглядность и форма представления результатов, требования к квалификации и количеству операторов, конфигурация компьютера, необходимое программное обеспечение. С целью унификации и стандартизации методов контроля данных для международного обмена данными разработаны Руководства по алгоритмам и процедурам контроля данных, представляемых в систему международного обмена данными. В них сделана попытка рассмотреть алгоритмы и процедуры "базового" или общего контроля, которые в максимальной степени беспристрастны и опираются на общеизвестные физические законы и не допускающие множества толкований логических категорий. Как бы тщательно ни был составлен инструментарий наблюдения, проведен инструктаж исполнителей, материалы измерения всегда нуждаются в контроле. Прежде всего, проверяется полнота охвата наблюдениями. С этой целью производится сверка данных по спискам, пересчитываются заполненные документы. Одновременно на этой стадии проверяется полнота заполнения форм отчетности, анкет и т.д. Содержанием контроля данных является выполнение комплекса проверок, позволяющих убедиться в общей пригодности данных для решения различных научных и производственных задач. 3 Проблема контроля данных очень сложная и требует отдельного рассмотрения в зависимости от специфики конкретного вида данных. Контроль данных на технических носителях состоит их трех этапов:  контроль сопроводительных документов и форматов записи (тестирование носителя данных, получение контрольных распечаток); проверка соответствия полноты и содержания массивов программе наблюдений; контроль значений физических параметров и характеристик пространственно-временного размещения наблюдений (проверка упорядоченности данных, полноты наблюдений, реальности данных, соблюдения физических законов, проверка на статистические критерии, закономерностей изменения данных в пространстве и во времени).   Подготовка данных к обмену представляет собой передачу сведений о контроле и калибровке измерительных приборов, о массиве данных, об оценке его качества. Выполнение всех этих этапов контроля позволяет повысить качество обмениваемых комплектов данных. 3.Access: Ввод данных Создать БД -> Таблица -> Создать таблицу (в режиме конструктора, мастера, путем ввода данных) - > Процесс ввода данных 2 1.Развитие концепции БД: от файловых систем к распределенным базам данных Формами организации информации являются: файлы, БД, баз знаний, базы пространственных данных для использования в ГИС, распределенные БД и вычисления. Эволюция развития баз данных – от файлов данных до многомерных баз данных – представляется с.о.: 60–е годы – первые массивы данных на перфокартах; 70–е годы – массивы данных на магнитных лентах; 80–е годы – банки данных, иерархические и сетевые БД; 90–е годы – реляционные БД (сети ЭВМ); 21 век – доступ к базам данных через локальные и глобальные сети, многомерные БД. Недостатками файловых систем являются слабые возможности управления данными, большие затраты труда программистов, дублирование разработок. Преимуществами БД являются наличие метаданных, поддержка целостности базы данных, одновременный доступ к данным нескольких пользователей, ориентированные на пользователя запросы и отчеты. База данных – это данные, организованные в виде набора записей определенной структуры и хранящиеся в файлах, где помимо самих данных, содержится описание их структуры. Базы знаний представляют собой систему искусственного интеллекта, основанную на правилах. 2.План управления данными: основные разделы Создание план управления данными должно учитывать долгопериодные решения по:  развитию и стандартизации технологий сбора и обмена данными, позволяющих уменьшить временной лаг между сбором и публикацией данных;  увеличению кооперации при сборе, архивации, обработке и представлению данных;  созданию распределенных БД для доступа различных пользователей;  объединению новых и исторических данных для получения соответствующих рядов наблюдений и полей распределения параметров;  улучшению сбора, доступа и использования существующей и новой информации;  развитию БД для вычисления статистических характеристик, использования данных в моделях, оперативному доступу к данным и т.п.;  совместимости БД за счет использования общих протоколов форматирования и контроля качества для отдельных дисциплин;  доступу к данным через электронные публикации. Методология управления данными должна быть основана на применении наиболее эффективных средств, разработанных в рамках международного сотрудничества или отдельных странах:      создания метаданных, многоуровневых каталогов данных; использования метаданных, каталогов для поиска и оценки дубликатов; поиска и обмена данными; конвертирования данных в общие форматы; контроля данными на различных этапах переработки данных; 4   создания новых методов обработки данных; электронных публикаций данных на компактных дисках, Интернет и др. План управления данными способствует лучшему пониманию проблем обмена данными всеми участниками проекта, объединению научных интересов, общественных потребностей и правовых вопросов. Управление данными есть процесс, который начинается с проектирования измерительной программы экспедиции или проекта, или создания БД и заканчивается доступом общественности к качественно проконтролированным и хорошо документированным массивам данных. План управления данными должен быть ключевым элементом всех крупных проектов и программ. План управления данными есть добавочная активность, которая поможет максимизировать возврат инвестиций, сделанных в проект с помощью финансирования для целей всестороннего использования получаемых данных. План управления данными есть механизм распространения и использования БД, полученных в проекте. План управления данными есть специальная активность, выполняемая в рамках национальной и международной политики, основанной на лучшей международной практике обмена данными. Он должен описывать работу и технологические требования и соответствующие результаты в проектировании измерительной активности, отчетности по сбору данных, документировании, контроле качества и создании БД, электронной публикации данных. 3.В каждом из следующих случаев решите, какой способ организации данных подойдет лучше всего: а) система ввода заказов для производственной фирмы; - постреляционная модель(не надо определять для поля специфический тип и длину) б)Агентство проката авто; - иерархическая(древовидная модель данных) в)Система учета проживания, успеваемости, активности студентов университета – реляционная модель данных(объекты и взаимосвязи представляются с помощь таблиц) 3 1.Краткая характеристика современных систем управления базами данных Характеристики СУБД Характеристики Язык программирования XML– библиотеки Объектно– ориентированное проектирование Мультимедийные типы данных Enterprise JavaBeans CORBA Макс. размер таблиц Макс. число таблиц Макс. число таблиц на одно соединение Макс. число пользователей Рекомендуемая емкость оперативной памяти ORACLE Java, Delphi, PL/SQL Да Да (через SQL) Да IBM DB2 Java, SQL 2000 Да Да (через SQL) MS SQL SYBASE TransactJava, SQL TransactSQL Да Да Нет Да (через Java) Да Да Нет Да Не ограничен о Не ограничен о Не ограничен о Не ограничен о Изменяем ая величина Нет 64 Гбайт Практическ и не ограничено 31 Практическ и не ограничено Локал: 550Кб. Удаленный: 250 Кб Огранич енно Нет Нет Не огранич ено Не огранич ено Не огранич ено - Ограниче нно Нет Нет Не ограничен о Не ограничен о Не ограничен о. Не ограничен о 50 Кбайт 5 2.Нормативно – методические документы по созданию базы данных . В настоящее время в стране разработано более 40 общероссийских классификаторов социально- и техникоэкономической информации, которые можно использовать при создании БД. Например: o общероссийский классификатор стандартов (ОК 001-93, ОК 014-94); o общероссийский классификатор предприятий и организаций - ОКПО (ОК 007-93); o общероссийский классификатор экономических районов (ОК 008-93); o общероссийский классификатор единиц измерений (ОК 015-94); o общероссийский классификатор информации о населении (ОК 018-95); o общероссийский классификатор объектов административно - территориального деления и населенных пунктов - CОАТО (ОК 019 -95); o отраслей промышленности (ОКОНХ); o органов государственного управления (СООГУ) и некоторые другие. ГОСТ 7.70-96 Описание баз данных и машиночитаемых информационных массивов. При создании информационных систем необходимо использовать единый государственный кадастр (ЕГК) РФ - систематизированный на единой географической основе свод документальных данных, представляющих комплексную информацию о природных ресурсах, недвижимости, экологии и социально-экономических условиях, и базирующихся на действующих отраслевых кадастрах и других ведомственных и территориальных системах учета. Область распространения ЕГК - территория РФ, континентальный шельф, акватории морей и океанов, и воздушное пространство над ними, где проводится хозяйственная или иная деятельность в интересах РФ. ЕГК предназначен для обеспечения органов государственной власти органов местного самоуправления, предприятий, учреждений, организаций, иных юридических лиц и граждан достоверной информацией о среде обитания и хозяйственной деятельности. В настоящее время разработаны следующие кадастры: · Государственный земельный кадастр; · Государственный лесной кадастр; · Государственный водный кадастр (ГВК); · Государственный кадастр месторождений и проявлений полезных ископаемых; · Государственный кадастр животного мира; · Государственный кадастр особо охраняемых природных территорий (ООПТ) · Перечень объектов исторического и культурного наследия федерального (общероссийского) значения (ИНК). В связи с развитием Геоинформационных систем (ГИС) особую роль приобретает стандартизация условных обозначений на карте. В семидесятых годах была проведена большая работа по стандартизации терминов в области природной среды - была выпущена серия ГОСТ Термины и определения. В качестве международных стандартов качества рассматриваются стандарты серии ISO 9000. 3. Access: Выделение, замена, копирование данных Ctrl+A;Ctrl+C;Ctrl+V;Ctrl+X 4 1.Понятия схемы и подсхемы, логический и физический уровни представления данных Первая лабораторная работа – это фактически логическое представление – на уровне проектирования, сам проект. А физическое представление – это то, что мы потом реализуем. Схема – коллекция объектов БД, содержащих таблицы, индексы, кластеры, представления, снимки – журналы репликации, последовательности, синонимы, пакеты. При проектировании больших БД выделяются подсхемы. Объекты схемы – это абстракция (логическая структура) составляющих базы данных. База данных разделяется на одно или более логических частей, называемых табличными пространствами. Табличные пространства используются для логической группировки данных между собой. Сегментирование групп по табличным пространствам упрощает администрирование этих групп. Каждое табличное пространство состоит из одного или более файлов данных. Используя несколько файлов данных для одного табличного пространства, можно распределить их по разным дискам, увеличив тем самым скорость ввода–вывода и, соответственно, производительность системы. Таким образом, БД состоит из табличных пространств, которые, в свою очередь, состоят из файлов данных. А файлы данных могут быть разбросаны по нескольким физическим дискам. Под физической структурой БД, в данном случае, подразумевается то, какие таблицы должны предоставлять нужную нам информацию и какие поля (атрибуты) должны в них входить. При проектировании физической структуры БД мы должны учитывать необходимость полноты представления данных и стремиться к исключению избыточности данных. Данные должны быть не противоречивы и представлены таким образом, чтобы все необходимые манипуляции с ними были просты и максимально эффективны. Выявив все сущности, информация о которых должна быть представлена в БД, и описав связи между ними, мы имеем логическую структуру БД. 2.Основания для классификации данных 6 Наиболее полное и эффективное использование информации для научной и производственной деятельности возможно при правильной и четкой организации данных и наличии хорошо проработанных и умело используемых средств поиска информации. Одним из самых полезных методов организации БД и поиска в них является классификация – традиционный метод познания, в результате применения которого знания представляются в виде некоторой схемы. Классификация дает возможность получить представление о необходимых информационных ресурсах, программных средствах создания БД и установить связи между ними и таблицами внутри БД. Минимизация числа связей между таблицами данных, скорость поиска данных служат критериями такой классификации. Наиболее общими характеристиками любого атрибута являются место и время их регистрации. Местом регистрации может быть точка, заданная своими координатами, географическая область, например, населенный пункт, сведения о котором могут быть представлены с разной точностью. Допустимо представление данных в любом пространственном масштабе (точка, полигон, район и т.п.). Регистрация данных отличается своей продолжительностью и рядом других временных характеристик, время их выполнения фиксируется практически всегда (год, дата, часы, минуты, секунды в зависимости от масштаба процесса). Используя такую модель представления данных, можно выбирать данные по критериям, формулируемым по местоположению, времени, имени и значению атрибута. Например, выбрать данные для всех атрибутов по географическому району за конкретный период времени; выбрать значение атрибута за период времени по всему географическому пространству, присутствующему в БД. Данные в зависимости от их способа представления в ЭВМ разделяются на пространственные, фактографические, графические и звуковые. Пространственные данные представляются на карте в виде значений атрибутов, отнесенных к определенным координатам или изолиниям значений атрибутов. Пространственные данные всегда имеют географические координаты (географическая привязка). Фактографические данные определяются местом и временем, отражают факты различных ситуаций для одной или нескольких точек, в исходном или агрегированном (осредненном для точки или района). Эти данные могут быть представлены в виде временных рядов, комплектов данных, организованных в зависимости от системы сбора данных и/или платформы, методов обработки и т.п. Фактографические данные в виде значений в узлах регулярной сетки различного пространственно – временного масштаба после их представления в виде изолиний кратных значений атрибутов среды (например, для температуры воды 00 ,50, 150, 250) становятся пространственными. Текстовые данные – это документы, характеризующиеся библиографической информацией, представляются в текстовых редакторах. Графические данные – это пространственная или фактографическая информация, представленная с помощью графических средств на экране (карты, графики, диаграммы, изображения). Фактически это результаты обработки исходных и модельных данных, представленные в виде графиков, диаграмм, сканированных документов. К этому типу данных относятся также фотографии, рисунки и т.п. Звуковые данные – это звук, записанный в цифровом виде, например, записи песен или данных, введенных в ЭВМ с голоса. Мультимедийные данные – содержат несколько типов данных. типичным примером таких данных являются html – страницы. Некоторые типы данных могут переходить в другие типы. Например, фактографические – в пространственные, пространственные и фактографические в графические или текстовые, мультимедийные. Классифкация данных представлена на рис.7. Сферы Техно, социо, гидро, ….. Науки и научные направления Для социосферы демография, др. Дисциплинарные БД – исходные данные Временные ряды, данные в узлах сетки, др. Преобразованные данные Метаданные Прогнозные Инвертированные Расчетные Рис. 7. Классификация данных 7 Основания классфикации данных более детально рассмотрены в табл.14. БД могут хранить как метаданные, так и данные, отражающие состояние объекта. Данные могут разделяться в зависимости от их сортировки, степени обработки, метода организации регистрации и т.п. Данные в зависимости от их организации (сортировки) разделяются на исходные и инвертированные (представленные в другом порядке по отношению к исходным данным). Методика создания временных рядов обуславливает создание и хранение их в виде инвертированных данных. Это обусловлено влиянием экспертов, которые внесли свои изменения и улучшили качество созданных временных рядов. Исходные данные хранятся в виде дисциплинарных массивов или БД, их упорядоченность определяется регламентом работы используемых систем сбора данных. Создание дисциплинарных БД для различных сфер, в различных науках (предметных областях) обусловлено технологическими причинами, связанными с системами измерений. Таблица 14 Основания для классификации данных Основание Степень подготовленности к обработке Способ и сроки передачи Объекты Данные на бумажных носителях (книги, бюллетени, ежемесячники, и т.п.); магнитных лентах, дискетах и др.; в массивах данных; БД Категория А. Оперативные данные, собранные через глобальную сеть телесвязи в пределах времени отсечения (1-24 ч) Категория В. Данные, отличающиеся от категории А более продолжительным временем отсечения (от нескольких суток до двух месяцев) Категория С. Исторические данные, собираемые с большими задержками во времени. Способ измерения Дистанционный, автоматический, визуальный, ручной Регулярность Регулярные, регулярные синхронные, асинхронные, наблюдений нерегулярные, эпизодические Шкала измерений Порядковая, количественная, номинальная, балльная Инвертирование Полностью инвертированные; выборочно – инвертированные (временные ряды); объединенно инвертированные Агрегированные Вычисленные характеристики первого рода – (расчетные) интерполированные, второго – вычисленные и интерполированные значения и третьего – фоновые характеристики района Прогнозные Краткосрочные, долгосрочные, сверхдолгосрочные Статичность Изменяющиеся, статические, условно–постоянные Периодичность Регламентированные (ежедневные, ежедекадные, обработки ежемесячные и др.), нерегламентированные Регламент Экстренные (сразу после обнаружения); доведения до периодические (ежечасно, ежесуточно, ежедекадно, пользователя ежемесячно); в установленные сроки Распространение По запросу, рассылка по списку, обмен Использование Информационные, справочные, информационно– справочные, рекомендации Результаты расчетов по моделям (вычисленные значения атрибутов, интерполированные значения по пространству и времени и т.п.) также хранятся в соответствующих БД (подсхемах). Так, например, большинство данных для представления в ГИС обрабатывается путем предварительного инвертирования и дальнейшей интерполяции (расчетов) в узлы регулярной сетки различного масштаба. На этом этапе фактографические данные превращаются в пространственные. Необходимость хранения агрегированных данных определяется также последующей возможностью сравнения результатов, полученных различными методами статистической обработки, например, в зависимости от разной длины временных рядов наблюдений, методов осреднения, интерполяции и т.п. Последний тезис показывает, что и при наличии мощных средств обработки данных в среде СУБД, когда скорость расчетов достаточна велика, необходимость хранения определенной части БД агрегированных характеристик не вызывает сомнений. Их создание позволит увеличить скорость обеспечения пользователей этими данными, исключить дублирование расчетов, уменьшить затраты машинного времени, улучшить качество расчетных характеристик, дать возможность проводить дальнейшую обработку созданных БД для агрегированных атрибутов. По регулярности (периодичности и частоте) измерений данные бывают регулярные, регулярные синхронные, асинхронные, результаты экспериментов (данные разной регулярности измерений), 8 нерегулярные. Регулярность определяется соответствующими наставлениями и руководствами или специальными программами измерений при экспериментальных исследованиях. Нерегулярные измерения требуют более сложных методов обработки. Космическая система наблюдений является асинхронной, но зато может обеспечить огромный поток информации с высоким разрешением по большим пространствам за короткий период времени. Данные с точки зрения способа регистрации и кодирования делятся на три типа значения атрибутов, которые можно:  фиксировать с помощью систем кодирования;  регистрировать с помощью определенных правил, например, номера квадратов, регионов и т.п.;  измерять в количественной шкале, которая регистрирует значения атрибутов непосредственно в “натуральном” виде, как характеристики объекта. Информация хранится на различных носителях: бумажных (таблицы, графики), первичных машинных носителях (дискеты, магнитные ленты), микрокопиях (микрофильмы, микрофиши), компактных дисках и др. В зависимости от состава документов, отражающих информацию, их можно занести в БД документального, фактографического или документально–фактографического типа. Это определяется объемом неформализованной информации в документах, количеством атрибутов. Например, большинство метаданных относится к документальному типу представления. Степень постоянства информации характеризуется временем, в течение которого она остается неизменной. По указанному признаку информация подразделяется на постоянную – статическую, условно–постоянную (хранимую и изменяемую редко). К постоянной информации относятся различные словари и кодификаторы, например, названия стран, учреждений – поставщиков и потребителей данных, атрибутов и т.п. Условно–постоянная информация сохраняет свое значение определенный период времени и делится на начальную и скорректированную. К начальной информации можно отнести сведения, первый раз зарегистрированные в БД. Соотношение объемов постоянной, условно–постоянной информации имеет большое значение при выборе организации БД. Способы распространения информации бывают следующие: высылается по запросу, рассылается по списку, передается и получается в обмен с зарубежными странами и организациями с помощью обычной почты, факса, электронной почты, Интернета. По функциям использования выходная продукция может быть справочной (метаданные), информационной. К метаданным относятся сведения о БД, источниках данных (измерительных системах, приборах, датчиках, платформах, организациях), сведения о средствах управления данными (программных средствах, форматах хранения данных, кодификаторах, словарях). Информационная продукция – это выборки данных по любому объекту или/и на любой момент времени. По степени готовности к использованию для принятия решений выходная информация может быть частной, комплексной или используемой только в совокупности с другой информацией. Например, сведения о критических значениях природных явлений напрямую применяя на объектах экономики, а текущая информация о состоянии среды, как правило, используется совместно с экономической информацией о состоянии объектов. Географическая область использования определяет локальность (используется только в пределах какого-либо географического района) или глобальность информации. Например, результаты регистрации температуры воздуха в конкретных пунктах являются локальными. В то же время среднемесячные и среднегодовые значения уровня на гидрометеорологических станциях, где наблюдения ведутся более 50 лет, необходимы для глобального использования, т.е. для изучения изменений климата. Методами образования потоков информации являются: регистрация, т.е. получение исходных данных; преобразование их (инвертирование); получение агрегированных характеристик и прогнозных данных, которые также могут подвергаться дальнейшей обработке. По результатам обработки данных можно получить огромное число расчетных атрибутов, поэтому стоит задача оптимизации их состава. Первым шагом решения этой задачи является создание таких БД в зависимости от стадии обработки (агрегации) данных. По этому основанию можно выделить вычисление характеристики первого, второго и третьего рода. Расчетные данные первого рода – это вычисленные характеристики на основе исходных атрибутов и известных эмпирических и теоретических формул. К расчетным данным второго рода можно отнести интерполированные значения во времени и пространстве. Расчетные данные третьего рода представляют различные уровни агрегации данных в пространстве и времени (обобщение результатов переписи населения, климатические характеристики среды, др.). 3.Web: Методы доступа к БД через web страницу – основные линейки инструментов 9 На лекции была такая информация. Мы можем базу данных Accsess заархивировать, повесить на сервер. Это один из вариантов обеспечения удаленного доступа. Раньше этот метод широко использовался. Создать html файл и сделать в нем ссылку на архив. Выбирается одно из средств доступа к данным через web: Php + MySql (сервер Apache); JSP + Oracle (сервер JBOSS). Возможно использование и другой линейки инструментов. Устанавливается все необходимое программное обеспечение. Создается БД. Создание БД на основе выбранной предметной области в среде используемой СУБД. Разрабатывается приложение для доступа к данным через web. 5 1.Модели данных В основе любой СУБД лежит определенная модель данных. Как правило, используются сетевая, иерархическая, реляционная модель или комбинация этих моделей. Эти модели различаются в основном способами представления взаимосвязей между объектами. Старейшие системы основаны на иерархической модели данных. К ним относится, например, разработанная для больших ЭВМ СУБД «Ока». Реляционными СУБД являются DB2, Oracle, Paradox, Access, FoxPro и др. Сетевой является СУБД СЕТОР. Иерархическая модель данных строится по принципу иерархии типов объектов, т. е. один тип объекта является главным, а остальные, находящиеся на низших уровнях иерархии,–подчиненными. Иерархическая модель данных организует данные в виде иерархической древовидной структуры. Эта структура строится из узлов и ветвей. Узел представляет собой совокупность атрибутов данных, описывающих некоторый объект. Наивысший узел в иерархической древовидной структуре называется корнем. Зависимые узлы располагаются на более низких уровнях дерева. Зависимые узлы могут добавляться как в вертикальном, так и в горизонтальном направлении без всяких ограничений. Связи (соединения) между узлами уникальны, Поэтому иерархическая модель данных обеспечивает только линейные пути доступа к данным и между главными и подчиненными типами объекта устанавливается линейная взаимосвязь “один ко многим». Каждый экземпляр корневого узла образует начало записи логической базы данных, т. е. иерархическая база данных состоит из нескольких деревьев. К главным достоинствам иерархической модели данных можно отнести простоту понимания и использования, поскольку пользователи систем обработки данных хорошо знакомы с иерархическими структурами. Недостатки модели - это громоздкие структуры при сложных БД и, как правило, - хранение избыточных данных. Например, описание одинаковых комплектующих (гайки, болты, др.) в разных блоках. В сетевой модели данных понятия главного и подчиненных объектов несколько расширены. Любой объект может быть и главным, и подчиненным (в сетевой модели главный объект обозначается термином «владелец набора», а подчиненный — термином «член набора»). Один и тот же объект может одновременно, выступать и в роли владельца, и в роли члена набора. Это означает, что каждый объект может участвовать в любом числе взаимосвязей. База данных состоит из нескольких областей. Область содержит записи. В свою очередь запись состоит из полей, а набор, который объединяет записи, может размещаться в одной или нескольких областях. Достоинство сетевой модели - простота реализации часто встречающихся в реальном мире взаимосвязей, закладываемых в БД. Основной недостаток сетевой модели состоит в сложности управления данными, в том числе и возможная потеря независимости данных при реорганизации базы данных. В реляционной модели данных объекты и взаимосвязи между ними представляются с помощью таблиц. Взаимосвязи также рассматриваются в качестве объектов (таблицы связей). Каждая таблица представляет один объект. В терминологии реляционной модели таблица называется отношением. Каждый столбец в таблице является атрибутом. Значения в столбце выделяются из домена, т. е. домен суть множество значений, которые может принимать некоторый атрибут. Строки таблицы называются кортежами. О базе данных, построенной таким образом, говорят, что она построена в первой нормальной форме, причем для каждого атрибута всех таблиц фиксирован тип и длина данных. Соединение данных из разных таблиц обеспечивается операторами языка SQL. К достоинствам реляционной модели следует отнести простоту общения пользователя с моделью (сложность реализации не берем во внимание - это проблемы разработчиков). Некоторый недостаток модели - рядовые реляционные системы работают медленнее систем, базирующихся на сетевой или иерархической модели данных. Первичный ключ – это столбец, значения которого во всех строках разные. Он может объединять несколько столбцов. В некоторых СУБД первичный ключ может задаваться системой (ACCESS, Oracle). Связь реализуется при помощи внешнего ключа (это столбец таблицы, значения 10 которого совпадают со значениями первичного ключа другой таблицы). Важным моментом является также использование значения NULL в таблицах реляционной БД. NULL – это отсутствующее значение, отсутствие информации в поле. Это поле обрабатывается особым образом. Неформальными эквивалентами основных понятий являются: Отношение – Таблица, которая на следующих этапах проектирования превращается в файл БД, имеющий уникальное имя. Кортеж – Строка таблицы, превращающаяся в последующем в запись файла БД. Атрибут – Столбец с заголовком (именем) и значениями, превращающийся в последующем в поле БД, имеющее имя и тип. Нормальная форма – требование, предъявляемое к структуре таблиц в теории реляционных баз данных для устранения из базы избыточных функциональных зависимостей между атрибутами (полями таблиц). Процесс преобразования базы данных к виду, отвечающему нормальным формам, называется нормализацией. Понятие нормальной формы было введено Эдгаром Коддом при создании реляционной модели БД. Основное назначение нормальных форм — приведение структуры базы данных к виду, обеспечивающему минимальную избыточность. Устранение избыточности производится за счёт декомпозиции отношений (таблиц) таким образом, чтобы свести к минимуму функциональные зависимости между их атрибутами (полями). Полное отсутствие функциональных зависимостей в отношениях невозможно (да и не нужно), но часть таких зависимостей избыточна, поскольку их можно вычислить из других зависимостей, имеющихся в БД. Каждая нормальная форма представляет собой определённое условие, которому должна соответствовать таблица базы данных. Если таблица не соответствует нормальной форме, она может быть приведена к ней (нормализована) за счёт декомпозиции, то есть разбиения на несколько таблиц, связанных между собой. Теоретически, в результате нормализации объём БД должен уменьшиться. Принципиальным здесь является то, что нормализация — обратимый процесс, из группы таблиц, получившихся при декомпозиции, всегда можно получить в точности исходную таблицу. Таким образом, нормализация не сокращает объём информации, хранимой в БД, а лишь устраняет информацию, которая может быть вычислена. Нормализация может применяться к таблице, первоначально отвечающей следующим требованиям: · Таблица содержит нуль или более записей. · Все записи таблицы имеют одно и то же множество полей, причём одноимённые поля относятся к одинаковым типам данных. · Таблица не может содержать двух полностью идентичных записей. Обычно выделяют шесть нормальных форм: Первая нормальная форма (1NF). Таблица находится в первой нормальной форме, если каждый её атрибут атомарен и все строки различны. Под выражением "атрибут атомарен" понимается, что атрибут может содержать только одно значение. Таким образом, не соответствуют 1NF таблицы, в полях которых могут храниться списки значений. Для приведения таблицы к 1NF обычно требуется разбить таблицу на несколько отдельных таблиц. Вторая нормальная форма (2NF). Таблица находится во второй нормальной форме, если она находится в первой нормальной форме, и при этом любой её атрибут, не входящий в состав первичного ключа, функционально полно зависит от первичного ключа. Функционально полная зависимость означает, что атрибут функционально зависит от всего первичного ключа, но при этом не находится в функциональной зависимости от какой-либо его части. Третья нормальная форма (3NF). Таблица находится в третьей нормальной форме, если она находится во второй нормальной форме, и при этом любой её неключевой атрибут функционально зависит только от первичного ключа. Объектно-ориентированные базы данных. В объектно-ориентированной модели данных любая сущность реального мира представляется всего одним понятием – объектом. С объектом ассоциируется 11 состояние и поведение. Состояние объекта определяется значениями его свойств — атрибутов. Значениями свойства могут являться примитивные значения (такие, как строки или целые числа) и непримитивные объекты. Непримитивный объект, в свою очередь, состоит из набора свойств. Следовательно, объекты можно рекурсивно определять в терминах других объектов. Поведение объекта определяется с помощью методов, которые оперируют над состоянием объекта. У каждого объекта имеется определяемый системой уникальный идентификатор. Объекты, обладающие одними и теми же свойствами и поведением, группируются в классы. Объект может быть экземпляром только одного класса или нескольких классов. Классы организуются в иерархии классов. Подкласс наследует свойства и методы суперкласса; кроме того, подклассы могут обладать индивидуальными свойствами и методами. В некоторых системах у класса можется более одного суперкласса (множественное наследование), тогда как в других системах число суперклассов ограничено одним (одиночное наследование). Преимущества: · Меньшая потребность в соединениях. · Выигрыш в производительности. · Поддержка версий и длительных транзакций. · Объектная алгебра. Недостатки модели ООБД: · Отсутствие интероперабельности между РБД и ООБД. · Недостаточность средств для оптимизации запросов. · Отсутствие стандартной алгебры запросов. · Отсутствие средств обеспечения запросов. · Отсутствие поддержки представлений. · Проблемы с безопасностью. · Отсутствие поддержки динамических изменений определений классов. · Ограниченная поддержка ограничений целостности. · Ограниченные возможности настройки производительности. · Недостаточная поддержка сложных объектов. · Ограниченная интеграция с объектно-ориентированными системами программирования. · Ограниченный выигрыш в производительности. Постреляционная модель - это качественное и количественное расширение реляционной модели. Если в реляционных моделях используется первая нормальная форма, то в постреляционных моделях данные описываются не первой нормальной формой, не требуется определять для поля специфический тип и длину. Благодаря этому, можно задать таблицу, в которую вложены другие таблицы. Если всю информацию свести в одну большую таблицу, такая таблица неизбежно будет содержать пустые клетки или избыточные данные, при использовании нескольких таблиц потребуется выполнять весьма ресурсоемкую операцию соединения, снижая тем самым эффективность работы СУБД. Модель многомерной базы данных. Моделью данных является многомерный куб, где на измерениях определены некоторые иерархии, а в клетках этого куба находятся числовые значения. Операции извлечения данных из такого куба описываются в терминах поворотов, срезов, и иерархического "схлопывания" измерений с агрегированием значений (суммирование, взятие среднего и др.). Эта схема хорошо ложится на табличную организацию данных. Наиболее известный программный продукт этого класса - это Oracle Express Server. 2.Характеристики баз данных и потоков данных · объем данных в логических и физических единицах; · потоки данных в единицу времени; · оперативность поступления данных; · полнота БД, в %; · качество (достоверность) данных – вероятность ошибки (для управления – 10-4 - 10-5, планирования – 10-5, статистики – 10-5, бухучета – 10-6 - 10-7). Обеспечение вероятности ошибок выше, чем 10-4 требует увеличения капитальных и эксплуатационных затрат до 50%, времени программирования до 50%, времени работы программ, персонала до 100%. Поток информации на различных носителях возрастает все быстрее. Рост потоков информации так велик, что его часто называют информационным взрывом. Примеров более чем достаточно. Объем данных удваивается каждые 5-7 лет. Рост числа документов носит экспоненциальный характер. При этом ежегодный прирост потоков данных составляет 20-25%. Кривая роста объемов данных может быть описана экспонентой вида: y = Aekt где y – объем данных в Мбайтах, е – основание натуральных логарифмов (е = 2,718...), t – индекс времени (годы); A – объем данных в начале отсчета (при t = 0), K – коэффициент, характеризующий скорость роста объемов данных. 3.Web: Продемонстрировать метод загрузки БД через Web страницу 12 См.билет 4.3 6 1.Языки описания баз данных Язык описания данных (ЯОД) – это язык, предназначенный для задания схемы базы данных. С его помощью описываются типы данных, подлежащих хранению в базе или выборке из нее, их структура и связи между собой. Исходные тексты, написанные на этом языке, после трансляции отображаются в управляющие таблицы и другую информацию, необходимую для работы СУБД с данными. В соответствии с полученным описанием СУБД может найти в базе требуемые данные, правильно преобразовать их и передать, например в прикладную программу, которой они потребовались. При записи данных в базу СУБД определяет место в памяти ЭВМ, куда их требуется поместить, преобразует к заданному виду, устанавливает необходимые связи. На текущий момент наиболее популярным языком DDL является SQL, используемый для получения и манипулирования данными в РСУБД, и сочетающий в себе элемены DDL и DML. Функции языков DDL определяются первым словом в предложении (часто называемом запросом), которое почти всегда является глаголом. В случае с SQL эти глаголы - "create" ("создать"), "alter" ("изменить"), "drop" ("удалить"). Это превращает природу языка в ряд обязательных утверждений (команд) к базе данных. Во ВНИИГМИ-МЦД на основе концепций и предложений ассоциации по языкам систем обработки данных (Conference on Data System Languages) разработан язык описания гидрометеорологических данных. Язык выполняет три основных функции: · служит стандартом хранения данных на носителях в Государственном фонде данных о состоянии окружающей природной среды. · Используется в качестве стандарта при обмене данными. · Является входным языком системы управления данными Аисори, которая имеет разнообразные средства работы с данными в форматах ЯОД для различных классов пользователей - разработчиков банков данных, прикладных программистов и конечных пользователей. Структурные единицы записи в ЯОД: Элементы - наименьшие неделимые единицы данных. Группа - совокупность нескольких элементов и других (внутренних) групп. 2.Опишите роль администратора БД в установке стандартов и создании технологических процедур  Анализ данных – АБД часто просят провести анализ данных, чтобы получить рекомендации относительно улучшения производительности или эффективности хранения данных. Это может быть связано с индексацией либо с функцией параллельных запросов.  Разработка БД (предварительная) – АБД часто привлекается к предварительной стадии разработки структуры БД. При включении АБД в процесс дизайна БД многие проблемы могут быть предупреждены. АБД знает СУБД и систему, может указать на потенциальные проблемы и помочь команде разработчиков в увеличении производительности программ.  Моделирование и оптимизация данных – При моделировании данных можно учесть особенности системы ввода/вывода и значительно увеличить производительность СУБД.  Предоставление помощи разработчикам по SQL и хранимым процедурам – АБД должен быть готов стать консультантом для разработчиков и пользователей. АБД довольно часто привлекается к разрешению проблем SQL-кода и к разработке (написанию) хранимых процедур.  Разработка производственных стандартов и соглашений по именам – Поскольку в разработке и развертывании приложений могут принимать участие несколько различных групп, то АБД часто призывается на роль разработчика производственных стандартов и соглашений по именам, чтобы приложения соответствовали этим стандартам.  Документирование среды – АБД должен документировать каждый аспект среды СУБД, включая конфигурацию оборудования, обновления и изменения программного обеспечения и СУБД, а также все вопросы, связанные с изменением системы и ее параметров. АБД должен уметь полностью восстановить систему по документации в случае необходимости.  Консультирование разработчиков и конечных пользователей – АБД часто выполняет функции консультанта для группы разработчиков и сообщества пользователей. Это может включать персональную помощь отдельным пользователям и даже разработку специальных курсов для разработчиков и пользователей системы.  Проверка и тестирование новых программ – АБД может участвовать в проверке новых программ, для того, чтобы дать рекомендации, основанные на этой проверке. Это может быть связано с приобретением нового программного обеспечения или с плановым обновлением и переходом на новые версии. Эта проверка должна быть в первую очередь нацелена на оценку стабильности системы. Ваша цель заключается в том, чтобы программы работали надежно и стабильно.  Оценка приобретений нового программного и аппаратного обеспечения – приобретая новый софт и аппаратуру, есть много о чем поразмыслить. В основном это касается функциональности и совместимости, а также, конечно, стоимости. Хоть цены и не касаются АБД, но насчет функциональности и совместимости рекомендации часто необходимы. 13  Планирование нагрузки системы и необходимого объема памяти – определение необходимости в приобретении дополнительных серверов, дополнительной дисковой и оперативной памяти, чтобы удовлетворить возросшие потребности пользователей, является частью работы АБД. Заранее предсказывая будущие нужды пользователей, Вы можете предоставить великолепный уровень обслуживания безо всяких сбоев. 3.Access: Ввод, изменение, копирование полей и записей, сортировка записей (правой кнопкой сортировка по возрастанию и убыванию) 7 1.Языки манипулирования данными, концепции и возможности языка SQL Data Manipulation Language (DML) - это семейство компьютерных языков, используемых в компьютерных программах или пользователями баз данных для получения, вставки, удаления или изменения данных в базах данных. На текущий момент наиболее популярным языком DML является SQL. Языки DML изначально использовались только компьютерными программами, но с появлением SQL стали также использоваться и людьми. Функции языков DML определяются первым словом в предложении (часто называемом запросом), которое почти всегда является глаголом. В случае с SQL эти глаголы - "select" ("выбрать"), "insert" ("вставить"), "update" ("обновить"), и "delete" ("удалить"). Это превращает природу языка в ряд обязательных утверждений (команд) к базе данных. Языки DML могут существенно различаться у различных производителей СУБД. Существует стандарт SQL, установленный ANSI, но производители СУБД часто предлагают свои собственные "расширения" языка. Преимущества: · Независимость от конкретной СУБД. Несмотря на наличие диалектов и различий в синтаксисе, в большинстве своём тексты SQL запросов, содержащие DDL и DML, могут быть достаточно легко перенесены из одной СУБД в другую. Существуют системы, разработчики которых изначально закладывались на применение по меньшей мере нескольких СУБД (например: система электронного документооборота Documentum может работать как с Oracle Database, так и с Microsoft SQL Server и IBM DB2) · Наличие стандартов. Наличие стандартов и набора тестов для выявления совместимости и соответствия конкретной реализации SQL общепринятому стандарту только способствует «стабилизации» языка. · Полноценность как языка для управления данными. С помощью SQL программист или пользователь может просматривать, изменять и удалять данные, что является основой самого понятия СУБД. Недостатки: · Нереляционность. Создатель реляционной модели данных Эдгар Кодд, Кристофер Дейт и их сторонники указывают на то, что SQL не является истинно реляционным языком. В частности они указывают на следующие проблемы SQL: повторяющиеся строки, неопределённые значения (nulls), явное указание порядка колонок слева направо, колонки без имени и дублирующиеся имена колонок, отсутствие поддержки свойства «=», использование указателей, высокая избыточность. В опубликованном ими Третьем Манифесте они излагают принципы СУБД следующего поколения и предлагают язык Tutorial D, который является подлинно реляционным. · Сложность. Хотя SQL и задумывался как средство работы конечного пользователя, в конце концов, он стал настолько сложным, что превратился в инструмент программиста. · Отступления от стандартов. Несмотря на наличие международного стандарта ANSI SQL-92, многие компании, занимающиеся разработкой СУБД (например, Oracle, Microsoft, MySQL AB, Borland), вносят изменения в язык SQL, применяемый в разрабатываемой СУБД, тем самым отступая от стандарта. Таким образом появляются специфичные для каждой конкретной СУБД диалекты языка SQL. · Сложность работы с иерархическими структурами. Система SQL не предлагает стандартного способа манипуляции древововидными структурами. Некоторые поставщики СУБД предлагают свои решения. Например Oracle использует выражение «CONNECT BY». 2.Как можно обеспечить надежность хранения данных? Надежность БД может основываться на применении теории методов надежности, которая позволяет получить ряд четких, хорошо измеряемых интегральных показателей. Надежная БД должна, прежде всего, обеспечивать низкую вероятность потери работоспособности. Быстрое реагирование на потерю или искажение данных и восстановление их достоверности и работоспособности за время меньшее, чем порог между сбоем и отказом, обеспечивает высокую надежность. Это трехуровневая схема хранения: · · · Копирование винчестера за счет RAID-массивов, дублирование записываемой информации. Сменные носители в той же комнате, где эксплуатируется сервер. Сменные носители, которые находятся в другом здании. 14 Таким образом обеспечивается надежность хранения 99,9%. Скорее всего информация сохранится, например, при пожаре, сбое машины. Естественно какую-то часть можно потерять: последние сутки, последнюю неделю, последний месяц.. Запоминающие устройства можно представить как трехзвенную систему: устройства и системы для активно используемых данных (дисковые системы), периодически используемых данных (CD/MO/DVD устройства) и данных долговременного хранения (ленточные библиотеки). Быстрые или оперативные устройства с произвольным доступом хранения служат для работы с данными, в которых пользователи для выполнения своей работы нуждаются постоянно. Это - жесткие диски, дисковые системы и RAID системы. Они имеют небольшое время доступа и самую высокую частоту обращения. Принципиальное отличие систем 1-го и 2-го уровня от систем 3-го уровня заключается в том, что первые две - это системы произвольного доступа, а последние - последовательного доступа. Такое разделение четко определяет области их использования. При этом основные отличия систем 1-го и 2-го состоит в емкости и скорости доступа. 3.Access: Создание форм 8 1.Архитектура "клиент-сервер" В современных СУБД используется архитектура клиент-сервер, когда БД хранится на сервере, а СУБД подразделяется на две части – клиентскую и серверную. Чтобы уменьшить еще объем передачи данных, которые должны подвергаться прикладной обработке, предлагается трехуровневая архитектура: тонкий клиент-сервер приложений-сервер БД. Тонкий клиент обеспечивает взаимодействие с пользователем через браузер, вся прикладная обработка выносится на сервер приложений, который обеспечивает и формирование запроса к БД. При этом сервер базы данных и сервер приложений могут функционировать в различных ОС. 2.Какие технические носители Вы знаете? Перечислите их характеристики. Для хранения данных используется флэш-память, магнитооптические диски, оптические диски, HDD. Существуют специальные высокопроизводительные архитектуры для хранения больших объемов данных (СХД), способные интегрироваться в вычислительную сеть (Например, IBM TotalStorage DS8000). Запоминающие устройства можно представить как трехзвенную систему: устройства и системы для активно используемых данных (дисковые системы), периодически используемых данных (CD/MO/DVD устройства) и данных долговременного хранения (ленточные библиотеки). Быстрые или оперативные устройства с произвольным доступом хранения служат для работы с данными, в которых пользователи для выполнения своей работы нуждаются постоянно. Это жесткие диски, дисковые системы и RAID системы. Они имеют небольшое время доступа и самую высокую частоту обращения. Принципиальное отличие систем 1-го и 2-го уровня от систем 3-го уровня заключается в том, что первые две - это системы произвольного доступа, а последние - последовательного доступа. Такое разделение четко определяет области их использования. При этом основные отличия систем 1-го и 2-го состоит в емкости и скорости доступа. 3.Access: Создание поля гиперссылки Откройте таблицу, запрос или форму в режиме таблицы, форму в режиме формы или страницу доступа к данным в режиме страницы. В форме или на странице доступа к данным поместите курсор в поле гиперссылки таблицы либо в текстовое поле или другой элемент управления, которые содержат гиперссылки. Введите допустимый адрес гиперссылки. Адрес определенной гиперссылки может содержать до четырех частей, разделенных знаком диеза (#): отображаемый_текст#адрес#дополнительный_адрес#подсказка Следующий пример содержит компоненты экранныйТекст, адрес и всплывающаяПодсказка. Обратите внимание, что он также содержит знак диеза (#) для компонента допАдрес, который опущен: Корпорация Майкрософт#http://example.microsoft.com/##Пример страницы для Корпорации Майкрософт В поле или элемент управления будет добавлена гиперссылка. 9 15 1.Концепции и возможности СУБД Oracle Oracle Database 10g предназначена для эффективного развертывания на любом оборудовании – как на небольших серверах, так и на мощных симметричных многопроцессорных серверных системах и кластерах всех размеров. Она предоставляет возможность автоматизированного управления для простой и экономически выгодной эксплуатации. Благодаря своим уникальным возможностям управлять всеми данными от традиционной бизнес-информации до документов формата XML и распределенной/локальной информации, Oracle Database 10g является идеальным выбором для выполнения приложений, обеспечивающих оперативную обработку транзакций, поддержку принятия решений и управления информационным содержимым. Корпорация Oracle является крупнейшим в мире поставщиком программного обеспечения для управления информацией и второй в мире компанией по поставке программного обеспечения. Имея годовой объем продаж более 9.7 миллиардов долларов США, компания предлагает свои базы данных, серверы приложений, инструментальные средства разработки и готовые приложения, а также услуги в области консалтинга, обучения и поддержки систем более чем в 145 странах во всем мире. СУБД Oracle используют более чем в 750 организациях на территории СНГ и более чем в 520 организациях на территории России. Oracle является законодателем в области новых направлений развития СУБД. Вот далеко не полный список таких "пионерских" достижений:  Первая коммерческая SQL СУБД.  Поддержка множества вычислительных платформ.  Поддержка архитектуры клиент/сервер.  Поддержка модели многоверсионной записи (Multi-version Read Consistency).  Поддержка кластерной и MPP архитектуры.  Поддержка распределенных транзакций.  Поддержка активных бизнес правил.  Поддержка параллельной обработки.  Оптимизация работы с хранилищами данных.  Поддержка всего спектра Multimedia.  Поддержка объектно-реляционной модели.  Поддержка Messaging. Перечень программных средств Oracle: o Средства создание баз данных. o Средства разработки. o Средства поддержки принятия решений. o Средства распространения информации в Web. o Средства создания хранилищ данных. o Средства администрирования и управления СУБД. o Решения CRM - Электронная Коммерция. При работе с СУБД необходимо организовать выполнение таких функций как целостность данных, восстановление после сбоев, перехват ошибок и т.д. Это можно устроить посредством особенностей, хорошо реализованных в СУБД ORACLE, – контрольных точек, журналирования и архивирования. 2.Какие формы организации данных и знаний Вы знаете? Здесь можно выделить несколько классификаций. Если речь идет о представлении, то данные бывают электронные, хранящиеся на бумаге. Имеется тенденция к переводу всей информации в цифровую форму для удобства поиска и распространения. В случае цифровой информации, она может иметь либо файловую структуру, либо быть организована в виде БД. Недостатком файловых систем является недостаточные возможности 16 управления данными, большие затраты труда программистов, дублирование разработок. Преимуществами БД являются наличие метаданных, поддержка целостности базы данных, одновременный доступ к данным нескольких пользователей, ориентированные на пользователя запросы и отчеты. Документы содержащие справочные или основные данные могут быть формализованы, а после чего добавлены в БД, и быть доступными там в качестве мета- и информационных данных соответственно. С точки зрения восприятия человеком структурированные данные гораздо легче усваиваются, нежели неструктурированные. Так же можно выделить алфавитно-цифровое и образное представление. 3.Access: Создание отчета в СУБД Access В форме отчетов задается вставка даты, построения диаграмм, подготовки отчета. При этом надо использовать Конструктор или Мастер отчетов. Отчет — это гибкое и эффективное средство для организации данных при выводе на печать. С помощью отчета имеется возможность вывести необходимые сведения в том виде, в котором требуется. Больше всего сведений в отчете берется из базовой таблицы, запроса или инструкции SQL, являющихся источниками данных для отчета. Другие сведения вводятся при разработке отчета. 10 1. Принципы создания СППР Основная идея: в основе БД имеется определенный набор фактов, зная их, можно заранее определить перечень воздействий, например, природной среды на экономику. На эти воздействия можно определить список рекомендаций, которые нужно выполнить для уменьшения или предотвращения последствий. При этом могут использоваться ГИС, экономические модели, для правильной оценки убытков или прибыли. План действий берется из базы знаний. Для разработки СППР необходимо: o оценить пригодность имеющихся методов для оценки воздействия; o использовать современные подходы к обработке и анализу информации; o изучить умения руководящих органов на основе имеющейся информации, получить значимые результаты, касающиеся воздействия; o оценить методы принятия решений с точки зрения их оптимальности. СППР должна удовлетворять следующим критериям:  система должна быть способна учитывать воздействия, как в точках, так и на любой площади;  система должна быть равным образом приспособлена для отражения воздействия различных условий;  система должна допускать возможность анализа влияний на объекты в любом географическом районе;  система должна быть в состоянии различать воздействия и изменения, обусловленные различными условиями, а также совместным эффектом. Функции СППР: Управляющая функция – это функция, результатом которой является выработка и реализация управляющих воздействий на технологический объект управления. К управляющим функциям относятся: стабилизация температуры воздуха и влажности в холодильниках, и жилых помещениях; оптимальное управление погрузо-разгрузочным процессом и др. Информационная функция – это сбор, обработка, выработка рекомендаций и доведение их до управляющих органов. К информационным функциям относятся: · сбор, наблюдения и обработка информации в необходимые сроки и в требуемой форме; · поиск и выбор необходимой информации; 17 формирование и выдача рекомендаций управляющим органам на основе различной информации. Вспомогательные функции – это функции, обеспечивающие решение внутрисистемных задач, которыми являются по существу функции системы переработки информации. · 2. Какие типы данных Вы знаете? Тип данных – описывает свойства набора данных, которые определяют диапазон возможных значений данных из набора; допустимые операции, которые можно выполнять над этими значениями; способ хранения этих значений в памяти. Различают простые типы данных: целые, действительные числа; составные типы данных: массивы, файлы и др. 3.Access: Связывание меню и панелей инструментов с формами и отчетами. Сначала создать Форму(которая будет главным меню), туда добавить кнопку, а затем на кнопку повесить либо работу с формой, либо с отчетом 11 1.Методика и организация обследования пользователей Прежде чем создавать БД необходимо изучить информационные потребности (ИП) потенциальных пользователей. Существует достаточно много методов исследования этих потребностей, рис.6. Обследование предусматривает:  разработку программы обследования;  проведение обследования (изучение задач и анкетирование пользователей);  анализ материалов обследования;  рассмотрение и утверждение результатов. Программа обследования включает изучение  организационной структуры существующей системы обработки данных;  общих методологических принципов построения БД;  существующей системы сбора данных (оперативных и отложенных) с указанием количественных и качественных характеристик информационных потоков;  Видов обработки и решаемых задач на основе БД;  Способов подготовки данных на носителях сроков, периодичности выдачи и распространения информации;  Видов и содержания работ по созданию БД, программных средств Каждый метод может использоваться наилучшим образом для определенных целей изучения ИП. Например, состав и структура БД может быть разработана на основе следующих методов‫–־‬ анкетирования, интервью, изучения запросов, документов и методик обработки данных. 18 Методы исследования информационных потребностей Взаимодействие со специалистами Анализ источников информации Анкетирование Директивные и руководящие материалы Интервьюирование, личные встречи, беседы Перспективные планы научно – исследовательских работ Использование каталогов Плановые документы Анализ запросов Решения ученых и научнотехнических советов Формирование запросов Доклады, отчеты Участие в конференциях, симпозиумах, семинарах Документы результатов технико-экономического анализа деятельности организации Моделирование процессов Рис.6. Методы исследования ИП 2.Назовите основания классификации данных. 4.2 По сферам: атмосфера, гидросфера, техносфера, социосфера, биосфера. По наукам: демографические, экономические, гидрометеорологические По упорядоченности: исходные, инвертированные. По степени обработки: исходные, расчетные… По классу: информационные, справочные (метаданные). По структуре: фактографические, текстовые, графические, пространственные, звуковые, мультимедийные. 3.Access: Построение пользовательского меню и панелей инструментов 12 1.Выявление целей и факторов, способствующих и препятствующих созданию БД Факторы, препятствующие успешному завершению проекта: · помехи со стороны правительства 10%; · технологические факторы 12%; · внешние поступления 12%; · оборудование 15%; · недостаточность контроля 35%; · недостатки планирования производственных процессов 55%. С чем связаны эти проблемы: o неверно сформулированные требования к ИС; o недостаточное тестирование и плохая интеграция программного обеспечения; o ошибки проектирования системы; o ошибки в планировании работ над проектом и некачественное внедрение; o плохое управление проектом; o неверный выбор коммерческого программного обеспечения; o плохая связь с заказчиком; o неумение заключать договора. 19 Возможные цели – увеличить прибыль, повысить эффективность работы предприятия, сократить затраты на обслуживание, сократить время обслуживания. Стратегии:  повысить конкурентоспособность предприятия  исключить избыточные процессы, связанные с оформлением запросов. Тактики:  разработать сайт, представляющий информацию о товарах и дающий возможность заказать товар;  сформировать интегрированную БД сведений о товарах и пользователях;  создать средства удаленного ввода сведений о товарах и пользователях. Цель Увеличить скорость поступления и введения данных в систему Повысить качество данных Уменьшить стоимость обработки Уменьшить затраты на подготовку данных Уменьшить время на программирова ние системы Увеличить разнообразие форм выдачи Факторы, способствующие созданию БД Средства повышения эффективности за счет Задачи и проблемы совершенствования: для дальнейших исследований Технологий Технологий Взаимодействие с сбора обработки др. организациями Развить Создать Стандартизовать Создать системы ввода систему сбора систему методы данных с голоса, данных по eмониторинга регистрации и путем сканирования mail потоков форматы сбора данных данных Развить алгоритмы и программные средства контроля данных Децентрализо вать систему сбора данных Применить визуальные средства для контроля Стандартизовать методы контроля данных Разработать новые методы контроля данных Создать базы агрегированн ых данных Развить распределенные базы данных Применять измерительны е системы с выводом данных в компьютер Выделить общие программные средства Использовать базы агрегированн ых данных Выявить постоянных пользователей. Стандартизовать применяемые структуры данных Децентрализовать систему обеспечения пользователей и обмена данными Шире применять инструментальные средства (СУБД, ГИС, ЭС, case и др.) Исследовать возможности новых инструментальных средств. Составить прогноз развития программно аппаратных средств Исследовать возможности автоматизации построения различных форм выдачи Создать специализиро ванные языки запросов Создать универсальные формы представления данных (многомерные БД, XML) Характеристика факторов, затрудняющих повышение эффективности обслуживания пользователей Факторы, препятствующие Стандартизов Шире ать формы использовать сбора данных графические средства представления данных Создать АРМ для сотрудников, участвующих в процессах регистрации потоков данных Средства их отражения на эффективности подсистем: Способы устранения 20 достижению цели Низкая производительность ПЭВМ Недостаток памяти на дисках Недостаточное качество данных Плохое документирование программных средств и массивов данных Наличие данных ограниченного доступа Сбора Невозможность использования методов контроля Невозможность применения новых средств Ошибки в исходных данных Трудности в освоении программ Плохая организация защиты информации от несанкциониров анного доступа Обработки Трудности поиска и обработки данных Трудности поиска и обработки данных Плохое качество расчетов Взаимодействия Высокая стоимость передачи данных Дублирование разработок Трудности при внедрении ПС, технологий Трудности в разграничении доступа к данным Отсутствие правовых документов, санкций Приобретение сервера баз данных Невозможность хранения больших БД Приобретение сервера баз данных Претензии пользователей Разработка многоуровневого контроля данных Разрабатывать самодокументируемые программные средства. Разработка подсистемы защиты информации 2.Что такое метаданные? Метаданные – это информация, являющаяся вспомогательной, справочной при обработке данных. Это сведения о данных, картах, пособиях, атласах, навигационных объектах (портах, гидрографических знаках, маяках и др.). Метаданные обладают рядом специфических особенностей, характерных для всех видов справочной информации: o Одноразовый ввод информации при первоначальной загрузке метаданных с последующим внесением изменений и многократное ее использование в течение достаточно длительного промежутка времени; o Относительно малая активность обновления справочной информации, как по частоте, так и по объему корректировки; o Отделение во времени, по источникам, исполнителям процесса обновления от процесса использования, как следствие, необходимость обеспечения совместимости информации, подлежащей редактированию; o Наличие четких признаков классификации и группирования справочной информации; o Необходимость централизации общих сведений о данных и децентрализации локальных, детальных сведений о данных. Состав и точность описания характеристик объектов метаданных зависит от уровня управления экономикой, масштабами системы, этапа обработки данных. Справочная информация циркулирует в системе переработки данных каждого учреждения, находящегося в системе сбора, хранения, обмена и обработки данных на международном, национальном, ведомственном и корпоративном уровнях. На каждом из этих уровней нужна своя справочная информация. Источники метаданных:  В самих данных (при обработке исходных, например, статистика)  Документация (путем ее формализации). 3.Access: Запросы и фильтры С помощью запросов можно просматривать, анализировать и изменять данные из нескольких таблиц. Они также используются в качестве источника данных для форм и отчетов. Наиболее часто используется запрос на выборку. При его выполнении данные, удовлетворяющие условиям отбора, выбираются из одной 21 или нескольких таблиц и выводятся в определенном порядке. Перекрестный запрос вычисляет сумму, среднее значение, число элементов и значения других статистических функций, группируя данные и выводя их в компактном виде. Перекрестный запрос создается с помощью соответствующего Мастера или в Конструкторе запросов. Условие отбора задается с помощью другого поля, сравнением на содержание текста или значение числа. 13 1.Методы выявление информационных потребностей пользователей Методы исследования информационных потребностей:  Анкетирование.  Анализ запросов.  Участие в конференциях, симпозиумах, семинарах.  Документы результатов технико-экономического анализа деятельности организации.  Взаимодействие со специалистами.  Анализ источников информации.  Директивы и руководящие материалы.  Интервьюирование, личные встречи, беседы.  Перспективные планы НИР.  Использование каталогов.  Плановые документы.  Решения ученых и НТ советов.  Формирование запросов.  Доклады, отчеты.  Моделирование процессов. 2Почему база данных улучшает обмен данными между приложениями? Когда работаем с файловыми системами, структуры множатся и требуют множество программ для своей обработки. База данных – более унифицированное средство. За счет предварительной выборки данных можно создать определенное view-представление, или просто какие-то таблицы, которые смогут использоваться в разных приложениях. При помощи БД удобно производить обмен данными с локальным приложением и между удаленными приложениями. 3.Access: Добавление новой, копирование, удаление записей (по крайнему левому полю нажимаем левой кнопкой мыши, оно выделяется черным цветом, далее нажимаем правой кнопкой мыши и выбираем, либо создание новой, либо копирование, либо удаление) 14 1.Методы анализа запросов пользователей Анализ запросов пользователей, оценка использования информации На этом этапе собирается информация о характерных запросах. Характеристики запросов из предметной области – исследование природной среды даны в табл.11, 12. В табл.13 дается укрупненное представление ИП основных категорий пользователей. Информация о характерных запросах Категории Характерные потребителей запросы Органы Текущие, государственн данные ой власти Прогнозные данные Фоновые данные Ученые …. Характеристики запросов Частота Объем Время выполнения Ежеднев Кб Мин но Ежеднев Кб Часы но По Кб Сутки запросу …. … … Характеристики типовых запросов к БД Характеристики Число пользователей Ожидаемое число запросов в сутки Время ответа Время решения задачи Интенсивность Метаданные Информационные Статистика 1000-2000 50 100-300 100-200 40-50 1-2 Минуты Мин Десятки в Часы Часы Десятки в сутки Недели Недели Один в 22 Характеристики Метаданные Информационные Статистика поступления запросов сутки неделю Допустимое время Часы Сутки Недели запаздывания Периодичность введения Месяц Сутки Месяц новой порции данных Инициатива Пользователь Пользователь Персонал обслуживания Укрупненное представление ИП основных категорий пользователей Основные категории пользователей Доминирующие Форма информационные представлени потребности я информации Директивные, Климатическая Факс, Web руководящие и информация, технологии плановые органы сверхдолгосрочные прогнозы Ученые в области Временные ряды, Web фундаментальных сведения о данных, технологии наук выборки данных Специалисты Климатические Web прикладных НИИ нормы, результаты технологии расчетов, метаданные Специалисты в Текущая, Факс, e– сфере прогностическая и mail, Web производства климатическая технологии информация Регламент обслуживания По запросу По запросу Регулярно и по запросу Регулярно в соответствии с соглашением 2.Каковы Важнейшие характеристики СУБД? При выборе СУБД можно применить следующие критерии оценки:  надежность БД;  продолжительность незапланированного простоя;  скорость поиска и масштабируемость БД;  время отклика при первоначальной регистрации в системе, выполнении наиболее типичных транзакций, наиболее типичных запросов;  количество одновременно работающих пользователей на один сервер БД, на одного администратора БД. 3.Access: Поиск, редактирование С помощью запросов можно просматривать, анализировать и изменять данные из нескольких таблиц. Они также используются в качестве источника данных для форм и отчетов. Наиболее часто используется запрос на выборку. При его выполнении данные, удовлетворяющие условиям отбора, выбираются из одной или нескольких таблиц и выводятся в определенном порядке. Перекрестный запрос вычисляет сумму, среднее значение, число элементов и значения других статистических функций, группируя данные и выводя их в компактном виде. Перекрестный запрос создается с помощью соответствующего Мастера или в Конструкторе запросов. Условие отбора задается с помощью другого поля, сравнением на содержание текста или значение числа. 15 1.Определение необходимой информации для различных видов деятельности Информация из БД нужна для анализа и выработки определенных решений. Поэтому в БД в обязательном порядке должны присутствовать атрибуты, на основе которых можно  напрямую принять решение;  агрегировать данные (получить статистические характеристики) и на основе их принять решение;  дать прогноз значения атрибута с использованием исходных или агрегированных данных и принять решение на его основе. Для определения необходимой информации для различных решений создается матрица «решение – атрибут (исходный, агрегированный, прогнозный)». 2.Понятия схемы, логический и физический уровни представления данных. 23 Первая лабораторная работа – это фактически логическое представление – на уровне проектирования, сам проект. А физическое представление – это то, что мы потом реализуем. Схема – коллекция объектов БД, содержащих таблицы, индексы, кластеры, представления, снимки – журналы репликации, последовательности, синонимы, пакеты. При проектировании больших БД выделяются подсхемы. Объекты схемы – это абстракция (логическая структура) составляющих базы данных. База данных разделяется на одно или более логических частей, называемых табличными пространствами. Табличные пространства используются для логической группировки данных между собой. Сегментирование групп по табличным пространствам упрощает администрирование этих групп. Каждое табличное пространство состоит из одного или более файлов данных. Используя несколько файлов данных для одного табличного пространства, можно распределить их по разным дискам, увеличив тем самым скорость ввода–вывода и, соответственно, производительность системы. Таким образом, БД состоит из табличных пространств, которые, в свою очередь, состоят из файлов данных. А файлы данных могут быть разбросаны по нескольким физическим дискам. Под физической структурой БД, в данном случае, подразумевается то, какие таблицы должны предоставлять нужную нам информацию и какие поля (атрибуты) должны в них входить. При проектировании физической структуры БД мы должны учитывать необходимость полноты представления данных и стремиться к исключению избыточности данных. Данные должны быть не противоречивы и представлены таким образом, чтобы все необходимые манипуляции с ними были просты и максимально эффективны. Выявив все сущности, информация о которых должна быть представлена в БД, и описав связи между ними, мы имеем логическую структуру БД. Первая лабораторная работа – это фактически логическое представление – на уровне проектирования, сам проект. А физическое представление – это то, что мы потом реализуем. 3.Access: Определение формата поля (Таблица->Открыть с помощью конструктора->Формат Поля) 16 1.Методы и средства документирования массивов и баз данных БД возникает в результате деятельности организаций. Исполнители проектируют БД, разрабатывают необходимые программные и технологические средства и загружают базу данных. Описание является основным источником информации о БД для ее будущих пользователей. В этом описании дается:     формализованное описание БД; источники информации (организации, платформы, проекты); физическая организация данных – формат хранения данных и инфологическая схема для БД; перечень атрибутов с указанием полного и краткого наименований, единиц и методов измерений, пределов изменений;  описание методов логического, синтаксического контроля данных; полнота по отношению к исходному носителю или проведенной программе измерений;        описания программ (проектов), в рамках которых получены данные; описание методов измерений и применяемых приборов (измерительных систем); список логических единиц хранения с указанием их количества; описание программных средств создания и обработки БД; перечень публикаций, полученных на основе БД; методы тестирования БД; используемые классификаторы и кодификаторы. От полноты приводимых сведений зависит понимание других разделов и количество вопросов потенциальных пользователей. Описание данных должно быть достаточно подробным и доступным как программисту, так и ЛПР. Все БД передаются только с соответствующей документацией, включающей описание (полное и формализованное); описание структуры данных; описание метаданных. Каждая БД сопровождается следующим комплектом метаданных: описанием БД, форматов данных, кодификаторами, используемыми в процессе создания БД, каталогами данных. 24 2.Назовите проблемы создания БД. Современные БД характеризуются следующими особенностями:  большое количество функций, процессов, атрибутов данных и сложные взаимосвязи между ними;  наличие подсистем, имеющих свои задачи и цели функционирования (например, связанные со сбором данных и решением регламентных задач);  отсутствие прямых аналогов, ограничивающих возможность использования типовых проектных решений;  необходимость интеграции существующих и вновь разрабатываемых приложений;  функционирование на нескольких аппаратных платформах;  разобщенность и разнородность отдельных групп разработчиков по уровню квалификации и сложившимся традициям использования тех или иных инструментальных средств;  существенная временная протяженность проектов по созданию БД, обусловленная, с одной стороны, ограниченными возможностями коллективов разработчиков, и, с другой стороны, масштабами организации– заказчиков и различной степенью готовности отдельных их подразделений к внедрению БД. Современная БД должна отвечать всем нововведениям в теории создания и управления данными. Прогресс в области производительности компьютерных систем, развитие сетевых технологий и систем передачи данных, широкие возможности интеграции компьютерной техники с самым разнообразным оборудованием позволяют постоянно наращивать производительность БД и их функциональность. Параллельно с развитием "железа", происходит постоянный поиск новых более удобных и универсальных методов программно–технологической реализации БД. Изменяется общий подход к программированию. В связи с развитием сетевых технологий, локальные БД уступают свое место клиент – серверным реализациям. Кроме того, в связи с активным развитием телекоммуникационных сетей, появляются все большие возможности работы с распределенными БД. Разумеется, разработчики программного обеспечения БД стараются поддерживать свои разработки в соответствии со всеми современными возможностями и стандартами. Проблемы создания БД связаны с  неверно сформулированными требованиями к БД;  недостаточным тестированием данных и плохой их интеграцией;  ошибками проектирования БД (программные средства готовы, а содержания БД нет);  ошибками в планировании работ над проектом и некачественным внедрением БД (нет средств поддержки актуальности данных);  плохим управлением БД;  неверным выбором коммерческого программного обеспечения для реализации БД (оно слишком сложное или не позволяет решать некоторые задачи);  плохой связью с источниками данных для БД. Большинство трудностей создания БД связано с организационными проблемами, поэтому рассмотрим некоторые из них более подробно. Проблемы с сотрудниками. Приобретение предприятием прекрасного специалиста отнюдь не означает полную реализацию его возможностей. Один из разработчиков «закрыл БД на замок», запретив заказчику расширение ее структуры. В результате появляются собственные БД, что приводит к появлению двух несвязанных баз, проблемам с дублированием данных, актуальностью и администрированием. Как видим, просчеты руководителей проекта дают зеленый свет лоскутным решениям и доказывают субъективный характер решений, требующих внимательной экспертной оценки всей вертикали отношений с подрядчиком — от договора и технического задания на создание БД до реализации проекта. Не путайте проект с созданием БД. Успех проекта не означает успеха в области создания БД. Даже если цели проекта достигнуты, они могут не соответствовать текущим требованиям организации. Типичной ситуацией стала защита и сохранение подрядчиком своих инвестиций в проект, а не в автоматизацию. Причин много, в том числе и несоответствие проектных требований потребностям автоматизации в период сдачи БД в эксплуатацию. Преимущества «лоскутной» автоматизации подтверждают — проект только тогда можно считать успешным, если его реализация соответствует основным целям автоматизации (не проекта!), реальная отдача от проекта должна окупать инвестиции. 25 Целостность знаний (накопленного опыта). При создании/сопровождении БД важна логическая целостность и сохранность знаний, получаемых разработчиками на каждом этапе работ (от обследования до эксплуатации). Для лоскутной автоматизации характерно то, что большинство этих этапов при решении конкретной прикладной задачи осуществляется одним человеком или компактной группой людей. При всех недостатках здесь есть особое преимущество: не происходит потери знаний, что часто имеет место в случае заказных БД. Оптимизация решений. Дефицит финансовых, временных и людских ресурсов заказчика приводит к необходимости постоянной оптимизации проектных, технологических и эксплуатационных решений. Именно эта практика позволяет лоскутной автоматизации решать проблемы, иногда почти неразрешимые при других подходах. В основе решений часто лежит спонтанная оптимизация общего комплекса знаний в процессе создания и развития БД. Преимущества «лоскутной» автоматизации носят локальный характер, они проявляются при реализации отдельных самостоятельных приложений – «лоскутов» и поддержании локальных, слабо интегрированных задач пользователей. Информационный кризис или голод при изобилии. Если до применения БД потребитель имел ограниченные данные, то в БД пользователю необходимо выделить поток данных, максимально отвечающий его потребностям. Но, к сожалению, имеющиеся программные средства не всегда позволяют четко выделить эту информацию. Работа с большими объемами информации дает основание считать, что одной из больших проблем взаимодействия с БД является противоречие между количеством и качеством информации. Широкое использование компьютеров для обработки данных породило новую проблему – невозможность человеком быстро усвоить полученную информацию. В результате интерес к информации ослабевает, а та информация, которую ему предлагают и средства их получения, рассматриваются им не как помощь, а как дополнительное затруднение. Как преодолеть этот информационный кризис? Необходимы сведения о данных – метаданные (сведения о массивах и БД, организациях, ведомствах и другая справочная информация). Главным принципом отбора информации является вопрос о том, кто и что с ней будет делать, для принятия каких решений она будет использована? Актуализация информации производится по мере необходимости. При этом рассматривается весь цикл обработки информации: кто, где, когда будет собирать (или получать) информацию, проверять, вводить в компьютер, существуют ли ограничения доступа, как будут решаться вопросы информационной безопасности (защита информации от несанкционированного вмешательства и безопасность от неправильного ее использования), кто и когда будет пользователем данных, на каких условиях, характерные временные интервалы получения информации, предполагаемые объемы данных. Если постараться собрать максимум информации, то будем снова слышать жалобы, что пользователи не готовы к использованию информации, не хотят за нее платить, что недостаточно финансирование разработок БД и т.д. С помощью систем поддержки принятия решений (СППР) решение может приниматься руководителем на основе рекомендаций, выдаваемых ЭВМ, руководитель уже не в состоянии проанализировать, проверить всю информацию и вынужден довериться компьютерным системам. Мир все больше и больше зависит от информации в компьютере, все больше требования к достоверности и точности данных, поэтому, увеличивая объемы данных, надо отдавать себе отчет, сумеем ли обеспечить их достоверность. Другим важным фактором является технологическая возможность обработки информации. Эти ограничения связаны с размещением БД на диске или в оперативной памяти, необходимостью регулярного копирования, дублирования и т.д. Можно сказать, что, желая увеличить объем информации, надо иметь в виду, что объем может возрасти гораздо больше ожидаемого. Многие разработчики, проектируя БД, не задумываются над тем, смогут ли они своевременно обновлять и дополнять БД. Создание БД оправдано только тогда, когда она приносит реальный эффект – т.е. помогает решать задачи принятия решений. Полная автоматизация деятельности предприятия является светлой, но, увы, недосягаемой мечтой. Поэтому автоматизация – это всегда длительный процесс, в ходе которого постепенно охватывается все большее число задач. И крайне важным является последовательность, с которой это происходит, поскольку от правильности определения ее зависят сроки окупаемости разработки, да и судьба БД в целом. Очевидно, что последовательность этапов разработки и внедрения должна быть такова, чтобы наиболее приоритетные задачи решались в первую очередь. К ним можно отнести снижение операционных издержек за счет автоматизации рутинных операций, повышение производительности труда и внедрения автоматизированных систем контроля выполнения операций. Эти задачи решаются путем создания автоматизированных рабочих мест (АРМ), обеспечивающих максимально возможный сервис их пользователям. Естественно, невозможно обеспечить накопление информации, не разработав удобные АРМ для тех работников, которые должны вводить эту информацию в БД, приложения для доступа и визуализации информации также можно рассматривать как АРМы, и, конечно, их работа невозможна без БД. Классы задач нужно разделять, т.к. от того, какие задачи признаются приоритетными, зависит последовательность разработки и внедрения. И все они, действительно, важны для деятельности заказчика. 26 Но любой системный аналитик знает старый афоризм: "То, что говорит пользователь о своих потребностях – это не совсем то, что он думает, а то, что он думает – это совсем не то, что ему нужно на самом деле". 3.Access: Навигация, переходы 17 1.Преимущества централизованных и распределенных БД Централизованный сбор данных позволил сократить трудозатраты на сбор, поиск и систематизацию данных, уменьшить сроки обработки больших массивов данных, увеличить полноту обрабатываемых данных, в т.ч. за счет международного и межведомственного обмена, обеспечить одноразовое занесение данных на носитель. Последнее позволило в восьмидесятых годах обеспечить многие учреждения копиями основных массивов данных на магнитных лентах без чего переход к следующему этапу был бы невозможен, так как не был бы накоплен опыт обработки данных в региональных организациях. Распределенные БД имеют следующие основные преимущества по сравнению с централизованной БД: обеспечивается большая надежность работы, хранения копий или частей БД, данные становятся ближе к точкам их использования, что ускоряет обращение к данным и сокращает затраты на их передачу. Кроме того, преимуществами распределенных БД являются неявность адресации и тиражирования, независимость от конфигурации, использование неоднородных СУБД, тиражирование данных, расчленение БД, фрагментация данных. Неявность адресации позволяет пользователю обращаться к данным, не зная и не интересуясь, в каком центре они расположены. Неявность тиражирования связана с тем, что если существуют копии данных, то при извлечении данных необходимо извлекать одну копию данных, а при внесении изменений в данные необходимо обновлять все копии. Выбор одной копии при извлечении данных и обеспечение обновления всех копий должна автоматически выполнять система, позволяя пользователю сосредоточиться на информационных запросах. Независимость от конфигурации позволяет:  организации добавлять или заменять оборудование, не изменяя существующих компонентов программного обеспечения распределенных БД;  расширить систему в случае, если существующее оборудование перестает удовлетворять пользователя. Использование неоднородных СУБД на разных компьютерах требует создания общего пользовательского интерфейса, за которым находятся разные модели данных. Тиражирование данных означает поддержку нескольких одинаковых копий реляционных таблиц. Тиражирование применяется с целью повышения доступности данных и надежности их хранения. Кроме того, несколько пользователей могут параллельно обращаться к одним и тем же данным. Например, это могут быть копии статистических данных для отдельных регионов, во-вторых, метаданные. Издержками этого подхода является необходимость дополнительного объема памяти и поддержания согласованности данных разных копий. Для этого нужно поддерживать централизованную базу, а копии выделять для локального использования. Потери данных на одном центре могут восстанавливаться при помощи централизованной БД. Недостатком такого подхода является слишком долгое время загрузки центральной БД. Поэтому загрузка новых данных, касающихся локальной БД, в региональном и главном центрах происходит одновременно. Можно применить тиражирование данных по времени отсечения. Например, в региональном центре данные хранятся только за последний год. Управление распределенной БД – выработка способов функционирования в ситуации, когда БД из соображений эффективности тиражируется на нескольких узлах. Здесь нужно поддерживать идентичность копий. В ситуациях, когда связь нарушается, в копиях могут появиться различия. После восстановления связи должен включаться механизм согласования, который формирует некоторую копию, отражающую все сделанные изменения. В связи с растущей зависимостью производственных процессов от БД, для многих приложений необходимым требованием становится стопроцентная доступность – семь дней в неделю, 24 ч. в сутки. Репликация должна обеспечивать идентичность копий данных и корректное функционирование системы в условиях отказа отдельных компонентов. Расчленение БД применяется для разных типов данных в одной предметной области. Здесь улучшается защита данных, особенно если разделенные сегменты нуждаются в разных видах защиты. При этом варианте реализации один пользовательский запрос может требовать обращения к нескольким базам данных, реализованным на разных подходах. Хотя сложности реализации скрыты от пользователя, действительные операции, например, соединения таблиц, являются несколько запутанными. 27 Фрагментация данных связана с тем, каким образом реляционные таблицы могут быть разделены и распределены между центрами. Это продолжение стратегии расчленения данных, которая обычно означает распределение по центрам таблиц целиком. При фрагментации таблица делится на несколько частей (подмножеств). Объединение этих подмножеств составит исходную таблицу. Фрагментация может быть горизонтальной (данные для разных районов в разные фрагменты) и вертикальной (разные атрибуты в разные фрагменты). Для случая одного типа данных лучше применить горизонтальную фрагментацию. Здесь имеется проблема пересечения данных, т.е. одни и те же данные могут дублироваться на границах регионов. 2.Какие этапы проектирования необходимо выполнить при создании БД? Одним из базовых понятий методологии проектирования ИС является понятие жизненного цикла (ЖЦ) программного обеспечения БД. ЖЦ - это непрерывный процесс, который начинается с момента принятия решения о необходимости создания и заканчивается в момент полного изъятия БД из эксплуатации. Основным нормативным документом, регламентирующим ЖЦ, является международный стандарт ISO/IEC 12207. Наибольшее распространение получили следующие две модели проектирования: каскадная модель и спиральная модель. Перед началом проектирования БД следует ответить на следующие вопросы: o Какие функции возлагаются на БД, каково их место среди других БД? o Что необходимо для их создания (определить перечень работ) и функционирования? o Какие необходимы организационно-технические мероприятия, материальные, временные, людские ресурсы? o Какой эффект можно ожидать от создания БД? Разработка общей концепции ИС включает: o планирование процесса подготовки системного проекта, o комплектование группы разработчиков, o определение масштабов, целей и задач системы, o привлечение специалистов к разработке системы. При создании БД необходимо использовать системный подход, включающий следующие процедуры: o o o o o o Определение внешних и внутренних целей ИС. Выделение системы из среды, изучение отношений ИС с внешней средой. Рассмотрение возможных членений системы (интегрального эффекта). Прогнозирование поведения ИС. Описание информационных потоков в ИС. Выбор для системы методов управления её функционированием. Если через три месяца после начала разработки первые модули системы не начинают реально эксплуатироваться и приносить пользу, то шансы проекта на успех резко уменьшаются. Есть еще один критический срок - проект не должен длиться дольше 12 месяцев. Разработка системного проекта включает: o Изучение существующих процессов обработки данных, исследование ИП, определение требований к данным, к выходной продукции, его согласование и утверждение; o Составление графика разработки - определение этапов разработки, расчет затрат, разработка стратегии внедрения; o Экономическая оценка стоимости системы, разработки, опытной эксплуатации, внедрения; o Разработка Программных Средств, БД, словарей и др.; 28 o Выбор технических средств – определение требований к Комплексу Технических Средств, спецификаций оборудования, критериев для выбора оборудования, закупка оборудования; o Опытная эксплуатация - предварительное рассмотрение, приемка, выявление недостатков и их устранение; o Внедрение. ГОСТ 34.601-90. Стадии и этапы создания Автоматизированной Системы 1. Формирование требований к АС. 1.1. Обследование объекта. 1.2. Формирование требований пользователя к АС. 2. Разработка концепции АС. 2.1. Изучение объекта. 2.2. Проведение НИР. 2.3. Разработка вариантов концепции АС. 3. Техническое задание. 4. Эскизный проект. 5. Технический проект. 6. Рабочая документация. 7. Ввод в действие. 8. Сопровождение АС. 3.Access: Исправление ошибок в таблице: автозамена, проверка орфографии Режим автозамены позволяет автоматически исправлять слова, при вводе которых часто допускаются ошибки, а также автоматически заменять сокращения полными значениями. Например, можно определить аббревиатуру «тк» для «Торговая компания». Всякий раз при вводе букв тк с последующим пробелом или знаком препинания «тк» будет автоматически заменяться на «Торговая компания». Автозамена работает с текстом объектов в режиме таблицы или с текстом формы в режиме формы. В меню Сервис выберите команду Параметры автозамены. Настройка параметров проверки орфографии В меню Сервис выберите команду Параметры, а затем перейдите на вкладку Орфография. Выберите необходимые параметры. Для получения справочных сведений о каком-либо параметре нажмите кнопку с вопросительным знаком , а затем щелкните этот параметр. 18 1.Основные методы использования БД на Web Две архитектуры:  Представление и логика приложения могут размещаться на клиенте, БД на - на сервере.  Представление на клиенте, приложение на сервере приложений, данные на сервере БД. Достоинства второго варианта:  Логика приложения представляется в виде изолированных компонентов, которые можно использовать в др. системах.  Различные уровни приложения можно распространить по различным компонентам, что позволяет повысить производительность и улучшить координацию.  Разработку отдельных уровней можно поручить различным группам разработчиков. Примеры архитектур. Долгое время использовался централизованный (персональный) вариант применения СУБД. Централизованная архитектура: СУБД и БД размещаются и функционируют на одном компьютере, а пользователи получают доступ к БД через терминал. 29 В архитектуре «файл – сервер» (рис.8) БД хранится на сервере, а СУБД устанавливаются на каждой ЭВМ. ПК-клиент 1 ПК-клиент 3 ПК - клиент 2 Файл сервер с БД ПК- клиент 4 Рис.8. Архитектура файл – сервер Производительность зависит от компьютера пользователя, при этом значительно загружается сеть для передачи данных. В современных СУБД используется архитектура «клиент – сервер» (рис.9), когда БД хранится на сервере, а СУБД имеет клиентскую и серверную части. Чтобы уменьшить еще объем передачи данных, которые должны подвергаться прикладной обработке, предлагается трехуровневая архитектура «тонкий клиент – сервер приложений – сервер БД» (рис.10). Тонкий клиент обеспечивает взаимодействие с пользователем через браузер, вся прикладная обработка выносится на сервер приложений, который обеспечивает формирование запроса к БД. Сервер БД и сервер приложений могут функционировать в различных ОС. НМЛ Клиент … Сервер БД Клиент Принтер Клиент Рис. 9. Клиент – серверная архитектура Тонкий клиент Web – броузер HTML – страница с апплетами Java или PHP Сервер приложений Сервер БД Web – сервер JSP, PHP, ASP, CGI, ….. БД Рис. 10. Трехуровневая архитектура 2.Информационные ресурсы (международные, национальные и корпоративные БД) Многое при создании информационного ресурса зависит от уровня управления данными, масштабов системы, этапов обработки данных. Информация циркулирует в системе переработки данных каждого учреждения или находящегося в системе сбора, хранения, обмена и обработки данных на международном, национальном, ведомственном и корпоративном уровнях. На каждом из этих уровней нужна своя информация. Так для взаимодействия на международном уровне необходимы сведения о международных соглашениях, массивах данных, предназначенных или переданных в международный обмен, включая сведения о рейсах и станциях, форматах обмена данными, программных средствах их обработки и др. На национальном уровне нужны сведения о мореведческих организациях, массивах данных, которые они хранят, программных средствах обработки, форматах сбора и обмена на уровне страны, наблюдательных платформах, наблюдательных сетях и др. На корпоративном уровне необходима детальная информация по массивам (базам данных) в виде сведений о рейсах НИС и их состоянии (в обработке, на каком носителе и т.п.), о состоянии изученности того или иного географического района по различным параметрам. Для лиц, принимающих решения, в первую очередь необходимы сведения об информационной продукции и регламенте ее выпуска, а также возможных типах запросов и решаемых задач. То есть в системе обеспечения имеются как справочные сведения одного класса (сведения о массивах данных, источниках данных, форматах и т.п.), которые можно объединить в одну таблицу, так и специфические для каждого 30 уровня управления данными (сведения о международных соглашениях, конвенциях, законах, наставлениях, руководствах и т.п.). 3.Case: Erwin – создать диаграмму для БД           Запуск – Create a New Model – Logical/Physical. Target Database для начала выберем Access 2000. Вид панели инструментов, выбираем второй инструмент; он используется для создания сущностей (таблиц БД), рис.22. Задаем имя сущности – Конференция. Если возникли проблемы с отображением русских букв – заходим в меню Format – Default Fonts & Colors и везде, где необходимо меняем Arial на Arial CYR, не забываем поставить Apply To на All Object (внизу). Кликаем на прямоугольник Сущности, получаем следующее. Создаем новый атрибут – id конференции (Attribute Name – id конференции, Column Name – conference_id, тип – Number). Отмечаем его как первичный ключ – Primary Key. Во вкладке Datatype выбираем INTEGER. Один атрибут создан, также создаем остальные. 19 1.Опишите, чем отличаются распределенные и централизованные системы БД У централизованных все в одном месте. Недостаток централизации – информация попадает в систему с большим запаздыванием. Распределенные системы ближе к пользователю, быстрее осуществляется доступ и обновление данных. +17.1 2.Как можно классифицировать запросы? o o o o По скорости выполнения. По регулярности (через определенное время или нет). По объему запрашиваемых данных (малый объем для запросов на метаданные и большой для информационных запросов). Если результаты запроса единообразно обрабатываются, есть смысл помещать на сервер уже обработанные данные. По типу: статистические, информационные, справочные. 3.Access: Индекс: ключ (свойства, создание для одного или нескольких полей) Если поле первичного ключа (Первичный ключ. Одно или несколько полей (столбцов), комбинация значений которых однозначно определяет каждую запись в таблице. Первичный ключ не допускает значений Null и всегда должен иметь уникальный индекс. Первичный ключ используется для связывания таблицы с внешними ключами в других таблицах.) используется в связи (Отношение. Связь, установленная между двумя общими полями (столбцами) двух таблиц. Существуют связи с отношением «один-к-одному», «один-ко-многим» и «многие-комногим».), то для удаления ключа необходимо удалить эту связь. 20 1.Как можно обеспечить надежность хранения данных? Надежность БД может основываться на применении теории методов надежности, которая позволяет получить ряд четких, хорошо измеряемых интегральных показателей. Надежная БД должна, прежде всего, обеспечивать низкую вероятность потери работоспособности. Быстрое реагирование на потерю или искажение данных и восстановление их достоверности и работоспособности за время меньшее, чем порог между сбоем и отказом, обеспечивает высокую надежность. Это трехуровневая схема хранения:  Копирование винчестера за счет RAID-массивов, дублирование записываемой информации.  Сменные носители в той же комнате, где эксплуатируется сервер.  Сменные носители, которые находятся в другом здании. Таким образом, обеспечивается надежность хранения 99,9%. Скорее всего информация сохранится, например, при пожаре, сбое машины. Естественно какую-то часть можно потерять: последние сутки, последнюю неделю, последний месяц. Запоминающие устройства можно представить как трехзвенную систему: устройства и системы для активно используемых данных (дисковые системы), периодически используемых данных (CD/MO/DVD устройства) и данных долговременного хранения (ленточные библиотеки). Быстрые или оперативные устройства с 31 произвольным доступом хранения служат для работы с данными, в которых пользователи для выполнения своей работы нуждаются постоянно. Это - жесткие диски, дисковые системы и RAID системы. Они имеют небольшое время доступа и самую высокую частоту обращения. Принципиальное отличие систем 1-го и 2-го уровня от систем 3-го уровня заключается в том, что первые две - это системы произвольного доступа, а последние - последовательного доступа. Такое разделение четко определяет области их использования. При этом основные отличия систем 1-го и 2-го состоит в емкости и скорости доступа. 2.Какие методы обследования пользователей существуют? · · · · · · · · · · · · · · · Анкетирование. Анализ запросов. Участие в конференциях, симпозиумах, семинарах. Документы результатов технико-экономического анализа деятельности организации. Взаимодействие со специалистами. Анализ источников информации. Директивы и руководящие материалы. Интервьюирование, личные встречи, беседы. Перспективные планы НИР. Использование каталогов. Плановые документы. Решения ученых и НТ советов. Формирование запросов. Доклады, отчеты. Моделирование процессов. 3.Access: изменение свойств, типа полей, интервала, ограничение значений, подготовка надписей, определение шрифтов, цвета 21 1.Опишите роль администратора БД в установке стандартов и создании технологических процедур  Анализ данных – Администратора Базы Данных часто просят провести анализ данных, чтобы получить рекомендации относительно улучшения производительности или эффективности хранения данных. Это может быть связано с индексацией либо с функцией параллельных запросов.  Разработка БД (предварительная) – АБД часто привлекается к предварительной стадии разработки структуры БД. При включении АБД в процесс дизайна БД многие проблемы могут быть предупреждены. АБД знает СУБД и систему, может указать на потенциальные проблемы и помочь команде разработчиков в увеличении производительности программ.  Моделирование и оптимизация данных – При моделировании данных можно учесть особенности системы ввода/вывода и значительно увеличить производительность СУБД.  Предоставление помощи разработчикам по SQL и хранимым процедурам – АБД должен быть готов стать консультантом для разработчиков и пользователей. АБД довольно часто привлекается к разрешению проблем SQL-кода и к разработке (написанию) хранимых процедур.  Разработка производственных стандартов и соглашений по именам – Поскольку в разработке и развертывании приложений могут принимать участие несколько различных групп, то АБД часто призывается на роль разработчика производственных стандартов и соглашений по именам, чтобы приложения соответствовали этим стандартам.  Документирование среды – АБД должен документировать каждый аспект среды СУБД, включая конфигурацию оборудования, обновления и изменения программного обеспечения и СУБД, а также все вопросы, связанные с изменением системы и ее параметров. АБД должен уметь полностью восстановить систему по документации в случае необходимости.  Консультирование разработчиков и конечных пользователей – АБД часто выполняет функции консультанта для группы разработчиков и сообщества пользователей. Это может включать персональную помощь отдельным пользователям и даже разработку специальных курсов для разработчиков и пользователей системы.  Проверка и тестирование новых программ – АБД может участвовать в проверке новых программ, для того, чтобы дать рекомендации, основанные на этой проверке. Это может быть связано с приобретением нового программного обеспечения или с плановым обновлением и переходом на новые версии. Эта проверка должна быть в первую очередь нацелена на оценку стабильности системы. Ваша цель заключается в том, чтобы программы работали надежно и стабильно.  Оценка приобретений нового программного и аппаратного обеспечения – приобретая новый софт и аппаратуру, есть много о чем поразмыслить. В основном это касается функциональности и совместимости, а 32 также, конечно, стоимости. Хоть цены и не касаются АБД, но насчет функциональности и совместимости рекомендации часто необходимы.  Планирование нагрузки системы и необходимого объема памяти – определение необходимости в приобретении дополнительных серверов, дополнительной дисковой и оперативной памяти, чтобы удовлетворить возросшие потребности пользователей, является частью работы АБД. Заранее предсказывая будущие нужды пользователей, Вы можете предоставить великолепный уровень обслуживания безо всяких сбоев. 2.Как Вы понимаете создание безбумажной технологии для лиц, принимающих решение? Для лиц, принимающих решения, в первую очередь, необходимы сведения об информационной продукции, получаемой на ее основе, и регламенте ее выпуска, а также возможных типах запросов и решаемых задачах, т.е. на разных уровнях управления имеются как справочные сведения одного класса (сведения о БД, источниках данных, форматах), которые можно объединить в одну таблицу (например, сведения о БД, источниках данных), так и специфические для каждого уровня управления данными (например, сведения о соглашениях, конвенциях, законах на международном уровне, сведения о единицах сбора данных на корпоративном уровне). Достижения в этих направлениях приведут к распределенному проектированию систем; безбумажной технологии использования данных на всех уровнях принятия решений; отмиранию переносных технических носителей – практически вся информация будет доступна в сети; в любое время, где бы ни было лицо, принимающее решение, появится возможность получить любую информацию, включая рекомендации для принятия решений. В случае какого-либо инцидента компьютер сам напомнит о том, что объект находится в зоне инцидента и что надлежит сделать, чтобы обезопасить себя и предприятие. 3.Access: Защита БД на уровне пользователя, ограничение прав пользователя Файл рабочей группы Microsoft Access содержит список пользователей, совместно использующих данные, также известный как рабочая группа. Пароли пользователей также запоминаются в файле рабочей группы. Для управления доступом к базе данных необходимо создать новый файл рабочей группы. Запустите Microsoft Access. В меню Сервис выберите команду Защита, а затем команду Администратор рабочих групп. В диалоговом окне Администратор рабочих групп нажмите кнопку Создать. В диалоговом окне Сведения о владельце рабочей группы введите свое имя, название организации и любое сочетание букв и цифр длиной до 20 знаков в качестве кода рабочей группы (WID). Внимание! Обязательно запишите введенное имя, название организации и код рабочей группы с учетом регистра (для всех трех элементов) и храните их в надежном месте. Если потребуется заново создать файл рабочей группы, необходимо будет ввести точно такие же сведения. Если они забыты или потеряны, восстановить их и получить доступ к базам данных будет невозможно. Введите имя нового файла рабочей группы. По умолчанию файл рабочей группы сохраняется в папке языка. Чтобы сохранить его в другой папке, введите новый путь или нажмите кнопку Обзор, чтобы выбрать новый путь. Нажмите кнопку OK. Новый файл рабочей группы будет использоваться при следующем запуске Microsoft Access. Любые создаваемые учетные записи пользователей (Учетная запись пользователя. Учетная запись пользователя, определяемая именем и личным кодом (PID), которая создается для управления разрешениями пользователя на доступ к объектам базы данных в рабочей группе Microsoft Access.) и учетные записи групп (Учетная запись группы. Совокупность учетных записей пользователей, входящих в рабочую группу, имеющая собственные групповое имя и личный код (PID). Разрешения, назначенные группе, автоматически получает каждый пользователь, входящий в группу.), а также их пароли, сохраняются в новом файле рабочей группы. Чтобы присоединить к рабочей группе, определенной новым файлом рабочей группы, других пользователей, скопируйте этот файл в общую папку (если он не был сохранен на шаге 5 в общей папке); после этого каждый пользователь должен будет запустить «Администратор рабочих групп» и присоединиться к новому файлу рабочей группы. 22 1.Организация пилотного проекта для проверки типовых проектных решений В связи с тем, что стоимость проектирования велика, и на него тратится очень много времени (должно быть 80:20 – проектирование:кодирование). Для того чтобы некоторые решения проверить – вводится пилотный проект. Из общего проекта выделяется небольшая задача по проверке какого-то нового средства, технологии, приложения. Проводятся тесты. Если реализация успешна, задача начинает расширяться и превращается в типовое решение для других приложений. 2.Какие разделы должен включать план управления данными? 33 План управления данными – это документ, определяющий организацию сбора, обработки, обмена данными между участниками проекта. Первый раздел должен определять состояние дел в области данной тематики. Второй раздел – определение структур, программ, документов, которые рекомендуются к использованию всеми участниками проекта. Третье – кто, что делает, в какие сроки, это фактически план выполнения работ по обработке данных. Документ «План управления данными» включает: Введение. Краткий обзор, состояния вопроса. Описание имеющихся массивов данных. Основная концепция управления данными. Классификация, поиск и инвентаризация, сбор и обмен данными. Методы обработки данных. Программное обеспечение для обработки данных. Сотрудничество (международное, межведомственное, корпоративное). Использование локальных и глобальных сетей для управления данными. Основные шаги реализации Плана управления данными (идентификация пользователей, участвующих организаций в исследовании региона и требований пользователей к информационному обеспечению; описание моделей анализа и прогноза, развитие новых моделей; описание методов использования моделей и других программных средств). Кроме того, план управления данными представляет:  Потоки данных и информации,  Правила документирования данных,  Технологии оцифровки данных (занесения на технические носители),  Конвертирование данных для приведения в один формат хранения,  Требования по поиску, выборке, обработке и представлению данных на экране,  Возможности дальнейшего использования данных,  Методы архивации данных,  Организационные вопросы – кто, что, когда, в какие сроки создает и представляет пользователям ту или иную информацию; проведение семинаров, обучающих курсов и др. В разделе «Основная концепция управления данными» рассматриваются принципы управления, политика управления данными, объект и функции управления, документирование данных, создание БД, использование информационных стандартов, контроль качества данных. При разработке программного обеспечения используются общие решения: стандарты на методы регистрации, форматы данных, модельные данные, метаданные, интерфейс, термины и определения, языки описания данных и манипуляции.           Рекомендуется использовать современные инструментальные средства на всех стадиях обработки данных (сбора, накопления, хранения, вычисления, анализа, интерпретации и распространения данных). Важным моментом плана управления данными должны быть организационные правила (статус информационных технологий, включающий правила взаимодействия с информационными системами, обмена данными и т.п.). 3.Access: Импорт/Экспорт: Excel, Access, dBase 23 1.Концепции и возможности CASE-средств для проектирования БД CASE-технологии предлагают новый, основанный на автоматизации подход к концепции жизненного цикла БД. При использовании CASE изменяются все фазы жизненного цикла, при этом наибольшие изменения касаются фаз анализа и проектирования. На рис.1 приводится простейшая модель цикла создания БД (рис.1а) и соответствующая CASE-модель (рис.1б), в которой фаза прототипирования заменяет традиционную фазу системного анализа. Необходимо отметить, что наиболее автоматизируемыми фазами являются фазы контроля проекта и кодогенерации (хотя все остальные фазы также поддерживаются CASE-средствами). В табл.1 дана оценка трудозатрат по фазам жизненного цикла при различных способах разработки БД, а в табл.2 – преимущества традиционной разработки и с помощью case средств. Таблица 1 - Оценка трудозатрат при различных способах разработки БД Способ разработки Анализ Проектирование Кодирование Тестирование 34 Традиционная разработка Использование CASE-технологий Анализ Проектирование Кодирование Тестирование Сопровождение 20% 40% 15% 40% 20% 5% 45% 15% Прототипирование Проектирование спецификаций Контроль проекта Кодогенерация Системное тестирование Сопровождение А) B) Рисунок 1 - Модели жизненного цикла создания БД А)Без использования В) с использованием CASE Таблица 2 - Преимущества традиционной разработки и с помощью case средств Традиционная разработка Основные усилия на кодирование и тестирование “Бумажные” спецификации Ручное кодирование Ручное документирование Тестирование кодов Сопровождение кодов CASE Основные усилия на анализ и проектирование Быстрое итеративное прототипирование Автоматическая кодогенерация Автоматическая генерация документации Автоматический контроль проекта Сопровождение спецификаций проектирования Можно выделить следующие задачи, которые решаются с помощью case-средств:     проектирование (для уровня представления или реализации); моделирование для конкретной реализации СУБД; реинжиниринг БД; документирование БД. Помимо основополагающих принципов - графической ориентации, интеграции и локализации всей проектной информации в репозитарии - в основе концептуального построения CASE-средств лежат следующие положения:        человеческий фактор, определяющий разработку БД как легкий, удобный и экономичный процесс; широкое использование базовых программных средств, получивших массовое распространение в других приложениях (БД и СУБД, компиляторы с различных языков программирования, отладчики, документаторы, издательские системы, оболочки экспертных систем и др.); автоматизированная или автоматическая кодогенерация, выполняющая несколько видов генерации кодов: преобразования для получения документации, формирования БД, ввода/модификации данных, получения выполняемых машинных кодов из спецификаций ПО, автоматической сборки модулей из словарей и моделей данных и повторно используемых программ, автоматической конверсии ранее используемых файлов в форматы новых требований; ограничение сложности, позволяющее получать компоненты, поддающиеся управлению, обозримые и доступные для понимания, а также обладающие простой и ясной структурой; доступность для разных категорий пользователей; рентабельность; сопровождаемость, обеспечивающая способность адаптации при изменении требований и целей проекта. CASE-средства служат инструментарием для поддержки и усиления методов структурного анализа и проектирования. Эти инструменты поддерживают работу пользователей при создании и редактировании графического проекта в интерактивном режиме, они способствуют организации проекта в виде иерархии уровней абстракции, выполняют проверки соответствия компонентов. CASE-средства представляют собой новый тип графически-ориентированных инструментов поддержки выполнения ЖЦ БД. Обычно к ним относят любое программное средство, обеспечивающее автоматическую помощь при разработке БД, его сопровождении или деятельности по управлению проектом, и проявляющее следующие дополнительные черты: 35    мощная графика для описания и документирования систем БД, а также для улучшения интерфейса с пользователем, развивающая творческие возможности специалистов и не отвлекающая их от процесса проектирования на решение второстепенных вопросов; интеграция, обеспечивающая легкость передачи данных между средствами и позволяющая управлять всем процессом проектирования и разработки БД непосредственно через процесс планирования проекта; использование компьютерного хранилища (репозитария) для всей информации о проекте, которая может разделяться между разработчиками и исполнителями как основа для автоматического продуцирования кода и повторного его использования в будущих системах. 2.Назовите новые информационные технологии, выделите наиболее перспективные с Вашей точки зрения и объясните, почему Вы их выделяете. Интернет2 (англ. Internet2) — некоммерческий консорциум из 230 американских университетов, создающий передовые сетевые приложения и технологии, чтобы ускорить появление «Интернета будущего». Консорциум активно сотрудничает с правительственными организациями и ведущими частными компаниями компьютерной индустрии. Консорциум также поддерживает собственную экспериментальную высокоскоростную сеть Абилин (англ. Abilene Network). Когда говорят «Интернет2», то зачастую подразумевают именно сеть Абилин, а не сам консорциум. Цели консорциума  Создать самую совершенную сеть для американских исследовательских сообществ  Разработать революционные интернет-приложения  Обеспечить быстрое распространение новых сетевых служб и приложений для широких кругов пользователей Интернета Отличительные особенности «Интернет2» — использование протокола передачи данных IPv6 и средств multicast (широковещательной передачи данных нескольким абонентам одновременно), поддержка QoS (средства обеспечения приоритетного качества в передаче видео- и голосовой информации), а также использование высокоскоростных (10 Гбит/с) магистральных каналов. Web 2.0 (определение Тима О’Рейли) — методика проектирования систем, которые путем учета сетевых взаимодействий, становятся тем лучше, чем больше людей ими пользуются. Особенностью веб 2.0. является принцип привлечения пользователей к наполнению и многократной выверке контента. Появление термина Веб 2.0 принято связывать со статьёй «Tim O’Reilly — What Is Web 2.0» от 30 сентября 2005 года, впервые опубликованной на русском языке в журнале «Компьютерра» (№№ 37 (609) и 38 (610) от 14 и 19 октября 2005 года соответственно) и затем выложенной под заголовком «Что такое Веб 2.0» веб-сайтом «Компьютерра online». В этой статье Тим О’Рейли увязал появление большого числа сайтов, объединённых некоторыми общими принципами, с общей тенденцией развития интернет-сообщества, и назвал это явление Веб 2.0., в противовес «старому» Веб 1.0. Несмотря на то, что значение этого термина до сих пор является предметом многочисленных споров, те исследователи, которые признают существование Веб 2.0, выделяют несколько основных аспектов этого явления.Содержание [убрать] Веб-службы — это программы, доступ которым осуществляется через Веб (то есть протокол HTTP), а обмен данными происходит в формате XML или JSON или REST. В результате программное обеспечение может использовать веб-службы вместо того, чтобы самостоятельно реализовывать требуемый функционал (например, проверить введенный в форме почтовый адрес). В отличие от обычных динамических библиотек, такой подход обладает рядом плюсов: Веб-служба находится на серверах компании, которая её создала. Поэтому в любой момент пользователю доступна самая свежая версия данных и ему не приходится заботиться об обновлениях и вычислительных мощностях, требуемых для выполнения операции. Инструменты для работы с HTTP и XML есть в любом современном языке программирования, поэтому веб-службы переходят в разряд платформонезависимых. AJAX Asynchronous JavaScript and XML — подход к построению пользовательских интерфейсов вебприложений, при котором веб-страница, не перезагружаясь, асинхронно загружает нужные пользователю данные. Использование Ajax стало наиболее популярно после того как Google начала активно использовать его при создании своих сайтов, таких как Gmail и Google Maps. Часто Ajax считают синонимом Веб 2.0, что совершенно не так. Веб 2.0 не привязан к какой-то одной технологии 36 или набору технологий, с тем же успехом ещё в 1999 году возможность асинхронного обновления страницы уже предоставлял Flash 4. Веб-синдикация Одновременное распространение информации в том числе аудио- и видео- на различные страницы или web-сайты, как правило, с использованием технологий RSS или Atom. Принцип заключается в распространении заголовков материалов и ссылки на них (например, последние сообщения форумов, и т. п.). Первоначально эта технология использовалась на новостных ресурсах и в блогах, но постепенно сфера применения расширилась. Mash-up Веб mash-up (дословный перевод — «смешение») — сервис, который полностью или частично использует в качестве источников информации другие сервисы, предоставляя пользователю новую функциональность для работы. В результате такой сервис может становиться также новым источником информации для других веб mash-up сервисов. Таким образом образуется сеть зависимых друг от друга сервисов, интегрированных друг с другом. Например, сайт по поиску недвижимости с интегрированными картами Google Maps в итоге представляет собой новый, более удобный сервис, с помощью которого каждый пользователь может сразу увидеть все предлагаемые для продажи дома на карте. Метки (теги) Ключевые слова, описывающие рассматриваемый объект, либо относящие его к какой-либо категории. Это своего рода метки, которые присваиваются объекту, чтобы определить его место среди других объектов. С понятием меток тесно связано понятие фолксономии — термина, о котором широко заговорили именно в связи с ростом сервисов Веб 2.0, таких как Flickr, del.icio.us, и, в дальнейшем, Wink. Появление и быстрое распространение блогов тоже вписывается в концепцию Веб 2.0, создавая так называемую «редактируемую Паутину» (writable web). Возможность пометить документ ключевыми словами существует[2] и в языке HTML (англ. keywords), однако этот способ был полностью скомпрометирован широким его использованием в целях поискового спама. Социализация Использование разработок, которые позволяют создавать сообщество. В понятие социализация сайта можно также включить возможность индивидуальных настроек сайта и создание личной зоны (личные файлы, изображения, видео, блоги) для пользователя, чтобы пользователь чувствовал свою уникальность. Поощрение, поддержка и доверие «коллективному разуму». При формировании сообщества большое значение имеет соревновательный элемент, Репутация или Карма, которые позволяют сообществу саморегулироваться и ставить пользователям дополнительные цели присутствия на сайте. Дизайн Понятие Вэб 2.0 так же отразилось и в дизайне. Предпочтительными стали округлось, иммитация выпуклых поверхностей, иммитация отражений на манер глянцевого пластика современных hi-end устройств (к примеру, плееры). В целом восприятие внешнего вида на глаз кажется более приятным. Графика таких сайтов занимает больший объём, нежели при использовании аскетичного дизайна. Отчасти эта тенденция связана с совпавшим по времени выходом новых версий операционных систем использующих выше упомянутые идеи. Недостатки Веб 2.0 Использование сервисов сторонних компаний наряду с достоинствами приносит и определённые проблемы. Среди них:  зависимость от наличия постоянного соединения (исчезает связь — информация становится недоступной или неудобной в использовании); 37    зависимость сайтов от решений сторонних компаний, зависимость качества работы сервиса от качества работы многих других компаний; слабая приспособленность нынешней инфраструктуры к выполнению сложных вычислительных задач в браузере; уязвимость конфиденциальных данных, хранимых на сторонних серверах, для злоумышленников (известны случаи хищения личных данных пользователей, массовых взломов учётных записей блогов). Фактически сайт эпохи Веб 2.0 на первый взгляд интерактивен и дружелюбен, позволяет себя легко настраивать. Однако сбор статистики о пользователях, их предпочтениях и интересах, личной жизни, карьере, круге друзей могут помочь владельцу сайта манипулировать сообществом. По самым пессимистичным прогнозам многочисленные сайты Веб 2.0 вкупе с другими современными технологиями дают прообраз тоталитарной системы «Большого брата». Веб 2.0 как фикция Термин Веб 2.0 зачастую используются с целью рекламы как модное слово или для завышения реальной стоимости проекта и собственной значимости разработчиков в глазах клиентов. Также разные люди под этим термином понимают совсем разные вещи. В результате в среде профессионалов к этому термину относятся весьма скептически, так как трудно найти принципиальные отличия Веб 2.0 от обычных сайтов. 3.Access: Импорт/Экспорт: FoxPro, Word, HTML 24 1.Перечислите компоненты современной ИС, построенной на основе БД Современные информационные системы, созданные на основе БД, характеризуется следующими особенностями: o большое количество функций, процессов, атрибутов данных и сложные взаимосвязи между ними; o подсистемы, имеющие свои задачи и цели функционирования (например, связанные со сбором данных и решением регламентных задач); o отсутствие прямых аналогов, ограничивающих возможность использования типовых проектных решений и прикладных систем; o необходимость интеграции существующих и вновь разрабатываемых приложений; o функционирование на нескольких аппаратных платформах; o разобщенность и разнородность отдельных групп разработчиков по уровню квалификации и сложившимся традициям использования тех или иных инструментальных средств; o существенная временная протяженность проекта, обусловленная, с одной стороны, ограниченными возможностями коллектива разработчиков, и, с другой стороны, масштабами организации-заказчика и различной степенью готовности отдельных ее подразделений к внедрению БД. o Высокие требования к документации. 2.Что такое план управления данными? План управления данными должен отражать проектные решения по технологиям сбора данных, подходы к организации баз данных, используемые стандарты и другие, которые могут быть эффективно использованы в проекте. Сейчас для большинства проектов управление данными есть часть большой работы, для которой создаются специальные группы по отдельным дисциплинам или в рамках корпорации. Документ «План управления данными» включает: o Введение. o Краткий обзор, состояния вопроса. o Описание имеющихся массивов данных. o Основная концепция управления данными. o Классификация, поиск и инвентаризация, сбор и обмен данными. o Методы обработки данных. o Программное обеспечение для обработки данных. o Сотрудничество (международное, межведомственное, корпоративное). o Использование локальных и глобальных сетей для управления данными. o Основные шаги реализации Плана управления данными (идентификация пользователей, участвующих организаций в исследовании региона и требований пользователей к информационному обеспечению; описание моделей анализа и прогноза, развитие новых моделей; описание методов использования моделей и других программных средств). Кроме того, план управления данными представляет: o Потоки данных и информации. 38 Правила документирования данных. Технологии оцифровки данных (занесения на технические носители). Конвертирование данных для приведения в один формат хранения. Требования по поиску, выборке, обработке и представлению данных на экране. Возможности дальнейшего использования данных. Методы архивации данных. Организационные вопросы – кто, что, когда, в какие сроки создает и представляет пользователям ту или иную информацию; проведение семинаров, обучающих курсов и др. В разделе «Основная концепция управления данными» рассматриваются принципы управления, политика управления данными, объект и функции управления, документирование данных, создание БД, использование информационных стандартов, контроль качества данных. o o o o o o o 3.Access: Ввод объектов (рисунков и др.), гиперссылок 25 1.Опишите компоненты СУБД Транзакция – логически-завершенный фрагмент последовательности действий (одна или более SQL-команд, завершенных фиксацией или откатом). Это единицы обработки данных, обладающие свойствами, существенными с точки зрения традиционных СУБД: атомарность (выполняются либо все действия, либо ни одного), сериализуемость (разные транзакции не оказывают неожиданного воздействия друг на друга), и долговечность (если транзакция зафиксирована, то ее результат не пропадет даже в случае краха системы). Свойства транзакций – атомарность, изолированность, устойчивость. менеджер протоколирования и восстановления гарантирует устойчивость Процессор транзакции представлен в виде 2-х основных компонентов: 1. Планировщик заданий, ответственный за обеспечение атомарности и изолированности транзакции. 2. Менеджер протоколирования и восстановления Процессор транзакции выполняет функции протоколирование 2. управление параллельными заданиями 3. разрешение взаимоблокировок Блокировки препятствуют возможности одновременного обращения нескольких транзакций к порции данных такими способами, которые плохо согласуются друг с другом. Признаки блокировки хранятся в таблице блокировок, размещенной в ОП. Задача управления размещением информации на диске и обмена ею между диском и ОП решается менеджером хранения данных. Менеджер буфера является ответственным за разб. доступной ОП на буферные участки страницы, куда может быть помещено содержание дисковых блоков. Задачей менеджера буферов является обращение к соответствующим порциям данных на носителях вторичных устройств хранения, где они располагаются постоянно, с последующим переносом данных в буферы, размещаемые в ОП. 39 Запросы и другие команды языка управления данными группируются в транзакции. Эти процессы должны выполняться атомарно и изолировано друг от друга. Каждый отдельный запрос или операция по изменению данных является самостоятельной транзакцией. Транзакция должна обладать свойством устойчивости, т.е. результат каждой завершенной транзакции должен быть зафиксирован в БД, даже в тех ситуациях, когда после окончания транзакции система по той или иной причине выходит из строя. Задача управления размещением информации на диске и обмена ею между диском и ОП решается менеджером хранения данных. 2.Каким образом можно быстро разобраться в составе и структуре файлов и баз данных? Используя метаданные 3.Access: выделение, выравнивание текста в полях, вычисление и добавление полей 26 1.Каковы главные функции администратора БД? Администратор БД отвечает за целостность информационных ресурсов компании. На нем лежит ответственность по созданию, обновлению и сохранности связанных между собой резервных копий файлов, исходя из задач предприятия. Этот человек должен в мельчайших подробностях знать существующие механизмы восстановления программного обеспечения БД. Возможны ситуации, при которых администратору БД потребуется на основе логических прикладных моделей создавать элементы физической схемы, а также поддерживать связь пользователей с системой и обеспечивать соответствующий уровень информационной безопасности, следя за тем, чтобы доступ к данным имели только те люди, которые в нем нуждаются. Администратор БД должен уметь определять узкие места системы, ограничивающие ее производительность, настраивать SQL и программное обеспечение СУРБД и обладать знаниями, необходимыми для решения вопросов оптимизации быстродействия БД. Разделим его обязанности на две категории (основные и дополнительные). Основные обязанности администратора БД: Резервное копирование и восстановление системы. Возможно, самая главная задача АБД – сохранять данные в системе. Чтобы делать это эффективно, необходимо разработать процедуру резервного копирования и стратегию восстановления данных. Очень важно периодически тестировать отработанную схему резервного копирования и восстановления. 2. Обеспечение безопасности – это одна из основных обязанностей АБД. Управление безопасностью и администрирование включают: добавление и удаление пользователей, управление квотами, аудит и разрешение проблем безопасности. 3. Создание баз данных, табличных пространств, таблиц, представлений и индексов согласно спецификации разработчика приложений. 4. Периодическая проверка производительности системы и произведение изменений для поддержки необходимого уровня производительности. 5. Поддержка целостности данных БД. 6. Планирование и выполнение качественного резервного копирования и стратегии восстановления. 7. Установка нового программного обеспечения. Очень важно протестировать все программы перед введением их в рабочую среду. 8. Конфигурация программного и аппаратного обеспечения (вместе с системным администратором). В большинстве случаев доступ к настройке программного обеспечения имеет только системный администратор, поэтому АБД должен вместе с системным администратором производить установку программ, конфигурирование программного и аппаратного обеспечения, чтобы рабочие станции функционировали наиболее оптимально. 9. Настройка производительности и мониторинг – АБД должен постоянно проверять производительность системы, а при необходимости выполнять настройку. Даже хорошо настроенная система нуждается в постоянной проверке и периодической перенастройке. Иногда достаточно изменить параметры системы, иногда изменить индексы, а иногда и перестроить структуру таблиц. 10. Процедура планового обслуживания – В задачи АБД входит также обязанность составить календарь обслуживания СУБД. Лучше всего производить обслуживание СУБД в ранние часы по утрам, либо по выходным, чтобы не вызвать недовольства пользователей в случае отказа базы данных. В обслуживание входят архивирование, тестирование и настройка. 11. Локализация неисправностей – В случае сбоя СУБД, в обязанности АБД входит восстановление работоспособности или помощь в решении этой проблемы. Рекомендуется также решать предполагаемые проблемы, которые могут возникнуть в будущем. 1. 40 12. Восстановление системы после сбоя – Поскольку сбой системы приводит к тому, что пользователи теряют доступ к своим данным, АБД обязан как можно быстрее восстановить работу системы. Хорошо подготовленный АБД имеет план восстановления системы после сбоя. Пути обеспечения сохранности данных: Тиражирование данных означает поддержку нескольких одинаковых копий реляционных таблиц. Тиражирование применяется с целью повышения доступности данных и надежности их хранения. Кроме того, несколько пользователей могут параллельно обращаться к одним и тем же данным. Например, это будут, во-первых, копии данных для отдельных регионов, во-вторых, метаданные. Издержками этого подхода является необходимость дополнительного объема памяти и поддержания согласованности данных разных копий. Для согласованности данных предложено в первую очередь поддерживать централизованную базу, а копии выделять для локального использования. Тогда потери данных на одном центре восстанавливаются при помощи централизованной базы данных. Недостатком такого подходя является слишком долгое время загрузки центральной базы данных. Поэтому загрузка новых данных, касающихся локальной базы данных, в региональном центре и главного центра системы происходит одновременно. Применяется тиражирование данных по времени отсечения. Например, в региональном центре данные хранятся только за последние годы наблюдений. Трехуровневая схема хранения: o o o Копирование винчестера за счет RAID-массивов, дублирование записываемой информации. Сменные носители в той же комнате, где эксплуатируется сервер. Сменные носители, которые находятся в другом здании. 2.Назовите методы и средства документирования БД. Описание массива данных является основным источником информации о базе данных для его будущих пользователей. В этом описании дается: o формализованное описание массива (базы) данных; o источники информации (организации, наблюдательные платформы, проекты); o физическая организация данных – формат хранения для массивов данных и инфологическая схема для базы данных; o перечень параметров с указанием полного и краткого наименований, единиц и методов измерений, пределов изменений параметров; o описание методов контроля данных (логический, синтаксический); o полнота массива по отношению к исходному носителю или проведенной программе наблюдений; o описания наблюдательных программ (проектов), в рамках которых получены данные; o описание методов измерений и применяемых приборов (измерительные системы); o список логических единиц хранения (рейсов, квадратов, географических областей и т.п.) с указанием количества наблюдений; o описание программных средств, с помощью которых создан массив; o описание программных средств обработки этого массива; o перечень публикаций, полученных на основе этого массива; o методы тестирования массива данных; o используемые в массиве классификации, кодификаторы. 3.Определите атрибуты для выбранной предметной области и организуйте их в виде файловой сетевой, реляционной и многомерной моделей данных 27 1.Объясните разницу между идентификацией пользователя и проверкой полномочий Разница состоит в том, что в первом случае система должна идентифицировать пользователя (процесс опознания пользователя), а во втором – найти в соответствующей таблице БД записи о его правах на чтение/редактирование той или иной информации или выполнение каких-либо других действий. 2.Где находятся источники метаданных? 1. 2. В самих данных (при обработке исходных, например, статистика); Документация (путем ее формализации). 3.Определите тип отношений между таблицами (один к одному, один ко многим, много ко многим) При отношении «один-к-одному» каждая запись в таблице A может иметь не более одной связанной записи в таблице B и наоборот. Отношения этого типа используются не очень часто, поскольку большая часть сведений, связанных таким образом, может быть 41 помещена в одну таблицу. Отношение «один-к-одному» может использоваться для разделения таблиц, содержащих много полей, для отделения части таблицы по соображениям безопасности, а также для сохранения сведений, относящихся к подмножеству записей в главной таблице. Например, можно создать таблицу для отслеживания участия сотрудников в благотворительных спортивных мероприятиях.  Каждому игроку в таблице «Футболисты» должна соответствовать одна запись в таблице «Сотрудники».  Каждому футболисту соответствует одна запись в таблице «Сотрудники». Данный набор значений представляет подмножество для поля «КодСотрудника» и таблицы «Сотрудники». Отношение «один-ко-многим» является наиболее часто используемым типом связи между таблицами. В отношении «один-ко-многим» каждой записи в таблице A могут соответствовать несколько записей в таблице B, но запись в таблице B не может иметь более одной соответствующей ей записи в таблице A. Один поставщик...  ... может поставлять несколько товаров, ...  ... но у каждого товара может быть только один поставщик. При отношении «многие-ко-многим» одной записи в таблице A могут соответствовать несколько записей в таблице B, а одной записи в таблице B несколько записей в таблице A. Этот тип связи возможен только с помощью третьей (связующей) таблицы, первичный ключ которой состоит из двух полей, которые являются внешними ключами таблиц A и B. Отношение «многие-ко-многим» по сути дела представляет собой два отношения «один-комногим» с третьей таблицей. Например, отношение «многие-ко-многим» между таблицами «Заказы» и «Товары» определяется путем создания двух отношений «один-ко-многим» с таблицей «Заказано». В одном заказе может быть много товаров, а каждый товар может появляться в нескольких заказах  Первичный ключ из таблицы «Заказы»  Первичный ключ из таблицы «Товары»  Один заказ может содержать несколько товаров, ...  ... а каждый товар может содержаться в нескольких заказах. 42 28 1.Что такое резервное копирование и восстановление? Восстановление после сбоев. При возникновении программных или аппаратных сбоев целостность, да и работоспособность всей системы может быть нарушена. От того, как эффективно спланирован механизм восстановления после сбоев, зависит жизнеспособность системы. Резервное копирование. В результате аппаратного сбоя может быть частично поврежден или выведен из строя носитель информации и тогда восстановление данных невозможно, если не было предусмотрено резервное копирование БД, или ее части. Резервное копирование спасает и в ситуациях, когда происходит логический сбой системы, например при ошибочном удалении таблиц. Существует множество механизмов резервирования данных (хранение одной или более копий всей БД, хранение копии ее части, копирование логической структуры и т.д.). Зачастую в систему закладывается возможность использования нескольких таких механизмов. 2.Как метаданные ускоряют поиск данных в БД? Метаданные на один-два порядка как правило отличаются по объему 3.Access: Составьте таблицу и определите ключи 29 1.Сколько БД можно создать на одной СУБД (ACCESS, ORACLE, MySQL)? В Access одну можно создать. Несколько – это уже в рамках разных реализаций. Так же можно на любой СУБД поставить на разные машины. В Oracle, DB2, Sybase можно создать в рамках одного сервера несколько баз данных, и между ними возможна связь. Речь не идет о количестве БД которые можно создавать по отдельности. 2.Сравните понятия расчлененная и тиражируемая БД. Когда одна из них предпочтительнее, чем другая? Что такое репликация БД? Тиражирование данных означает поддержку нескольких одинаковых копий реляционных таблиц. Тиражирование применяется с целью повышения доступности данных и надежности их хранения. Кроме того, несколько пользователей могут параллельно обращаться к одним и тем же данным. Например, это будут, во-первых, копии данных для отдельных регионов, во-вторых, метаданные. Издержками этого подхода является необходимость дополнительного объема памяти и поддержания согласованности данных разных копий. Для согласованности данных в первую очередь поддерживается централизованная база данных, а копии выделяются для локального использования. Тогда потери данных на одном центре восстанавливаются при помощи централизованной базы данных. Недостатком такого подходя является слишком долгое время загрузки центральной базы данных. Поэтому загрузка новых данных, касающихся локальной базы данных, в региональном центре и главного центра системы происходит одновременно. Применяется тиражирование данных по времени отсечения. Например, в региональном центре данные хранятся только за последние годы наблюдений. Расчленение базы данных. Здесь улучшается защита данных, особенно если разделенные сегменты нуждаются в разных видах защиты. При этом варианте реализации один пользовательский запрос может требовать обращения к нескольким базам данных, реализованных в разных ведомствах на разных подходах. Хотя сложности реализации скрыты от пользователя, действительные операции, например, соединения нескольких таблиц являются сложными. Репликация - процесс синхронизации в распределенной БД снимков и представлений, на основе которых они созданы. 43 Снимки – это таблица, содержащая результат запроса с удаленной ЭВМ. Снимки позволяют получать копию удаленных данных только для чтения, но с возможностью ее автоматического обновления (полезно использовать при плохой связи или необходимости быстрого доступа). Репликация и согласование данных. Фундаментальная проблема управления распределенной базой данных - выработка способов функционирования в ситуации, когда сеть распадается на две или более несвязанные группы узлов. Когда врач садится в самолет, имея при себе историю болезни своего пациента, он должен иметь возможность вносить в нее записи, т.е. изменять содержимое базы данных, несмотря на то, что он отключен от сети, пока находится в самолете. Из соображений эффективности данные часто тиражируются на нескольких узлах. Когда все эти узлы связаны сетью, можно поддерживать идентичность копий. В ситуациях, когда связь нарушается, в копиях могут появиться различия. После восстановления связи должен включаться механизм согласования, который формирует некоторую копию, отражающую все сделанные изменения. С точки зрения традиционных распределенных баз данных, рассоединение сети - случай исключительный, аномальный, поэтому процесс восстановления и согласования данных мог быть сложным и занимать относительно много времени. В новой информационной среде, как показывает приведенный выше пример, подобные ситуации становятся уже не исключением, а нормой. Отсюда необходимость создания быстрых протоколов и алгоритмов согласования. В связи с растущей зависимостью производственных процессов от информационных систем, для многих приложений необходимым требованием становится стопроцентная доступность, или, как это иногда обозначают, "доступность 7х24" (7 дней в неделю х 24 часа в сутки). Некоторые проблемы повышения надежности решаются за счет совершенствования аппаратных средств. Однако в среде баз данных для повышения доступности необходимо исследование новых репликационных схем, обеспечивающих идентичность копий данных и корректное функционирование системы в условиях отказа отдельных компонентов. 3.Access: Создайте базу данных 30 1.Какую из обязанностей администратора БД можно назвать главной? Администратор БД отвечает за целостность информационных ресурсов компании. На нем лежит ответственность по созданию, обновлению и сохранности связанных между собой резервных копий файлов, исходя из задач предприятия. Этот человек должен в мельчайших подробностях знать существующие механизмы восстановления программного обеспечения БД. Возможны ситуации, при которых администратору БД потребуется на основе логических прикладных моделей создавать элементы физической схемы, а также поддерживать связь пользователей с системой и обеспечивать соответствующий уровень информационной безопасности, следя за тем, чтобы доступ к данным имели только те люди, которые в нем нуждаются. Администратор БД должен уметь определять узкие места системы, ограничивающие ее производительность, настраивать SQL и программное обеспечение СУРБД и обладать знаниями, необходимыми для решения вопросов оптимизации быстродействия БД. Разделим его обязанности на две категории (основные и дополнительные). Основные обязанности администратора БД: 13. Резервное копирование и восстановление системы. Возможно, самая главная задача АБД – сохранять данные в системе. Чтобы делать это эффективно, необходимо разработать процедуру резервного копирования и стратегию восстановления данных. Очень важно периодически тестировать отработанную схему резервного копирования и восстановления. 14. Обеспечение безопасности – это одна из основных обязанностей АБД. Управление безопасностью и администрирование включают: добавление и удаление пользователей, управление квотами, аудит и разрешение проблем безопасности. 15. Создание баз данных, табличных пространств, таблиц, представлений и индексов согласно спецификации разработчика приложений. 16. Периодическая проверка производительности системы и произведение изменений для поддержки необходимого уровня производительности. 17. Поддержка целостности данных БД. 18. Планирование и выполнение качественного резервного копирования и стратегии восстановления. 44 19. Установка нового программного обеспечения. Очень важно протестировать все программы перед введением их в рабочую среду. 20. Конфигурация программного и аппаратного обеспечения (вместе с системным администратором). В большинстве случаев доступ к настройке программного обеспечения имеет только системный администратор, поэтому АБД должен вместе с системным администратором производить установку программ, конфигурирование программного и аппаратного обеспечения, чтобы рабочие станции функционировали наиболее оптимально. 21. Настройка производительности и мониторинг – АБД должен постоянно проверять производительность системы, а при необходимости выполнять настройку. Даже хорошо настроенная система нуждается в постоянной проверке и периодической перенастройке. Иногда достаточно изменить параметры системы, иногда изменить индексы, а иногда и перестроить структуру таблиц. 22. Процедура планового обслуживания – В задачи АБД входит также обязанность составить календарь обслуживания СУБД. Лучше всего производить обслуживание СУБД в ранние часы по утрам, либо по выходным, чтобы не вызвать недовольства пользователей в случае отказа базы данных. В обслуживание входят архивирование, тестирование и настройка. 23. Локализация неисправностей – В случае сбоя СУБД, в обязанности АБД входит восстановление работоспособности или помощь в решении этой проблемы. Рекомендуется также решать предполагаемые проблемы, которые могут возникнуть в будущем. 24. Восстановление системы после сбоя – Поскольку сбой системы приводит к тому, что пользователи теряют доступ к своим данным, АБД обязан как можно быстрее восстановить работу системы. Хорошо подготовленный АБД имеет план восстановления системы после сбоя. Пути обеспечения сохранности данных: Тиражирование данных означает поддержку нескольких одинаковых копий реляционных таблиц. Тиражирование применяется с целью повышения доступности данных и надежности их хранения. Кроме того, несколько пользователей могут параллельно обращаться к одним и тем же данным. Например, это будут, во-первых, копии данных для отдельных регионов, во-вторых, метаданные. Издержками этого подхода является необходимость дополнительного объема памяти и поддержания согласованности данных разных копий. Для согласованности данных предложено в первую очередь поддерживать централизованную базу, а копии выделять для локального использования. Тогда потери данных на одном центре восстанавливаются при помощи централизованной базы данных. Недостатком такого подходя является слишком долгое время загрузки центральной базы данных. Поэтому загрузка новых данных, касающихся локальной базы данных, в региональном центре и главного центра системы происходит одновременно. Применяется тиражирование данных по времени отсечения. Например, в региональном центре данные хранятся только за последние годы наблюдений. Трехуровневая схема хранения: o o o Копирование винчестера за счет RAID-массивов, дублирование записываемой информации. Сменные носители в той же комнате, где эксплуатируется сервер. Сменные носители, которые находятся в другом здании. 2.Какие преимущества дает индексирование таблиц? Индексирование - один из наиболее эффективных способов наращивания производительности БД, входит в число основных механизмов БД. Как правило, строки БД хранятся в том порядке, в каком создаются. Для извлечения из записи БД некоторой произвольной величины требуется последовательное сканирование соответствующих строк БД. Индекс создает отдельное множество строк, упорядоченных в соответствии с выбранным индексом и содержащих указатели на исходные строки. Индексированные таблицы просматриваются значительно быстрее, чем неиндексированные таблицы. Однако индексирование "съедает" дополнительное дисковое пространство. Кроме того, на модификацию индексированной таблицы требуется больше времени, поскольку все применяемые индексы тоже приходится корректировать. Во всех БД для упрощения поиска применяется индекс — специальная колонка в таблице, где каждой записи соответствует уникальное значение. СУБД проводят индексацию автоматически; в сложных СУБД индексация автоматическая или выборочная. В зависимости от того индексируется или нет таблица, выполнение оператора select, который запрашивает одну определенную запись, может приводить к тому, что СУБД будет читать из таблицы всего одну запись, либо каждую запись в таблице большого объема данных. Часто, для того чтобы оптимально обрабатывать несколько различных шаблонных обращений, генерируемых приложением, таблица должна индексироваться более чем одним ключом или набором ключей. Хорошо осмысленная индексация может иметь весьма существенное воздействие на общую производительность системы. В большинстве БД первичный ключ индексируется автоматически. Для внешнего ключа это не всегда так. Чтобы обеспечить наилучшую работу объединений, обязательно проиндексируйте каждый внешний ключ в БД. Следующий кандидат на индексацию - это любой столбец, который будет использоваться для сортировки, т.е. столбец, который будет постоянно использоваться в выражении "order by" запроса на SQL. Также стоит 45 проиндексировать столбцы, которые будут использоваться для ограничения возвращаемого набора данных. Это, например, те столбцы, которые постоянно фигурируют в выражениях "where". 3.Как можно хранить бинарные файлы в базе данных? 46

Ответы к экзамену по БД

Related documents

Products

Support

Ответы к экзамену по БД

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib