2_Базы_данныхx

advertisement
23.История развития средств компьютерной обработки данных. Обоснование
концепции баз данных, основные положения концепции.
История возникновения и развития подхода к организации хранения и обработки баз
данных насчитывает около 40 лет и связана с историей использования компьютеров.
первый этап (50-е годы): на комп-ах выполнялись лишь вычислительные задачи
небольшого объема.
второй этап (60-е годы):переход к новому поколению ЭВМ и появление нового
класса
задач(
информационные:
Vисходн.данных>VОЗУ
,
не
числовые
данные(символьные);исходн.данные хранятся отдельно от программ;файлиспольз.
многократно;результат оформляется в виде документа удобного для анализа). К
концу 60-х создан новый подход к использованию данных – концепция БД.
В сер.60-х было предложено использовать один файл для описания объектов одного
типа, что повлекло за собой создание СУБД.
70-е годы: развитие теории БД( иерархическая, сетевая и реляционная модели
данных), создание БД сложной структуры.
80-е годы: переход на использование ПК, что привело к использованию локальных
БД пользователей. Появилось множество реляционных СУБД.
90-е годы: появление корпоративных вычислительных сетей, следов-но усиление
принципа комплексного использования информации БД, переход к обеспечению
доступа пользователей и программ к информации БД через запрос на языке SQL.
Появ. СУБД (MsSQL, MySQL, DB2, ORACLE)
Основная особенность СУБД – это наличие процедур для ввода и хранения не
только самих данных, но и описаний их структуры. Файлы, снабженные описанием
хранимых в них данных и находящиеся под управлением СУБД, стали называть
банки данных, а затем "Базы данных" (БД).
Основные черты концепции БД:
 данные отделяются от ПП(прикладной программы), появляется специальная
программная надстройка для управления данными, называемая системой
управления базами данных (СУБД); СУБД управляет данными и служит
посредником между ними и ПП; ПП упрощаются, освобождаются от функций
структуризации, хранения и поиска данных;
 появляются стандартизированные данные о фактографических данных –
метаданные, управляемые СУБД; метаданные описывают информационные
параметры и взаимосвязи фактографических данных о ПО;
 СУБД совместно с метаданными представляет собой стандартизированное
инструментальное средство для моделирования ПО различной природы;
 происходит централизация (интеграция) данных, их многоаспектное
использование для различных приложений, что сокращает избыточность данных,
позволяет обеспечить более высокий уровень достоверности данных и
оптимизировать различные процедуры ведения и использования БД.
Основные положения концепции БД:
 Автономное, без избыточное хранение данных сложной структуры и
значительного объема.
 Комплексное использование хранимой информации.
 Независимость программ обработки от физической структуры исходных
данных.
Дополнительные положения концепции БД:
 БД – есть отображение информационной модели предметной области.
 Однократный ввод первичной информации.
 Защита данных (авторизованный доступ, от катастрофического разрушения,
криптография, ограничения целостности).
 Реорганизация БД (развитие) по мере необходимости с минимальным влиянием на
действующие программы.
24. Архитектура представления информации в концепции баз данных.
Архитектура СУБД обеспечивает потребности различных пользователей,
выполнение их запросов, а также внутренние потребности, связанные с
представлением данных в файлах и доступом к ним. Общепринятым в настоящее
время является подход, обеспечивающий трехуровневое представление данных:
 на уровне внешних моделей соответствующих различным запросам различных
пользователей;
 на логическом уровне, соответствующем интегральному взгляду на данные
администратора ПО и администратора БД;
 на внутреннем уровне, соответствующем взгляду на данные системных
программистов.
СУБД поддерживает различные описания данных на всех уровнях и их
преобразования из одних видов представления
другие.
Внешниевпредставления
...
Концептуальное
представление
Физическое
представление
 Концептуальное представление - логическая структура БД в целом в ограничениях
СУБД по структуре данных. Это то, как «видит» БД потенциальный пользователь;
 Физическое представление - конкретное размещение значений данных в памяти
(во внешней и в оперативной), способы и средства представления структурных
характеристик (имен, размеров, адресов), установления связей между элементами
структуры БД;
 Внешнее представление - часть структуры БД, используемая в конкретном
приложении (запрос, программа получения каких-то документов и т.п.).
Система управления базами данных (СУБД) обеспечивает возможность хранения
описания всех этих представлений.
25. Понятие системы управления базами данных (СУБД).
(СУБД) — специализированные программные средства, предназначенные для
организации и ведения баз данных. (СУБД) обеспечивает возможность хранения
описания трех представлений БД:
концептуальное представление - логическая структура БД в целом в ограничениях
СУБД по структуре данных. Это то, как «видит» БД потенциальный пользователь;
физическое представление - конкретное размещение значений данных в памяти,
способы и средства представления структурных характеристик, установления связей
между элементами структуры БД;
внешнее представление - часть структуры БД, используемая в конкретном
приложении.
Такое трехуровневое представление данных обеспечивает соблюдение основных
принципов концепции БД.
По степени универсальности различаются два класса СУБД — системы общего
назначения(ОН) и специализированные системы(СС).
СУБД ОН не ориентированы на какую-либо конкретную предметную область или
на информационные потребности конкретной группы пользователей. СС обладают
средствами настройки на работу с конкретной БД в условиях конкретного
применения. Можно дать следующую обобщенную характеристику возможностям
современных СУБД.
1. СУБД включает язык определения данных, с помощью которого можно
определить базу данных, ее структуру, типы данных, а также средства задания
ограничений для хранимой информации.
2. СУБД позволяет вставлять, удалять, обновлять и извлекать информацию из базы
данных посредством языка управления данными.
3. Большинство СУБД могут работать на компьютерах с разной архитектурой и под
разными операционными системами, причем на работу пользователя тип
платформы влияния не оказывает.
4. Многопользовательские СУБД имеют достаточно развитые средства
администрирования БД.
5. СУБД предоставляет контролируемый доступ к базе данных с помощью:
ƒ системы обеспечения безопасности;
ƒ системы поддержки целостности базы данных;
ƒ системы управления параллельной работой приложений;
системы восстановления.
26. Понятие и роль схемы и подсхемы.
Описание концептуального и соответствующего ему физического представления
(описание структуры БД) хранится автономно, называется схемой БД и создается до
того, как начнет наполняться БД.
Описание подмножества концептуального представления, которое соответствует
внешнему представлению для некоторого приложения (описание части структуры
БД, доступной программе обработки), называется подсхемой.
Используя подсхему и схему, СУБД обеспечивает настройку приложения на работу
с физической базой данных. Тем самым достигается универсализм СУБД по
отношению соответствия внешнего представления – физическому, а значит,
обеспечивается принцип независимости программ обработки от физической
структуры БД.
С другой стороны, программа обработки может получить только те данные и
выполнять только те процедуры (чтения, а возможно обновления данных), которые
указаны в ее подсхеме. Тем самым обеспечивается защита БД от
несанкционированного доступа.
Пользователь, проектируя обработку данных для получения требуемого результата,
определяет требуемое внешнее представление как подмножество концептуального
представления и в принципе может не знать физической организации БД. СУБД,
«понимая» соответствие концептуального и физического представления и «зная»
внешнее представление, определяет откуда физически надо выбрать требуемую
информацию и в каком виде предоставить ее приложению (программе обработки
или непосредственно конечному пользователю). Если осуществлена реорганизация
(развитие) физической БД, меняется схема, но если из новой структуры БД
возможно получить данные в соответствии с некоторой подсхемой, то программу,
которой соответствует подсхема изменять не нужно – реализация принципа
независимости программ от физической структуры БД.
27. База данных как средство отображения информационной модели
предметной области.
Концепция баз данных возникла и получила свое развитие для совершенствования
комплексной обработки структурированной или как ее еще называют
фактографической информации. Особенность ее заключается в следующем:
1. Информационно описывается множество объектов некоторой предметной
области. Это могут быть объекты самой различной природы (личности, предметы
производства, научные исследования, некоторые явления и др.). Главное, что
объекты в предметной области обладают (могут быть описаны) некоторыми
свойствами (параметрами, характеристиками, показателями и т.п.). При этом для
разных объектов значение одноименного параметра может быть различным, но
выбирается из одного множества возможных значений, называемого словарем
(классификатором, доменом).
Естественное понятие однородных (однотипных) объектов с информационной точки
зрения может быть формально определено как множество объектов, для которых
имеет смысл одно и то же полное множество параметров.
2. При информационном моделировании на ЭВМ предметная область отображается
в компьютерные данные следующим образом:
 каждому параметру объекта предметной области соответствует данное, значению
параметра у конкретного объекта - значение данного в записи, соответствующей
этому объекту. Идентификатор (имя, название и т.п.) объекта также представляется
как данное, но данное особого назначения - оно идентифицирует и запись (входит в
идентификатор) и называется ключевым данным записи (по крайней мере, входит в
ключ);
 описание множества однотипных объектов с определенной стороны (по некоторой
группе параметров) представляется в виде файла, причем одному объекту в файле
соответствует одна либо несколько записей. Одному объекту предметной области
будет соответствовать несколько записей в файле в том случае, если по упомянутой
группе параметров необходимо хранить несколько экземпляров описаний (за разные
периоды времени, по технологическим переходам и т.п.);
 полная информация об объектах предметной области (всестороннее описание
объектов) хранится в системе взаимосвязанных файлов, называемой базой данных.
Взаимосвязь файлов отражает взаимосвязь объектов разных типов и различных
описаний внутри одного типа.
Необходимость хранения и эффективного использования информационной модели
предметной области явилась одной из основных (наряду с обеспечением
независимости программ от структуры хранения данных) причин возникновения
концепции БД и использования СУБД.
Под структурой
данных будем понимать совокупность информационных
элементов и связей между ними.
Под моделью данных будем понимать соответствующих тип структуры данных и
типовые операции по управлению данными.
28. Модели данных. Классические модели данных (плоская, иерархическая,
сетевая)
С возникновением концепции баз данных получила развитие теория структуризации
данных, были определены типовые модели данных:  иерархическая,
 сетевая,  реляционная модель.
Структура данных - совокупность информационных элементов и связей между
ними.
Моделью данных называется формализованное описание структуры единиц
информации и операций над ними в информационной системе.
Модель данных — это некоторая абстракция, в которой отражаются самые важные
аспекты функционирования выделенной предметной области, а второстепенные —
игнорируются. Модель данных включает в себя набор понятий для описания
данных, связей между ними и ограничений, накладываемых на данные. В модели
данных различают три главные составляющие:
ƒ структурную часть, определяющую правила порождения допустимых для данной
СУБД видов структур данных;
ƒ управляющую часть,
определяющую возможные операции над такими
структурами;
ƒ классы ограничений целостности данных, которые могут быть реализованы
средствами этой системы.
Линейная модель данных
Свойства линейной структуры:
 элементами линейной структуры являются простые данные (данные, разделение
которых на составляющие не имеет смысла).
 каждое данное имеет имя (идентификатор) и множество возможных значений,
задаваемое словарем, диапазоном или правилом формирования;
 множество данных, составляющих линейную структуру, описывает множество
однотипных объектов;
 все экземпляры линейной структуры (записи) однородны:
-порядок следования данных во всех экземплярах структуры один и тот же;
-размер и тип данного одного имени во всех экземплярах структуры одинаковы.
Разные данные могут иметь различные размеры и типы;

линейной структуре в информационных системах соответствует файл
однотипных записей;
 среди элементов можно выделить так называемые ключевые данные, которыми
являются одно либо несколько данных, значения которых однозначно определяют
каждый экземпляр структуры. Такой ключ называют также первичным.
Иерархическая структура данных
По определению иерархической считается связь, когда каждому экземпляру
элемента одного типа можно поставить в соответствие несколько экземпляров
элементов второго типа.
Элемент, каждому экземпляру которого можно поставить в соответствие несколько
экземпляров второго, называется старшим. Иерархическую связь формально
определяют как 1:М (один ко многим).
Элементами иерархической структуры являются линейные структуры.
В иерархической структуре элемент, являющийся подчиненным, в связи с одним
элементом может быть старшим, в связи с другим элементом. Любой элемент может
иметь более одного типа подчиненного элемента.
Сетевая модель данных
Элементами сетевой структуры данных являются линейные структуры. Для сетевой
структуры справедливы все положения, характеризующие
иерархическую
структуру (иерархическая структура является частным случаем сетевой), а кроме
того допускается:
 наличие более одной связи между двумя элементами
 подчиненный может иметь более одного старшего
 циклические подструктуры
 более одной связи между экземплярами одного типа
Следует заметить, что в полном объеме сетевая структура не поддерживается ни
одной реально действующей СУБД. Она была определена как универсальная
структура, позволяющая реализовать информационную модель практически любой
предметной области.
29.Реляционная модель данных. Основные понятия. Нормализация отношений.
Реляционная база данных — это конечный (ограниченный) набор отношений.
Отношения используются для представления сущностей, а также для представления
связей между сущностями. Отношение — это двумерная таблица, имеющая
уникальное имя и состоящая из строк и столбцов, где строки соответствуют
записям, а столбцы — атрибутам. Каждая строка в таблице представляет
некоторый объект реального мира или соотношения между объектами.
Атрибут — это поименованный столбец отношения. Свойства сущности, его
характеристики определяются значениями атрибутов.
Порядок следования
атрибутов не влияет на само отношение. Отношение строится с учетом ряда
факторов. Каждому имени атрибута Аi, 1 ≤ i ≤ n ставится в соответствие множество
допустимых для соответствующего столбца значений.
Это множество
Di
называется доменом данного имени атрибута.
Каждая строка отношения является множеством значений, взятых по одному из
домена каждого имени атрибута. Домены являются произвольными непустыми
конечными или счетными множествами и образуют множество: D = D1 ∪ D2 ∪ ... ∪
Dn.
Отношение r со схемой R — это конечное множество отображений {t1, t2, ... tp) из
R в D. Причем каждое отображение t∈ r должно удовлетворять следующему
ограничению: t(Ai) принадлежит Di, где 1 ≤ i ≤ n
Эти отображения называются кортежами. Каждый кортеж отношения отображает
экземпляр сущности, а атрибут отношения отображает атрибут сущности.
Множество кортежей называется телом отношения. Тело отношения отражает
состояние сущности, поэтому во времени оно постоянно меняется. Тело отношения
характеризуется кардинальным числом, которое равно количеству содержащихся в
нем кортежей.
Одной из главных характеристик отношения является его степень. Степень
отношения определяется количеством атрибутов, которое в нем присутствует.
Нормализация отношений
Требование нормализации отношений направлено на обеспечение та-кой их
структуры, которая исключает некорректное обновление значений некоторых
атрибутов и ошибки в выполнении определенных операций выборки.
Первая нормальная форма
Отношение удовлетворяет первой нормальной форме (1НФ), если все его атрибуты
атомарны (неделимы), т.е. среди атрибутов нет составных или с множественными
значениями.
Вторая нормальная форма
Отношение удовлетворяет второй нормальной форме (2НФ), если оно
удовлетворяет 1НФ и не содержит атрибутов, зависящих от части ключа.
Приведение отношения ко 2НФ (нормализация по 2НФ) заключается в разбиении
исходного отношения на два, одно из которых включает атрибуты ключа исходного
отношения и атрибуты, зависящие от полного ключа, а второе – атрибуты
зависящего от части ключа вместе с атрибутами этой части.
Третья нормальная форма
Отношение удовлетворяет третьей нормальной форме (3НФ), если оно
удовлетворяет 2НФ, и среди его неключевых атрибутов нет зависящих от другого
неключевого атрибута (нет атрибутов,
транзитивно зависящих от ключа).
Приведение отношения к 3НФ (нормализация по 3НФ) заключается в разбиении
исходного отношения на два, одно из которых есть исходное отношение без
атрибутов, зависящих от неключевого атрибута. Второе отношение состоит из
атрибута, от которого в исходном отношении зависели исключенные атрибуты (оно
станет ключом в новом отношении) плюс атрибуты, исключенные из исходного
отношения.
Для реляционных баз данных необходимо, чтобы все отношения базы данных
обязательно находились в 1НФ. Нормальные формы более высокого порядка могут
использоваться разработчиками по своему усмотрению. Однако следует стремиться
к тому, чтобы довести уровень нормализации базы данных хотя бы до ЗНФ, тем
самым, исключив из базы данных избыточность данных и аномалии обновления.
30.Операции реляционной алгебры. Реляционное исчисление.
Большинство работающих языков запросов основано на реляционном исчислении.
Реляционные исчисления — непроцедурные системы. Исчисления выражают
только то, каким должен быть результат вычисления, но не то, каким образом
проводить вычисления. Эта обязанность возлагается на процессор языка запросов
данной СУБД.
Различают реляционное исчисление кортежей и реляционное исчисление доменов.
Поскольку реляционное исчисление доменов сходно с реляционным исчислением
кортежей за исключением того, что переменные принимают значения в доменах, а
не являются кортежами, а исчисление кортежей используется чаще, рассмотрим
только исчисление кортежей. В дальнейшем, когда речь будет идти о реляционном
исчислении, будет подразумеваться именно реляционное исчисление кортежей.
Реляционное исчисление кортежей является, по сути, формализацией системы
обозначений, предназначенной для образования множеств. В реляционном
исчислении используются булевы операции (И, ИЛИ, НЕ) над условиями,
которые могут быть истинными или ложными. В нем также используются кванторы
существования и всеобщности, означающие, соответственно, что элемент
определенного типа существует или что условие истинно для каждого элемента
определенного типа.
Восемь основных операций над отношениями реализуются в реляционной модели
данных:
• пять традиционных операций над множествами - объединение, пересечение,
разность, декартово произведение, деление;
• три специальные реляционные операции –
проекции, выбора (селекции) и соединения.
Объединением двух совместимых по объединению отношений R1 и R2 является
отношение R3, содержащее множество всех кортежей, принадлежащих или R1, или
R2, или обоим вместе.
Пересечением двух совместимых по объединению отношений R1 и R2 является
отношение R3, содержащее кортежи, принадлежащие как R1, так и R2.
Разностью двух совместимых по объединению отношений R1 и R2 является
отношение R3, кортежи которого принадлежат R1, но не принадлежат R2 (т.е.
кортежи из R1, которых нет в R2).
Декартовым произведением отношения А и отношения В является отношение С, со
схемой равной объединению схем отношений А и В, кортежи которого получены
путем конкатенации (присоединения) каждого кортежа отношения В с каждым
кортежем отношения А.
Операция деления одного отношения на другое отношение может быть выполнена,
если все множество атрибутов делителя является подмножеством атрибутов
делимого. Результирующее отношение содержит только те атрибуты делимого,
которых нет в делителе. В него включаются только те кортежи, декартово
произведение которых с делителем содержится в делимом.
Проекция – это операция построения нового отношения путем выбора одних и
исключения других атрибутов из исходного отношения.
Выбор (селекция) – операция получения нового отношения с той же схемой, что и
исходное отношение, но кортежи которого являются подмножеством кортежей
исходного. В него включаются только те кортежи исходного отношения, значения
определенных атрибутов которых удовлетворяют заданным ограничениям.
Соединением отношения А по атрибуту Х с отношением В по атрибуту Y
называется множество всех кортежей, являющихся конкатенацией таких кортежей а
и кортежей b, для которых выполняется условие Х * Y (под * понимается одна из
операций сравнения). Х и Y должны быть определены на одном и том же домене.
31.Языки манипулирования данными SQL и QBE (общие сведения).
Практически одновременно с реляционной моделью данных были предложены
два языка манипулирования реляционными данными:
 язык структурированных запросов – Structured Query Language – SQL;
 запрос по образцу – Query-by-Example (QBE).






В начале более перспективным считался QBE, как наиболее близкий к
пользовательскому интерфейсу (заполнение таблицы в основном соответствующей
исходному отношению), однако с течением времени наибольшее распространение
получил SQL, ставший в настоящее время по существу стандартом для реляционных
СУБД, особенно СУБД, работающих в технологии клиент-сервер.
SQL с самого начала являлся полным языком БД, обеспечивающим помимо средств
формулирования запросов и манипулирования БД следующие возможности:
средства определения и манипулирования схемой БД;
средства определения ограничений целостности и триггеров;
средства определения представлений БД;
средства определения структур физического уровня, поддерживающих эффективное
выполнение запросов;
средства авторизации доступа к отношениям и их полям67);
средства определения точек сохранения транзакции и выполнения фиксации и
откатов транзакций.
Данные, хранящиеся в столбцах таблиц SQL-ориентированной базы данных,
являются типизированными, т. е. представляют собой значения одного из типов
данных, предопределенных в языке SQL или определяемых.
Язык Query-by-Example
Специфика QBE заключается в том, что запрос на обработку формулируется
путем заполнения пустой таблицы, в основном соответствующей исходному
отношению, информация из которой необходима для ответа на запрос.
Дополнительные столбцы могут появиться, если в результирующей таблице
необходим столбец, значение которого является константой, либо вычисляется на
основе значений из нескольких столбцов исходной таблицы. Первый столбец
таблицы-запроса соответствует исходному отношению в целом и в заголовке
содержит имя исходного отношения.
В заголовках других столбцов таблицы–запроса располагаются
имена
атрибутов, а в строках – различные элементы запроса, относящиеся к
соответствующим атрибутам.
Для QBE не существует какого-либо стандарта в записи запросов.
32.Использование SQL для создания и актуализации баз данных,
формирования представлений, хранимых процедур и триггеров, запросов к
базе данных.
Три́ггер (англ. trigger) — это хранимая процедура особого типа, которую
пользователь не вызывает непосредственно, а исполнение которой обусловлено
действием по модификации данных: добавлением INSERT, удалением DELETE
строки в заданной таблице, или изменением UPDATE данных в определенном
столбце заданной таблицы реляционной базы данных. Триггеры применяются для
обеспечения целостности данных и реализации сложной бизнес-логики. Триггер
запускается сервером автоматически при попытке изменения данных в таблице, с
которой он связан. Все производимые им модификации данных рассматриваются
как выполняемые в транзакции, в которой выполнено действие, вызвавшее
срабатывание триггера. Соответственно, в случае обнаружения ошибки или
нарушения целостности данных может произойти откат этой транзакции.
Момент запуска триггера определяется с помощью ключевых слов BEFORE
(триггер запускается до выполнения связанного с ним события; например, до
добавления записи) или AFTER (после события). В случае, если триггер вызывается
до события, он может внести изменения в модифицируемую событием запись
(конечно, при условии, что событие — не удаление записи). Некоторые СУБД
накладывают ограничения на операторы, которые могут быть использованы в
триггере (например, может быть запрещено вносить изменения в таблицу, на
которой «висит» триггер, и т. п.)
33.Системы управления базами данных. Общие свойства СУБД. Обобщенная
схема обмена данных с использованием СУБД.
(СУБД) — специализированные программные средства, предназначен-ные для
организации и ведения баз данных.
СУБД используется для обеспечения эффективного доступа к базе данных со
стороны программ (предоставление только необходимой информации, обеспечение
независимости от возможных изменение в структуре той части базы данных,
которую не обрабатывает программа), по существу она исполняет функции
операционной системы по управлению данными. Схема иллюстрирует это
положение.
В зависимости от способа взаимодействия СУБД и программы обработки либо
в программу передается очередная запись требуемой структуры, не зависимо от
того, где физически в БД расположены данные, составляющие требуемую
структуру, либо для программы создается временный файл требуемой структуры.
А B C
СУБД
ПO 1
А B C
ПК 1
А
С
В
А D
ПO 2
А B C G
А
D
F G
А C D F G
ПК 2
ПO 3
СУБД
А D E
ПO 6
Общие свойства СУБД
1. СУБД включает язык определения данных, с помощью которого можно
определить базу данных, ее структуру, типы данных, а также средства задания
ограничений для хранимой информации.
2. СУБД позволяет вставлять, удалять, обновлять и извлекать информацию из
базы данных посредством языка управления данными.
3. Большинство СУБД могут работать на компьютерах с разной архитектурой и
под разными операционными системами, причем на работу пользователя тип
платформы влияния не оказывает.
4. Многопользовательские СУБД имеют достаточно развитые средства
администрирования БД.
5. СУБД предоставляет контролируемый доступ к базе данных с помощью:
ƒ системы обеспечения безопасности;
ƒ системы поддержки целостности базы данных;
ƒ системы управления параллельной работой приложений;
системы
восстановления.
34.Типовые информационные процедуры, реализуемые СУБД.
1. Определение структуры создаваемой базы данных, ее инициализация и
проведение начальной загрузки. Данная процедура позволяет описать и создать в
памяти структуру таблицы, провести начальную загрузку данных в таблицы.
2. Предоставление пользователям возможности манипулирования данными
(выборка необходимых данных, выполнение вычислений, разработка интерфейса
ввода/вывода, визуализация).Такие возможности в СУБД представляются либо на
основе использования специального языка программирования, входящего в состав
СУБД, либо с помощью графического интерфейса.
3. Обеспечение независимости прикладных программ и данных (логической и
физической независимости).Обеспечение логической независимости данных
предоставляет возможность изменения логического представления базы данных без
необходимости изменения физических структур хранения данных. Обеспечение
физической независимости данных предоставляет возможность изменять способы
организации базы данных в памяти ЭВМ не вызывая необходимости изменения
"логического" представления данных.
4. Защита логической целостности базы данных.
Основной целью реализации этой функции является повышение достоверности
данных в базе данных. Достоверность данных может быть нарушена при их вводе в
БД или при неправомерных действиях процедур обработки данных, получающих и
заносящих в БД неправильные данные.
5. Защита физической целостности.
Развитые СУБД имеют средства восстановления базы данных, ведение журнала
транзакций.
6. Управление полномочиями пользователей на доступ к базе данных.
7. Синхронизация работы нескольких пользователей.
Коллизии(одновременной обращение к одним данным) могут привести к
нарушению логической целостности данных, поэтому система должна
предусматривать меры, не допускающие обновление данных другим пользователям,
пока работающий с этими данными пользователь полностью не закончит с ними
работать.
8. Управление ресурсами среды хранения.
9. Поддержка деятельности системного персонала.
При эксплуатации базы данных может возникать необходимость изменения
параметров СУБД, выбора новых методов доступа, изменения (в определенных
пределах) структуры хранимых данных, а также выполнения ряда других
общесистемных действий.
35.Общие сведения о СУБД первого поколения (IMS-ОКА, ADABAS, IDSБанк ОС), реляционных СУБД (FoxPro, Access), СУБД, обеспечивающих
технологию клиент-сервер (ORACLE, MS SQL, MY SQL).
Первые СУБД появились в конце 60-х годов, расцвет их применения приходится
на 70-е начало 80-х годов. В то время на первый план выступала способность СУБД
хранить данные сложной структуры и значительного объема и использовать
установленные связи между информационными элементами при проектировании
приложений. Другое важное достоинство - это обеспечение относительной
независимости программ от структур хранения. Первые СУБД были ориентированы
на программистов. Интерфейс с такими СУБД осуществлялся путем обращения к
программе – СУБД из программы приложения, написанной на одном из базовых
языков программирования и такие системы стали называть системами с базовым
языком. При этом СУБД выполняла лишь простые операции выборки записей,
удовлетворяющих определенным условиям и в определенной последовательности, а
также включения, замены и удаления записей. Но все эти операции осуществлялись
с учетом зафиксированной структуры БД, что существенно сокращало
алгоритмическую часть
программы, касающуюся согласованной выборки
связанных записей, и снижало риск нарушения структурной целостности БД.
IMS (Information Management System ) являлись весьма распространенными
СУБД, обеспечивающими хранение и доступ к БД иерархической структуры.
Элементом структуры является сегмент, который может состоять из одного или
нескольких полей. Поле может иметь тип: символьный или числовой. Сегменты
одного типа имеют единую для этого типа внутреннюю структуру и размер, в том
числе фиксированные размеры и типы
одноименных полей в различных
реализациях сегментов.
БД сложной логической структуры может быть разнесена в 10 физических
наборов данных (файлов). IMS поддерживает 4 способа физической организации
БД: иерархический последовательный метод доступа; иерархический индекснопоследовательный метод доступа; иерархический индексно-прямой метод доступа и
иерархический прямой.
Система IMS(ОКА) является системой с базовым языком.
Единицей обмена между прикладной программой и БД является реализация
сегмента определенного типа (с подсоединенными ключами старших сегментов) или
совокупности реализаций сегментов, расположенных в одной иерархической ветви.
Система обеспечивает выполнение всех типичных для СУБД функций: вставку,
замену, удаление и чтение реализаций сегментов.
Система ID
СУБД IDS обеспечивают хранение и доступ к БД с сетевой структурой.
Основной структурной единицей, обеспечивающей в конечном счете сетевую
структуру любой сложности, является цепь. В цепь объединяются информационно
зависимые логические записи.
Запись представляет собой основную единицу информации и состоит из полей
данных и служебных полей.
Служебные поля предназначены для идентификации записи и организации цепей
с помощью адресных ссылок.
Информационные поля могут содержать числовые и символьные данные и
имеют имена.
Записи одного типа содержат одноименные данные и имеют фиксированную
длину, равно как и одноименные поля. Записям одного типа присваиваются
уникальное имя и тип. Записи адресуются в БД с помощью адресных ссылок,
состоящих из номера «страницы» БД и номера байта начала записи на «странице».
Цепи образуются с помощью адресных ссылок, хранящихся в записи и
указывающих на следующую запись в этой цепи. Каждый цепи присваивается
уникальное имя. Каждая запись может входить в любое количество цепей.
Система также обеспечивает типовые операции доступа к данным – запоминание,
выборку, модификацию и удаление записей из программ, написанных на
классических языках программирования.
Система ADABAS
ADABAS сочетает в себе возможности СУБД с базовым языком и системы
замкнутого типа и обеспечивает поддержание ограниченных сетевой и
иерархической структур. БД в ADABAS является совокупностью связанных данных,
организованных в виде файлов.
Реализованное в системе динамическое
установление связей между записями различных файлов позволяет создавать
межзаписные иерархические и сетевые структуры. ADABAS осуществляет поиск по
запросам пользователей записей в БД. Доступ к хранимым данным, обработку
данных и выдачу результатов в виде справок и сводок заданной формы. Запросы
вводятся в диалоговом режиме с видеотерминалов и в пакетном режиме в образе
перфокарт. Языки запросов высокого уровня ориентированы на пользователейнепрограммистов. Обеспечивается и мультидоступ к БД.
ADABAS дает возможность обращаться к БД и из прикладных программ,
написанных на АССЕМБЛЕРЕ, КОБОЛе, ФОРТРАНе и PL/1, в том числе под
управлением телемонитора.
Система FoxPro
СУБД FoxPro обеспечивает возможность работы в трех режимах:
• выполнение откомпилированных программ, написанных на языке СУБД
(xBASE-язык);
• выполнение команд языка xBASE или команд SQL в режиме интер-претации;
• обработка баз данных в экранном интерфейсе (без предварительного
программирования и без знания команд языка xBASE).
База данных FoxPro состоит из совокупности взаимосвязанных файлов, каждый из
которых может быть представлен в виде таблицы. Запись файла соответствует
строке таблицы, поле – столбцу таблицы. Файл и поля имеют имена –
идентификаторы назначаемые при первоначальном создании файла.
Все записи одного файла однотипны, имеют фиксированную длину, потому как
одноименные поля во всех записях имеют один и тот же размер и тип значения. В
одной записи (строке таблицы) у одного поля может быть только единственное
значение. В файле (таблице) не может быть двух одинаковых записей. Одно либо
несколько полей являются ключом записи. Значение ключа уникально.
Файлы могут быть связаны друг с другом:
• Возможные виды связей 1 : 1, 1 : М, М : 1, M : N:
Система Access
СУБД Access является СУБД реляционного типа, в которой разумно
сбалансированы все средства и возможности, типичные для современных СУБД. В
отличии от FoxPro, в Access все данные вместе с запросами и формами физически
хранятся в одном файле.
База данных Microsoft Access состоит из следующих объектов:
таблицы, запросы, формы, отчеты, макросы, модули.
Поскольку, как правило, система управления базами данных обрабатывает
одновременно несколько таблиц, то существует возможность установления
реляционных связей между таблицами.
Клиент-сервер
При использовании клиент-серверной технологии, на самом сервере,
содержащим базу данных, функционирует некоторое программное обеспече-ние,
которое называется "Сервером баз данных" или "Сервером БД". Клиент-серверная
СУБД позволяет обмениваться клиенту и серверу минимально необходимыми
объёмами информации. При этом основная вычислительная нагрузка ложится на
сервер. Клиент может выполнять функции предварительной обработки перед
передачей информации серверу, но в основном его функции за-ключаются в
организации доступа пользователя к серверу. Таким образом, архитектура клиентсервер адаптирована для работы с большими объемами данных - сеть нагружается
меньше, требования к пользовательским компьютерам, с точки зрения
производительности, минимизируется. Однако возрастают требования к серверу,
содержащему базу данных, поскольку теперь он один тянет нагрузку всех
пользователей. Клиент-серверная СУБД располагается на сервере вместе с БД и
осуществляет доступ к БД непосредственно, в монопольном режиме. Все
клиентские запросы на обработку данных обрабатываются клиент-серверной СУБД
централизованно. Недостаток клиент-серверных СУБД состоит в повышенных
требованиях к серверу. Достоинства: потенциально более низкая загрузка локальной
сети; удобство централизованного управления; удобство обеспечения таких важных
характеристик как высо-кая надёжность, высокая доступность и высокая
безопасность.
Примеры: Oracle, Firebird, Interbase, IBM DB2, Informix, MS SQL Server, Sybase
Adaptive Server Enterprise, PostgreSQL, MySQL, Cache.
36.Информационные системы, основанные на БД и СУБД. Физическая
организация базы данных; хешированные, индексные файлы; защита баз
данных; целостность и сохранность баз данных.
Физические модели баз данных определяют способы размещения данных в среде
хранения и способы доступа к этим данным, которые поддерживаются на
физическом уровне.
Хэширование
Достаточно популярным подходом к организации индексов является использование
техники хэширования. Общей идеей методов хэширования является применение к
значению ключа некоторой функции свертки (хэш-функции), вырабатывающей
значение меньшего размера. Значение хэш-функции затем используется для доступа
к записи. В самом простом, классическом случае свертка ключа используется как
адрес в таблице, содержащей ключи и записи. Основным требованием к хэшфункции является равномерное распределение значение свертки. При
возникновении коллизий (одна и та же свертка для нескольких значений ключа)
образуются цепочки переполнения. Главным ограничением этого метода является
фиксированный размер таблицы. Если таблица заполнена слишком сильно или
переполнена, но возникнет слишком много цепочек переполнения, и главное
преимущество хэширования – доступ к записи почти всегда за одно обращение к
таблице – будет утрачено. Расширение таблицы требует ее полной переделки на
основе новой хэш-функции (со значением свертки большего размера).
Индексные файлы
Основное назначение индексов состоит в обеспечении эффективного прямого
доступа к записи таблицы по ключу. Индексный файл — это файл особого типа, в
котором каждая запись состоит из двух значений: данных и указателя. Данные
представляют поле, по которому производится индексирование, а указатель
осуществляет связывание с соответствующим кортежем индексированного файла.
Если индексирование осуществляется по ключевому полю, то индекс называется
первичным. Такой индекс к тому же обладает свойством уникальности, т. е. не
содержит дубликатов ключа.
Основное преимущество использования индексов заключается в значительном
ускорении процесса выборки данных, а основной недостаток — в замедлении
процесса обновления данных. Действительно, при каждом добавлении новой записи
в индексированный файл потребуется также добавить новый индекс в индексный
файл.
Защита баз данных; целостность и сохранность баз данных
Одним из основных требований к развитым СУБД является надежность хранения
баз данных. Это требование предполагает, в частности, возможность восстановления
согласованного состояния базы данных после любого рода аппаратных и
программных сбоев. Очевидно, что для выполнения восстановлений необходима
некоторая дополнительная информация. В подавляющем большинстве современных


реляционных СУБД такая избыточная дополнительная информация поддерживается
в виде журнала изменений базы данных. Поскольку основой поддержания
целостного состояния базы данных является механизм транзакций, журнализация и
восстановление тесно связаны с понятием транзакции. Общими принципами
восстановления являются следующие:
результаты зафиксированных транзакций должны быть сохранены в
восстановленном состоянии базы данных;
результаты
незафиксированных
транзакций
должны
отсутствовать
в
восстановленном состоянии базы данных.
Возможны два основных варианта ведения журнальной информации. В первом
варианте для каждой транзакции поддерживается отдельный локальный журнал
изменений базы данных этой транзакцией. Эти локальные журналы используются
для индивидуальных откатов транзакций и могут поддерживаться в оперативной
памяти. Кроме того, поддерживается общий журнал изменений базы данных,
используемый для восстановления состояния базы данных после мягких и жестких
сбоев. Этот подход позволяет быстро выполнять индивидуальные откаты
транзакций, но приводит к дублированию информации в локальных и общем
журналах. Поэтому чаще используется второй вариант - поддержание только общего
журнала изменений базы данных, который используется и при выполнении
индивидуальных откатов.
37. Проектирование баз данных. Проектирование с использованием метода
сущность – связь, средства поддержки проектирования (ERWin).
Проектирование баз данных — процесс создания схемы базы данных и определения
необходимых ограничений целостности
Модель «сущность-связь»(англ. “Entity-Relationshipmodel”)или ER-модель является
наиболее известным представителем класса семантических (концептуальных,
инфологических) моделей предметной области. ER-модель обычно представляется в
графической форме
Основные преимущества ER-моделей:
 наглядность;
 модели позволяют проектировать базы данных с большим количеством объектов и
атрибутов;
 ER-модели реализованы во многих системах автоматизированного проектирования
баз данных (например, ERWin).
Основные элементы ER-моделей:
 объекты (сущности);
 атрибуты объектов;
 связи между объектами.
Сущность — объект предметной области, имеющий атрибуты.
Связь между сущностями характеризуется:
 типом связи (1:1, 1:N, N:М);
 классом принадлежности. Класс может быть обязательным и необязательным. Если
каждый экземпляр сущности участвует в связи, то класс принадлежности —
обязательный, иначе — необязательный.
38. Традиционные методики проектирования БД, современная интеграционная
методика проектирования.
39. Проектирование системы баз данных на принципах единой информационной
среды. &
43. Единая информационная среда.
Под информационной средой будем понимать систему, объединяющую:
- корпоративную вычислительную сеть,
обеспечивающую технические и
технологические аспекты ИКТ (собственно сеть, компьютеризированные рабочие
места и аудитории)
- информационные ресурсы (собственные и внешние) и сервисы, используемые в
управлении, в собственно образовательной и научно-исследовательской
деятельности
- программное обеспечение (базовое, системное, специальное)
Функционирование, а тем более развитие, любого направления деятельности в
настоящее время не мыслимо без широкого использования информационнокоммуникационных технологий (ИКТ), поэтому вопросы развития информационной
среды (ИС) университета охватывают не только 5 и 8, но все другие направления
ИОП и имеют первостепенное значение.
Особенности вуза, влияющие на создание современной ИС
1) вуз имеет в функциональной части (логистике) специфические образовательную,
научно-исследовательскую и административно-хозяйственную сферы деятельности
(уникальное оборудование и программы);
2) информация является и ресурсом и инструментом и результатом деятельности, в
связи с чем, появляется два вида взаимосвязанных информационных ресурсов – для
управления и для технологии (собственно деятельности), определяется особая роль
документа как основного носителя информации и все возрастающая роль
менеджмента знаний (интеграция);
3) основными объектами информационной модели являются личности, они также
могут выступать и как исходный ресурс, и как предмет (объект) деятельности, и как
производитель (субъект) и как конечный продукт деятельности (интеграция);
4) кадровый состав сотрудников таков, что значительная часть имеет возраст 50 и
более лет и недостаточность состава от 30 до 50 лет (повышение квалификации как
базовой, так и специальной).
40. Современные направления использования баз данных.
Новые направления использования БД связаны, в основном:
- с повсеместным использованием корпоративных и глобальных вычислительных
сетей;
- со значительной «историей» функционирования информационных систем.
Первое направление (работа в сети), в свою очередь, связано:
- с проблемами параллельной (одновременной) работы многих, удаленных
приложений (пользователей) с одной и той же БД (новые проблемы комплексного
использования информации, теперь уже баз данных);
- со стремлением повышения надежности и эффективности работы
информационных систем за счет распределения данных и их обработки между
узлами сети.
Второе направление (накопление информации) приводит:
- к необходимости интеграции данных и приложений созданных в разные периоды
времени, в различных информационно-программных средах (ОС, СУБД,
инструментальных средствах);
- к новым подходам к использованию «исторических» данных (Warehouse , OLAP ,
DataMining , Managementknowledge)
Проблема одновременной (параллельной) работы пользователей с одной БД прежде
всего связывается с реализацией файл-серверной и клиент-серверной
технологиями удаленной работы с БД.
В обоих случаях это сетевая технология с выделением в сети сервера – спец
компьютер с большой памятью, где размещается БД, но:
Технология файл-сервер
При обращении программы к данным БД сервера ВСЯ БД передается ПО СЕТИ на
рабочую станцию, где и осуществляется обработка (как правило отбор необходимой
информации из большой БД). В итоге, кроме того, что рабочая станция д.б.
достаточно мощным ПК (СУБД там работает) и просмотр большого числа записей
БД - ПЕРЕГРУЗКА СЕТИ.
Технология клиент-сервер
Программа на рабочей станции (клиентская часть) обращается к БД (к SQLсерверу).с запросом, как правило на языке SQL - это м.б. несколько десятков строк.
Выборка данных осуществляется на мощной машине сервера с помощью серверной
части – программы СУДБ (MS SQL, MySQL и др.) и возвращается ответ – м.б. один
или несколько экранов.
В итоге, сеть не загружена, рабочая станция м.б.не такой мощной, проще
организовать распределенную обработку и защиту данных, оптимизировать работу
БД
Проблема файл-серверной технологии – перегрузка сети и необходимость мощной
рабочей станции (компьютера пользователя) в связи с тем, что БД целиком
перемещается по сети к каждой рабочей станции и вся обработка осуществляется на
ней.
При стандартной 2-х уровневой технологии клиент- сервер основная обработка
осуществляется на сервере (как правило – SQL-сервер) – все, что можно «выжать»
из SQL – делается на мощной машине сервера.
41. Распределенные базы данных и распределенная обработка.
Под распределенной (DistributedDataBase - DDB) обычно подразумевают базу
данных, включающую фрагменты из нескольких баз данных, которые
располагаются на различных узлах сети компьютеров, и, возможно управляются
различными СУБД. Распределенная база данных выглядит с точки зрения
пользователей и прикладных программ как обычная локальная база данных. В этом
смысле слово "распределенная" отражает способ организации базы данных, но не
внешнюю ее характеристику.
Основная задача систем управления распределенными базами данных состоит
в обеспечении средства интеграции локальных баз данных, располагающихся в
некоторых узлах вычислительной сети, с тем, чтобы пользователь, работающий в
любом узле сети, имел доступ ко всем этим базам данных как к единой базе данных
При этом должны обеспечиваться:
- простота использования системы;
возможности автономного функционирования при нарушениях связности сети
или при административных потребностях;
- высокая степень эффективности.
Перечислим основные принципы создания и функционирования распределенных
БД:
 прозрачность размещения данных для пользователя (пользователю распределенная
БД должна представляться точно так же, как и нераспределенная);
 изолированность пользователей друг от друга (на работу одного пользователя с БД
не должна влиять работа других пользователей с ней);
 синхронизация БД и непротиворечивость состояния данных в любой момент
времени.
Дадим
более
подробный
перечень
принципов
распределенной
БД,
сформулированных К. Дейтом:
1.Локальная автономия. Это качество означает, что управление
данными на каждом из узлов распределенной системы выполняется локально. База
данных, расположенная на одном из узлов, является неотъемлемым компонентом
распределенной системы. Будучи фрагментом общего пространства данных, она в то
же
время функционирует как полноценная локальная база данных, а управление ею
осуществляется локально, независимо от других узлов системы.
2.Независимость узлов. Все узлы равноправны и независимы, а расположенные на
них БД являются равноправными поставщиками данных в общее пространство
данных. База данных на каждом из узлов полностью защищена от
несанкциониро­ванного доступа.
3.Непрерывность операций. Это возможность непрерывного доступа к данным в
рамках распределенной БД вне зависимости от их расположения и вне зависимости
от операций, выполняемых на локальных узлах.
4.Прозрачность расположения. Пользователь, обращающийся к БД, ничего не
должен знать о реальном, физическом размещении данных в узлах информационной
системы.
5.Прозрачная фрагментация. Возможность распределенного (т. е. на различных
узлах) размещения данных, логически представляющих собой единое целое.
Существует фрагментация двух типов: горизонтальная и вертикальная. Первая
означает, что строки таблицы хранятся на различных узлах. Вторая означает
распределение столбцов логической таблицы по нескольким узлам.
6.Прозрачное тиражирование. Тиражирование данных — это асинхронный процесс
переноса изменений объектов исходной базы данных в базы, расположенные на
других узлах распределенной системы.
7.Обработка распределенных запросов. Возможность выполнения операций
выборки данных из распределенной БД, посредством запросов, сформулированных
на языке SQL.
8.Обработка распределенных транзакций. Возможность выполне­ния операций
обновления распределенной базы данных, не нарушающих целостность и
согласованность данных. Эта цель достигается применением двухфазного протокола
фиксации транзакций.
9.Независимость от оборудования. Это свойство означает, что в качестве узлов
распределенной системы могут выступать компью­теры любых моделей и
производителей.
10. Независимость от операционных систем. Это качество вытекает из предыдущего
и означает многообразие операционных систем, управляющих узлами
распределенной системы.
11. Прозрачность сети. Доступ к любым базам данных осуществляется по сети.
Спектр поддерживаемых конкретной СУБД сетевых протоколов не должен быть
ограничением системы, основан­ной на распределенной БД.
12. Независимость от СУБД. Это качество означает, что в распределенной системе
могут работать СУБД различных производителей, и возможны операции поиска и
обновления в базах данных различных моделей и форматов.
Выделились несколько самостоятельных технологий распределенной обработки
данных:
* клиент-сервер;
* реплицирования;
* объектного связывания.
Можно выделить следующие идеи, лежащие в основе технологии клиент-сервер:
*общие для всех пользователей данные, расположенные на одном или нескольких
серверах;
* множество пользователей, осуществляющих доступ к общим
данным.
Одним из важнейших преимуществ архитектуры клиент-сервер яв­ляется снижение
сетевого трафика при выполнении запросов. Клиент посылает запрос серверу на
выборку данных, запрос обрабатывается сервером, и клиенту передается не вся
таблица (как было бы в техно­логии файл-сервер), а только результат обработки
запроса.
Построение быстродействующих информационных систем обеспе­чивают
технологии репликации данных.
Репликой называют копию БД, размещенную на другом компьюте­ре сети
для автономной работы пользователей. Основная идея репликации заключается в
том,
что
пользователи
работают
автономно
с
общими
данными,
растиражированными по локальным базам данных. Производительность работы
системы повышается из-за отсутствия необходимости обмена данными по сети. Для
реализации технологии репликации программное обеспечение СУБД дополняется
функциями тиражирования данных, их структуры, системной информации,
информации о конфигурировании распределенной системы.
Технология объектного связывания данных решает задачу обеспечения
доступа из одной локальной БД, открытой одним пользователем, к данным другой
локальной БД, возможно, находящейся на другом компьютере, открытой другим
пользователем.
42. Понятие транзакции и параллельная обработка. OLTP, OLAP, Data Mining
технологии.
Под транзакцией понимается неделимая с точки зрения воздействия на БД
последовательность операторов манипулирования данными (чтения, удаления,
вставки, модификации) такая, что либо результаты всех операторов, входящих в
транзакцию, отображаются в БД, либо воздействие всех этих операторов полностью
отсутствует. При
завершении транзакции оператором COMMIT результаты гарантированно
фиксируются во внешней памяти; при завершении транзакции оператором
ROLLBACK результаты гарантированно отсутствуют во внешней памяти.
Типы транзакций:
 Неделимые транзакции- транзакции, в которых все действиявыполняются до конца,
либо ни одно из них не выполняется.
 Прерванные транзакции- транзакции, приведшие к отказу до внесенияизменений в
базу данных.
OLTP (On-LineTransactionProcessing) – системы оперативной обработки транзакций.
OLTP-системы предназначены для ввода, структурированного хранения и обработки
информации (операций, документов) в режиме реального времени.
Использование:
OLTP-приложениями охватывается широкий спектр задач во многих отраслях —
автоматизированные банковские системы, банковские и биржевые операции, в
промышленности — регистрация прохождения детали на конвейере, фиксация в
статистике посещений очередного посетителя веб-сайта, автоматизация
бухгалтерского, складского учёта и учёта документов и т. п. Приложения OLTP, как
правило, автоматизируют структурированные, повторяющиеся задачи обработки
данных, такие как ввод заказов и банковские транзакции. OLTP-системы
проектируются, настраиваются и оптимизируются для выполнения максимального
количества транзакций за короткие промежутки времени
OLAP (англ. onlineanalyticalprocessing, аналитическая обработка в реальном
времени) — технология обработки данных, заключающаяся в подготовке суммарной
(агрегированной) информации на основе больших массивов данных,
структурированных по многомерному принципу.
Причина использования OLAP для обработки запросов — это скорость.
Термин DataMining обозначает не столько конкретную технологию, сколько сам
процесс поиска корреляций, тенденций, взаимосвязей и закономерностей
посредством различных математических и статистических алгоритмов:
кластеризации, создания субвыборок, регрессионного и корреляционного анализа.
Цель этого поиска — представить данные в виде, отражающем бизнес-процессы, а
также построить модель, при помощи которой можно прогнозировать процессы,
критичные для планирования бизнеса (например, динамику спроса на те или иные
товары или услуги либо зависимость их приобретения от каких-то характеристик
потребителя).
DataMining– это процесс обнаружения в сырых данных ранее неизвестных,
нетривиальных, практически полезных и доступных интерпретации знаний,
необходимых для принятия решений в различных сферах человеческой
деятельности.
Суть и цель технологии DataMining можно охарактеризовать так: это технология,
которая предназначена для поиска в больших объемах данных неочевидных,
объективных и полезных на практике закономерностей.
Еще несколько определений понятия DataMining.
DataMining – это процесс выделения из данных неявной и неструктурированной
информации и представления ее в виде, пригодном для использования.
DataMining – это процесс выделения, исследования и моделирования больших
объемов данных для обнаружения неизвестных до этого структур (patterns) с целью
достижения преимуществ в бизнесе (определение SAS Institute).
DataMining – это процесс, цель которого - обнаружить новые значимые корреляции,
образцы и тенденции в результате просеивания большого объема хранимых данных
с использованием методик распознавания образцов плюс применение
статистических и математических методов (определение GartnerGroup).
43. Единая информационная среда.
Под информационной средой будем понимать систему, объединяющую:
- корпоративную
вычислительную
сеть,
обеспечивающую
технические
и
технологические аспекты ИКТ (собственно сеть, компьютеризированные рабочие
места и аудитории)
- информационные ресурсы (собственные и внешние) и сервисы, используемые в
управлении,
в
собственно
образовательной
и
научно-исследовательской
деятельности
- программное обеспечение (базовое, системное, специальное)
Функционирование, а тем более развитие, любого направления деятельности в
настоящее время не мыслимо без широкого использования информационнокоммуникационных технологий (ИКТ), поэтому вопросы развития информационной
среды (ИС) университета охватывают не только 5 и 8, но все другие направления
ИОП и имеют первостепенное значение.
Особенности вуза, влияющие на создание современной ИС
1) вуз имеет в функциональной части (логистике) специфические образовательную,
научно-исследовательскую и административно-хозяйственную сферы деятельности
(уникальное оборудование и программы);
2) информация является и ресурсом и инструментом и результатом деятельности, в
связи с чем, появляется два вида взаимосвязанных информационных ресурсов – для
управления и для технологии (собственно деятельности), определяется особая роль
документа как основного носителя информации и все возрастающая роль
менеджмента знаний (интеграция);
3) основными объектами информационной модели являются личности, они также
могут выступать и как исходный ресурс, и как предмет (объект) деятельности, и как
производитель (субъект) и как конечный продукт деятельности (интеграция);
4) кадровый состав сотрудников таков, что значительная часть имеет возраст 50 и
более лет и недостаточность состава от 30 до 50 лет (повышение квалификации как
базовой, так и специальной).
44. Базы знаний.
Развитие систем БД первоначально было мотивировано потребностью в
эффективных средствах хранения, манипуляции и извлечения большого количества
разнообразных данных. По достижению этих целей возникла дополнительная
потребность: возможность задавать ИС правила, применяемые к хранимым фактам
(данным), позволяющие выводить из них другие факты. Включение знаний в
систему БД было подсказано исследованиями в области искусственного интеллекта
(ИИ), которая занимается вопросом о том, как запрограммировать разумное
поведение. Разработки в области ИИ включали исследования представлений
логических правил, применяемых к данным.
Экспертные системы — это особый раздел ИИ, посвященные представлению
правил и процедур, которым следует специалист, решая задачи в конкретной
предметной области.
Экспертные системы — системы, моделирующие процесс принятия решений
специалистами в разных предметных областях. Однако Экспертные системы не
являются базами знаний, т.к. не обеспечивают полные возможности управления
данными, присущие СУБД. Например, язык экспертных систем — язык ПРОЛОГ.
Является мостом
между БД и базами знаний. Он основан на исчислении предикатов, которые могут
рассматриваться как реляционные таблицы, в нем также есть возможность
выражения логики, которой пользуется человек, преобразуя факты из БД в
информацию, помогающую принимать решения. Однако этот язык не обеспечивает
необходимый набор
возможностей СУБД —обработка транзакций, резервное копирование и
восстановление,
управление
вспомогательными
ЗУ.
DATA-LOG
и
LogicalDataLanguage (LDL, логический язык данных), расширенные версии
ПРОЛОГа, призванные решить эти проблемы, находятся в стадии разработки.
Система управления базами знаний. Система, обладающая всеми стандартными
возможностями системы управления базой данных, касающихся хранения данных и
манипуляций ими, а также средствами создания правил вывода, их хранения и
применения к хранимым таблицам данных.
Основанная на знаниях система. Альтернативный термин для системы управления
базой знаний. Система базы знаний (СБЗ) — это компьютерная система, имеющая
следующие составляющие:
1. БД, содержащая основные факты.
2. БД, содержащая правила, которые позволяют делать выводы из БД
фактов.
3. Программное обеспечение, называемое системой управления базой
знаний(СУБД), которое поддерживает обычные функции СУБД, а такжеуправление
процессом вывода а БД правил, оперирующих базой данных фактов. Наиболее
активно развивающиеся области СБЗ: создание высокоскоростного оборудования,
на котором выполняются операции с правилами; методы автоматического
поддержания смысловой целостности баз знаний, в которых применяются правила,
основанные на формальной логике, совершенствование способов применения
логики к рассуждениям о знаниях, содержащих неопределенности, предположения и
время.
Примеры:
Факт, хранящийся в БД фактов
Поставщик Иванов находится в Томске
Информация более высокого уровня:
Поставщик Иванов надежен
Второе основано на выводах, полученных на основе разных данныхфактов (сопоставление дат закупок и дат поставок, и т.д.).
1.
2.
3.
4.
45. Хранилища данных. Базы данных большого объема.
Хранилище данных (англ. DataWarehouse) — предметно-ориентированная
информационная база данных, специально разработанная и предназначенная для
подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в
организации. Строится на базе систем управления базами данных и систем
поддержки принятия решений. Данные, поступающие в хранилище данных, как
правило, доступны только для чтения. Данные из OLTP-системы копируются в
хранилище данных таким образом, чтобы построение отчётов и OLAP-анализ не
использовал ресурсы транзакционной системы и не нарушал её стабильность. Как
правило, данные загружаются в хранилище с определённой периодичностью,
поэтому актуальность данных может несколько отставать от OLTP-системы.
Принципы организации хранилища:
Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в
соответствии с областями, которые они описывают, а не с приложениями, которые
они используют.
Интегрированность. Данные объединены так, чтобы они удовлетворяли всем
требованиям предприятия в целом, а не единственной функции бизнеса.
Некорректируемость. Данные в хранилище данных не создаются: т.е. поступают из
внешних источников, не корректируются и не удаляются.
Зависимость от времени. Данные в хранилище точны и корректны только в том
случае, когда они привязаны к некоторому промежутку или моменту времени.
Существуют два архитектурных направления – нормализованные хранилища
данных и хранилища с измерениями.
В
нормализованных
хранилищах, данные находятся в предметно
ориентированных таблицах третьей нормальной формы. Нормализованные
хранилища характеризуются как простые в создании и управлении, недостатки
нормализованных хранилищ – большое количество таблиц как следствие
нормализации, из-за чего для получения какой-либо информации нужно делать
выборку из многих таблиц одновременно, что приводит к ухудшению
производительности системы.
Хранилища с измерениями используют схему «звезда» или схему «снежинка».
При этом в центре «звезды» находятся данные (Таблица фактов), а измерения
образуют лучи звезды. Различные таблицы фактов совместно используют таблицы
измерений, что значительно облегчает операции объединения данных из нескольких
предметных таблиц фактов (Пример – факты продаж и поставок товара). Таблицы
данных и соответствующие измерениями образуют архитектуру «шина». Измерения
часто создаются в третьей нормальной форме, в том числе, для протоколирования
изменения в измерениях. Основным достоинством хранилищ с измерениями
является простота и понятность для разработчиков и пользователей, также,
благодаря более эффективному хранению данных и формализованным измерениям,
облегчается и ускоряется доступ к данным, особенно при сложных анализах.
Основным недостатком является более сложные процедуры подготовки и загрузки
данных, а также управление и изменение измерений данных.
Сверхбольшая база данных (англ. VeryLargeDatabase, VLDB) — это база данных,
которая занимает чрезвычайно большой объём на устройстве физического хранения.
Термин подразумевает максимально возможные объёмы БД, которые определяются
последними достижениями в технологиях физического хранения данных и в
технологиях программного оперирования данными.
Download