деректер қоймасы және оның мәселелері

advertisement
В.В.Яворский, А.Ж.Кинтонова
БЕКМАНОВА Г.Т., НИЦЕНКО А.В., ШАРИПБАЕВ А.А., ШЕЛЕПОВ В.Ю.
АЛГОРИТМЫ РАСПОЗНАВАНИЯ КАЗАХСКОГО СЛОВА КАК ЦЕЛОГО
(Евразийский национальный университет им. Л.Н. Гумилева, г. Астана)
В статье рассмотрена предварительная обработка речевого сигнала, а также построение системы признаков слова
для распознавания слов по эталонам с помощью алгоритма DTW. Рассматривается техника построения кодовой книги и
алгоритм ступенчатого распознавания. Представлена структурная классификация слов казахского языка.
СТРУКТУРНАЯ КЛАССИФИКАЦИЯ СЛОВ КАЗАХСКОГО ЯЗЫКА
1. Предварительная обработка речевого сигнала
Отрезок речи, вводимый с микрофона, оцифровывается с частотой 22050 кГц. В
соответствующий буфер заносится 10 тысяч чисел:
y1 , y2 ,..., y10000
(1.1)
- значения напряжения на выходе микрофона в последовательные моменты времени (Эти
моменты времени будем называть отсчетами). Сам ряд чисел (2.1.1) и соответствующую функцию
y(i)  yi
(1.2)
будем называть сигналом. Таким образом, числа (2.1.1), в конечном счете, отражают изменение
давления на мембрану микрофона как функцию времени. На экран монитора может быть выведен
график сигнала, как функции времени (визуализация сигнала).
Напомним, что сглаживанием сигнала мы называем обработку его 3-точечным скользящим
фильтром
yi 
yi 1  yi  yi 1
,
3
i  2,3,...,9999
Дальнейшая работа происходит с поточечной разностью исходного и десятикратно сглаженного
сигнала. Это позволяет в некоторой степени "очистить" его от индивидуального тембра говорящего и
тем самым сделать шаг в направлении дикторонезависимости системы распознавания. Далее, если не
оговорено противное, под сигналом будем понимать указанную разность и, чтобы не усложнять
обозначений, считать, что (1.1) и (1.2) соответствуют именно ей.
2. Построение системы признаков. Представление слова
Пусть l - число отсчетов между двумя соседними локальными максимумами функции (2.1.2)
(назовем сужение функции на соответствующий интервал полным колебанием). Если максимумы не строгие, то под l будем понимать число отсчетов от начала первого максимума до начала второго.
Определим величину z:
z=l,
2  l<20,
l  20
, 20  l<50,
6
l  50
z=25 +
, 50  l<90,
10
z=29, l  90.
z=20 +
45
В.В.Яворский, А.Ж.Кинтонова
Ближайшее целое число, не превосходящее z, назовем длиной соответствующего полного
колебания. Таким образом, длина полного колебания учитывается тем более точно, чем оно короче.
Выделим участок сигнала и обозначим через n общее число полных колебаний на этом участке,
через
n1 - число полных колебаний длины 2,...,через n28
- число полных колебаний длины 29.
Поставим в соответствие выделенному участку вектор
x1,..., x28 ,  
(2.1)
где xk = nk / n , k  1,2,...28 ,  - отношение амплитуды (разность наибольшего и
наименьшего значений) рассматриваемого участка сигнала к амплитуде всего сигнала. Величина 
вводится для того, чтобы надежно отделить паузу от значащей части сигнала, а нормировка ее
делается, чтобы отвлечься от громкости произносимого. Вектор признаков, подобный (2.1), при
распознавании русских слов предложен в [1].
Разобьем записанный сигнал в 10 тысяч отсчетов на отрезки по 368 отсчетов в каждом
(удвоенный квазипериод основного тона для мужского голоса средней высоты). Для каждого из 27ми полных отрезков вычислим вектор (2.1). Последний неполный отрезок просто отбросим. В
результате мы представляем сигнал в виде траектории, то есть последовательности 27-ми точек в 29мерном пространстве:
A  ( a1 , a 2
,..., a27 ).
2. Распознавание слов по эталонам. Алгоритм DTW
К сожалению, распознавание чистых, произнесенных изолированно, звуков мало что дает для
распознавания слов. Это связано с тем, что артикуляторные органы человека обладают инерцией. Их
положение в данный момент в значительной степени определяется их конфигурацией в
предшествующий и последующий моменты времени. Поэтому реализация звука в конкретной
речевой ситуации очень сильно зависит от его окружения. Отсюда следует, что перспективен подход
к распознаванию слова как целого. Вместе с тем, пофонемное распознавание, которое является
более сложным, является возможным, а при распознавании больших словарей даже необходимым.
Пофонемному распознаванию посвящен ряд дальнейших разделов, а сейчас мы займемся проблемой
распознаванием слова как целого.
Пусть некоторая реализация слова принимается за эталон. Как изложено в предыдущем разделе,
мы представляем ее в виде набора 27-ми 29-мерных векторов:
E  (e1, e2 ,..., e27 )
(3.1)
Такой эталон записывается для каждого из слов распознаваемого словаря.
Пусть теперь
A  (a1 , a2 ,..., a27 )
(3.2)
- представление слова, которое подлежит распознаванию. Естественно было бы разумным
образом определить расстояние между двумя наборами вида (3.1), (3.2), так, чтобы, вычислив
расстояние набора (3.2) до всех эталонов, объявить результатом распознавания то слово из словаря,
эталон которого является ближайшим.
Выберем для определенности за расстояние между векторами сумму модулей разностей
соответствующих координат ( l1 -метрика). Тогда казалось бы естественным определить расстояние
между наборами (3.1), (3.2) как сумму расстояний векторов с одинаковыми номерами. Однако, это
нецелесообразно по следующей причине. На самом деле при вычислении расстояния между двумя
реализациями одного и того же слова нужно было бы сравнивать между собой вектора, относящиеся
к одинаковым звукам. Но темп произнесения слова может быть различным. Кроме того, он может
меняться на протяжении слова. Можно сказать "Алма", а можно сказать "Алма-а".
Разрешить эту трудность помогает следующий алгоритм, восходящий к Т.К. Винцюку [2] и
получивший название алгоритма Dynamic Time Warping или DTW-алгоритма (Динамическое
деформирование времени). Обозначим расстояние между векторами
через
Dij
и для всех 1  i,
j  27 определим величину Cij :
46
ei
и
aj
наборов (3.1), (3.2)
В.В.Яворский, А.Ж.Кинтонова
C11  D11 ,
Ci1  Di1  Ci 11 ,
C1 j  D1 j  C1 j 1
Сij  Dij  min( Ci 1 j , Cij1 , Ci 1 j 1 ) ,
,
(3.3)
2  i, j  27 .
Это определение расстояния между частью сигнала, соответствующего (3.1), от начала до i -го
отрезка включительно и частью сигнала, соответствующего (3.2), от начала до j -го отрезка
включительно. Тогда расстояние между полными сигналами определяется как
С 27, 27 . Для того,
чтобы понять смысл этого определения, обозначим через ~ отношение соответствия между
векторами из набора (3.1) и векторами из набора (3.2), которое определяется следующим образом:
e27 ~ a27
Далее, если
ei ~ a j , то в случае, когда минимум
Сi1 j 1 , полагаем
в (2.3.3) есть
ei 1 ~ a j 1 ;
если минимум есть Сij1 , полагаем
ei ~ a j 1 ;
если минимум есть Сi 1 j , полагаем
ei 1 ~ a j
A
E
Рис. 1 – Ломаная, описывающая соответствия между векторами
На рисунке 1 приведен пример соответствия: центры квадратов, отвечающих
соответствующим векторам соединены прямолинейными отрезками. Наличию вертикального отрезка
отвечает случай, когда несколько векторов набора (3.2) соответствуют одному вектору набора (3.1).
Наличию горизонтального отрезка отвечает случай, когда несколько векторов набора (3.1)
соответствуют одному вектору набора (3.2). DTW-расстояние между наборами (3.1) и (3.2)
определяется по формуле (2.3.3) при i  j  27 . При этом, если, двигаясь влево и вниз, выразить
47
В.В.Яворский, А.Ж.Кинтонова
это расстояние, через расстояния
Dij
между векторами наборов (3.1) и (3.2), то в результате будут
проссумированы только расстояния между соответствующими векторами.
Таким образом, алгоритм DTW обеспечивает выравнивание акустически наиболее близких
кусков сигнала и их сравнение. Распознавание с помощью этого алгоритма сводится к вычислению
DTW-расстояния исследуемого слова до всех эталонов и объявления результатом распознавания того
слова словаря, эталон которого оказывается ближайшим. Отметим, что DTW-расстояние не является
метрикой, ибо, как нетрудно показать, для него не выполняется неравенство треугольника.
4. Построение усредненных эталонов
С целью уменьшения зависимости системы распознавания от диктора нами была применена
процедура усреднения эталонов, наговоренных несколькими дикторами. Пусть
E  (e1, e2 ,..., e27 )
A  (a1, a2 ,..., a27 )
(4.1)
(4.2)
два эталона одного и того же слова, причем для общности будем считать, что эталон E уже
получен путем усреднения эталонов, наговоренных n дикторами, а A -эталон n+1-го диктора. Берем
вектор ei и пусть a j ,...,a j  k - все соответствующие ему вектора из набора (4.2) в описанном
выше смысле. Тогда полагаем
ei =
n
1 a j  ...  a j k
ei +
k
n 1
n 1
.
Проделав это для всех i=1,2,...27, мы получим результат усреднения эталонов для n+1 дикторов:
Коэффициенты
 
E e1, e2 ,, e27
n
n 1
,
1
n 1
введены для того, чтобы сделать всех дикторов равноправными. При этом по мере увеличения
числа n изменения, вносимые новыми дикторами, становятся все меньше. Та же самая процедура
позволяет усреднять несколько эталонов одного диктора с целью увеличения их надежности.
Эффективность этой процедуры становится особенно наглядной, если применить ее к усреднению
эталонов различных слов. Так, например, она позволяет научить компьютер воспринимать каждое
слово строчки
"Буря мглою небо кроет"
как символ 0, а каждое слово строчки
"Вихриснежные крутя"
как символ 1, построив для них соответствующие усредненные эталоны.
5. Кодовая книга и техника ее построения
Хранение описанных выше эталонов, содержащих произвольные вектора, требует большого
количества памяти. Существенно уменьшить ее и получить в то же время значительный выигрыш в
скорости распознавания позволяет использование вместо произвольных векторов сравнительно
небольшого множества так называемых кодовых векторов. Эти последние используются для
приближения произвольных векторов и составляют кодовую книгу. Кодовые вектора называют
также словами кодовой книги.
Для построения кодовой книги размера M используют так называемый метод K-средних.
1. Инициализация:
Из числа L обучающих векторов произвольно выберем M векторов в качестве начального
множества слов кодовой книги.
2. Поиск ближайшего соседа:
Для каждого обучающего вектора найдем ближайший вектор кодовой книги. Множество
обучающих векторов, "тяготеющих" в этом смысле к одному и тому же кодовому вектору, назовем
соответствующей ему клеткой.
48
В.В.Яворский, А.Ж.Кинтонова
3. Модернизация с помощью центроида:
Для каждой клетки заменим соответствующий кодовый вектор
центроидом (средним)
множества обучающих векторов, попавших в эту клетку.
4. Итерирование:
Повторяем шаги 2 и 3 до тех пор, пока сумма расстояний всех обучающих векторов до
соответствующих кодовых слов не перестанет уменьшаться более чем на величину заранее заданного
порога.
Хотя описанный способ построения кодовой книги работает достаточно хорошо, было показано,
что целесообразней строить кодовую книгу, шаг за шагом увеличивая ее размерность. Начинать с
книги с одним кодовым вектором и последовательно удваивать число кодовых векторов, используя
метод расщепления. Эта процедура носит название бинарного расщепляющего алгоритма и может
быть описана следующим образом:
1. Создаем кодовую книгу из одного слова, приняв за него центроид множества всех обучающих
векторов.
2. Удваиваем размер кодовой книги, расщепляя каждый кодовый вектор согласно правилу
y1  (1   ) y
y2  (1   ) y
Здесь  - параметр расщепления со значением от 0,01 до 0,05.
3. Используем алгоритм K-средних, чтобы получить наилучшее множество кодовых векторов
для кодовой книги удвоенного размера.
4. Повторяем шаги 2 и 3 вплоть до получения кодовой книги необходимого размера.
Очевидно, размерность кодовой книги, построенной таким образом, является степенью числа 2.
6. О распознавателе, использующем кодовую книгу
Способ построения эталонов с использованием кодовой книги состоит в замене каждого из 27
векторов, входящих в эталон, ближайшим кодовым вектором (в смысле описанной выше метрики l1 ).
Тогда появляется возможность хранить эталон в виде последовательности номеров соответствующих
кодовых векторов. Это, даже с учетом необходимости хранения кодовой книги, дает при достаточно
большом словаре очень значительную экономию памяти. Далее процесс распознавания строится
следующим образом. Распознаваемое слово, записывается в виде набора 27 произвольных
(некодовых) векторов. Затем строится таблица расстояний этих векторов до всех векторов кодовой
книги. Далее вычисляются DTW-расстояния рассматриваемого слова до всех эталонов. При этом
расстояния между векторами берутся из упомянутой таблицы, а не вычисляются каждый раз как это
было, когда не использовалась кодовая книга. Это требует значительно меньше времени. Таким
образом, достигается очень значительный выигрыш, как в скорости распознавания, так и в объеме
необходимой памяти.
7. Алгоритм ступенчатого распознавания
Если распознается большой словарь и число эталонов велико, то распознавание путем полного
сравнения сказанного с каждым из них - процесс слишком долгий. Ускорить его, одновременно
повысив надежность распознавания, позволяет предложенный нами "Алгоритм ступенчатого
распознавания". Опишем его на примере словаря в 2630 наиболее употребительных русских слов.
Суть его состоит в следующем. Вначале сказанное слово сравнивается со всеми эталонами на основе
DTW, но при этом в распознавании участвуют только первые 2 тысячи отсчетов. Результатом
является список 50-ти ближайших слов - кандидатов (это число может меняться в зависимости от
объема исходного словаря. Для упомянутого словаря в 2630 слов оно, по-видимому, является
оптимальным.) Далее распознавание ведется в пределах этого списка с использованием первых 4
тысячи отсчетов, в результате чего список кандидатов уменьшается вдвое. Затем то же
последовательно делается для отрезков в 6 тысяч, 8 тысяч и, наконец, 10 тысяч отсчетов. К этому
алгоритму, который обеспечивает более быстрое и надежное распознавание больших словарей, мы
пришли следующим образом. Вначале была сделана система, которая работала с голосовым вводом
при предварительном выделении достаточно короткого отрезка распознаваемого словаря путем
набора на клавиатуре одного, двух или трех начальных символов вводимого слова. Убедившись в
49
В.В.Яворский, А.Ж.Кинтонова
высокой надежности такого способа, мы обратили внимание, что при этом распознаются близкие
слова (слова с похожим началом). Распознавание же слов с различным началом должно быть еще
более надежным и для выделения этого начала достаточно распознавание на укороченном начальном
отрезке.
8. Структурная классификация слов казахского языка
В этом параграфе приводятся некоторые установленные нами факты, статистического характера
о структуре казахских слов. Они, как нам кажется, интересны сами по себе и, кроме того, могут
служить для обоснования использования обобщенных транскрипций. Первоначальные результаты
такого сорта для русского языка [3] получены при участии Е.Е. Федорова.
Разобьем все символы казахского алфавита на несколько естественных классов
0) аұыоеәүіөу
1) бвгғджзйлмнңр
(8.1)
2) сш
3) кқптфх
Нулевой – гласные плюс согласный «У», при произнении которого голосовой тракт остается
открытым; первый – голосовые согласные; второй – глухие шипящие согласные; третий – глухие
согласные, которые при произношении выступают как пауза в слове. Пусть далее есть достаточно
большой словарь казахских слов. Сейчас у нас это будет словарь начальных форм объемом 41791
слово. Разметим его, заменяя каждый символ номером его класса. Вот отрезок размеченного таким
образом словаря:
iз 01
iзбасар 0110201
iзденушi 01101020
iздестiру 011023010
iздеу 01100
iздеуiш 0110002
iлiкпес 0103302
iлiм 0101
Про слова с одинаковой разметкой будем говорить, что они имеют одинаковую структуру.
Таким образом, структура – это некая модель чередования гласных, согласных, шипящих и т. д.
Оказывается, что в казахском языке слов с одинаковой структурой относительно мало. Вот,
например, все слова со структурой 01102301:
алжасқан 01102301
алмастыр 01102301
ойластыр 01102301
үндескен 01102301
алдаспан 01102301
А вот все слова со структурой 01010130:
ағарыңқы 01010130
амазонка 01010130
ұғыныңқы 01010130
И так далее. Максимальное число слов с одинаковой структурой 10101 равно 201, то есть около
0,5 процента. Причем это фактически исключительный случай. Все остальные структуры содержат
значительно меньше слов. Это доказано нами с помощью программы, которая автоматически делает
разметку и выбор слов с одинаковой структурой. Причем выбор классов (8.1) можно менять.
СПИСОК ЛИТЕРАТУРЫ
1. Засыпкин А.В., Мицевич А.Т., Овецкий М.В., Шелепов В.Ю. О дикторонезависимой системе
голосового телефонного номеронабирателя // Труды международной конференции “Знание-ДиалогРешение”.-Ялта.-1995.-С. 427-430.
2. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. - Киев: Наукова
думка. - 1987. - 262 с.
50
В.В.Яворский, А.Ж.Кинтонова
3. Шелепов В.Ю., Ниценко А.В.Структурная классификация слов русского языка. Новые
алгоритмы сегментации речевого сигнала и распознавания некоторых классов фонем //
Искусственный интеллект. – 2007. - №1. – С. 213-224.
Қазақ сөздерін бүтіндей тану. Қазақ тілі сөздерін құрылымдық сараптау
Мақалада DTW алгоритмі бойынша сөйлеу сигналдарын алдын ала өңдеу және сөздерді эталондар арқылы тану үшін
белгілер жүйесін тұрғызу қарастырылған. Кодтық кітапты құру және баспалдақты тану қарастырылған. Қазақ тілі сөздерін
құрылымдық сараптау көрсетілген.
The recognition algorithms of the isolated words of Kazakh language. Structural classification of the Kazakh words
In the paper a preprocessing algorithm of the speech signal were discussed, as well as the design of the set of features for the
recognition of words using the DTW algorithm. Also we exploit the technique for building the codebook and the algorithm of
hierarchical recognition. Finally, the structural classification of the Kazakh words is presented.
51
В.В.Яворский, А.Ж.Кинтонова
РУСТАМОВ Н.Т., ТЕМИРБЕКОВ А.Н., ТУРЕЖАНОВ С. К., КАНТУРЕЕВА М.А.
ИНТЕЛЛЕКТУАЛЬНАЯ ИНФОРМАЦИОННАЯ СИСТЕМА NS
(Евразийский национальный университет им. Л.Н. Гумилева, г. Астана)
В данной работе рассматриваются вопросы создания интеллектуальной информационной системы, основанной на
продукционной базе знаний. Приводятся некоторые операции над знаниями и решение прикладной задачи в области
медицинской диагностики.
На сегодняшний день от информационных технологий требуется нечто большее, чем быть
оргтехникой и средством связи. Возникает желание найти новые способы эффективного решения
возникающих проблем. Для этого есть пока одно направление-интеллектуализация информационных
технологий. Весь спектр типов задач, решаемых с помощью информационных технологий лежит в
пределах от структурированных задач до
неструктурированных. Большую группу в этой
совокупности составляют слабо структурированные задачи, решение которых связано с
определением количественных и качественных переменных. Данное обстоятельство привело к
необходимости создания программных средств, основанных как на традиционных методах
алгоритмической обработки данных, так и на методах создания и использования баз знаний [1].
Такими АС (автоматизированная система) являются экспертные системы (ЭС) и алгоритм поддержки
принятия решений (АППР). Основу ЭС составляет база знаний, хранящая множество фактов и набор
правил, полученных от экспертов и из специальных исследований. База знаний отличается от базы
данных тем, что если в базе данных единицы информации представляют собой интерпретированные
в определенном контексте сведения, то в базе знаний те же элементы уже связаны как между собой,
так и с понятиями внешнего мира, определенными соотношениями и сами содержат в себе эти
отношения, т.е. интерпретированы в информационном контексте [2].
Целью работы является создание интеллектуальной информационной системы (ИИС), выполняющей
функцию ЭС и АППР. АППР призваны помочь человеку в решении стоящей перед ним проблемы, а
ЭС–заменить человека при решении проблемы.
Метод решения. Допустим, что, создаваемую ИИС обозначим как NS. Прежде чем описать ход
создания NS, приведем те алгоритмы, на которых основана работа NS.
Алгоритм представления знаний.
1.На первом шаге алгоритм с помощью операции
Qj1, …, Qjq(j), находит Вj1, . . ., Вjuj из набора
данных (р) {1; 2;…}, где р – имя набора (введем обозначение  = {1; 2;…}), характеризующий
те свойства ПО Sj, которые составляют существенные стороны этого ПО. С помощью этих сторон мы
можем определить, что это то ПО.
2. На этом шаге алгоритм, с помощью операции Qj1, …, Qjq(j), находит из
набора данных (р)  ,
u, j
u, j
b1 ,..., bq (i ) , характеризующие те свойства Sj, с помощью которых, если они являются
информационными носителями, определяющие импликативные отношения со свойствами Вj1, . . .,
Вjuj .
3. После нахождения Вj1, . . ., Вjuj и b1u , j ,..., bqu(,ij) алгоритм производит семантическое описание Sj с
помощью ЯПЗ NS
 
I * ( K J ( S J )) :  кj
ие j
q (i )
 ( Buj   bcu , j )
c 1
ие j
k
где Buj  {B1j ,..., Bkj( j ) } ; bcu , j  {b1u , j ,..., bqu(,ij) }c
(1)
Формулу (1) можно написать в виде таблицы [3]. Здесь верхний индекс формулы  показывает
u, j
u, j
номер класса, нижний индекс номер знаний, содержащий (Вj1, . . ., Вjuj) и ( b1 ,..., bq (i ) ). Индексы
 , 0 , k 0 фиксируют номера (Вj1, . . ., Вjuj) соответствующие классу 1, l, j. Индекс с фиксирует номера
(Вj1, . . ., Вjuj) соответствующие  , 0 , k 0 ., причинно-следственно связанные с(Вj1, . . ., Вjuj), иеj –
информационная
единица
где
интерпретируются
52
(  1 ( x0 )
  2 ( x0 ) )  J x ( x0 )
или
В.В.Яворский, А.Ж.Кинтонова
Buj  {B1j ,..., Bkj( j ) } и bcu , j  {b1u , j ,..., bqu(,ij) }c . Ядро этой продукции будет << атомарным >> знанием.
А набор формул {  kj }
ие j
–семантическим описанием SJ в виде продукционных знаний.
Таким образом, языком представления продукционных знаний (ЯПЗ) будет следующее выражения
[4]:
(i) Q; P; AB; N
(2)
С помощью формулы (2) , при заданной иеj можно создать продук-ционную БЗ[3].
Алгоритм поддержки принятия решений (АППР).
1.
Определяется семантическая метрика в виде функции релевантносты для двух допустимых
ие
ие
продукционных знаний (ПЗ) {  uj } j , { j0 } j , т.е двух классов знаний I u (KJ (SJ)) и I  0 (KJ (SJ)).
1, если Buj  ( Buj ) ;
 (Ф , Ф 0 )   ( B , (B ) )  
случае
0, в противном
j
u
j
j
u
j
u 0
(3)
Если  ' (Фuj , Фj0 )  1, то алгоритм вычисляет  ' (Фuj , Фj0 ) , т.е. релевантность по b1u , j ,..., bqu(,ij) .

  (Фuj , Фj0 )  1
1, если 
u, j
u, j

b c  (bc ) 0

0  в противном
случае
На
этом
этапе
определяется
(4)
релевантность
информационных
объектов
I u ( K J ( S J ))
и
I 0 ( K J (S 0 )) . Понятно, что в этом случае  uj и j0 сравнивается с точки зрения информационной
единицы иеj. представленной в виде продукционных базы знаний.
2. На этом этапе вычисляется функция
Г 0 (Фuj )  W 0 Г 0 (Фuj , (bcu , j ) 0 )  W 0
J
1
h 0

c {}
u, j
c
C (Фuj , Фj )

W 0 - важность формулы ( Фj0 ); h 0  мощность множества i,..., i 0

u, j
c
 важность b
u, j
c
(5)
0

.
На этом этапе вычисляется число голосов, поданных за класс K j обьектом
Фuj : Г j (Фuj ) 
m( j )

  
0
u, j
Гj0 (Фuj , bсu , j )
(6)
Таким образом, на этом алгоритм строит числовую матрицу:
Г ij
gx
j
j
, Гij  Г (Фu ) ,
(7)
где  ij -вес u-го Вjuj в j - ом классе.
3. С помощью правила вывода (решающее правило) r А переходим к информационной матрице:
r A Г ij
gx
  ijA
gx
53
(8)
В.В.Яворский, А.Ж.Кинтонова
 
являющейся знанием о вхождении S в класс K j ,  ijA  1,0, , где символы 1,0,1
кодируются
соответственно в факты: Фj0  K j , Фj0 K j , неизвестно, принадлежит Фj0 к K j или нет.

Примем поддержку принятия решений в следующем простом виде: среди элементов
Г i ,..., Г j находим максимальный элемент max Г ij , тогда в строке 1Aj ,...,  ijА элемент  ijA



 



равен 1, остальные – 0. Если среди Г ij ,..., Г i нет максимального элемента, то и строка  iA ,...,  iА
состоит  . Когда в строке встречается  , это говорит что в
 
принадлежащей описанию Фkj
0
 
. При таком случае Фkj
0

Q

не существует знания
присоединяется к

Q
отмечается
появление в БЗ нового знания.
На базе этих алгоритмов спроектирован ИИС NS, и ее общая блок схема показана на рис.1:
Предмет
ная
область
Создание
База данных
информационного
 = {1; 2;…},
представления
ПО
(р) {1;
Пользова
тели
ЯУЗ
2;…}
ЯПЗ
(i) Q; P;
AB; N
База знаний
NSязык Рис.1. Общая блок схема ИИС NS
Таким образом, в ИИС NS предусмотрены следующие операторы обработки знаний [5], подсистема
приобретения знаний; база знаний; машина вывода; интерфейс пользователя; подсистема
объяснения; подсистема совершенствования вывода и “очищения” знаний и т.д. На рис. 2 показаны
основные интерфейсы ИИС NS:
Рис. 2. Основные интерфейсы ИИС NS
54
В.В.Яворский, А.Ж.Кинтонова
С помощью ИИС NS решена практическая задача, связанная с клиническим прогнозированием
морфологических и морфометрических изменений сосудов головного мозга при инсульте.
Постановку задачи и первичные материалы предоставили сотрудники кафедры «Патологическая
анатомия» Ташкентской Медицинской Академии (зав.каф. д.м.н., проф. Исраилов Р.И.), После
анализа этих материалов, был сделан к вывод, что причиной мозгового инсульта является сужение и
разрыв сосудов мозга. Причиной мозгового инсульта также может быть атеросклероз,
гипертоническая болезнь, аневризма и др., [6]. Для решения поставленной задачи мы построили
информационную модель мозгового инсульта. Для этого мозговой инсульт представили как
информационную совокупность, характеризующуюся набором свойств  . Далее это совокупность
состоит из нескольких информационных сущностей, образующих эту совокупность, и в свою очередь
имеющие соответствующие наборы свойств (атрибутов). Из динамичности процесса следует, что
именно набор свойств информационных сущностей порождает набор свойств информационной
совокупности, т.е. мозгового инсульта. Для представления информационной модели мы
воспользовались семантикой, предложенной в работе [7].
При этом, сущности классифицировались следующим образом. Стержневые сущности (семантика), характеризующие сущности (семантика -
), обозначающиеся сущности (семантика-
), и
ассоциативные сущности (семантика- ). Естественно, эти энергоинформационные сущности имеют
соответствующие атрибуты (семантика-
),
характеризующие свойства этих сущностей.
В нашем случае мозговой инсульт, как ПО будет множеством Х. Мы должны производит
семантическую обработку информацию J X (( X ))
о Х
и
определить, какие именно
характеризующие информационные сущности существенно влияют для порождению носителя
информации  ( X ) . Для этого опишем процесс появления мозгового инсульта, как образования
информационной совокупности из информационных сущностей(рис. 2):
 ( )
Х
Мозговой инсульт
J X (( x))
Обтурация или разрыв
сосуда
2 ( )
1 ( )
Гипертоническая
 3 ( )
Х3
Х1
болезнь
атеросклероз
 2 ( )
Х2
васкулит
Рис.2. Информационная модель образования мозгового инсульта
55
J X (( x))
В.В.Яворский, А.Ж.Кинтонова
 ( ) - мозговой инсульт; 1 ( ) - гипертония;  2 ( ) - воспаления;  3 ( ) - липидные бляшки; 2 ( )
- изменения морфометрии сосудов, здесь
1 ( )  1 ( x),  2 ( x1 ),..., 14 ( x), n  log 2 s N 1 1 ,  3 ( )  1 ( x3 ),...,  6 ( x) ,



( )  1 ( x),  2 ( x),...,  3 ( x).
Из рис.2 видно, что информация о мозговом инсульте J x (( x)) образуется с помощью трех
носителей

1 ( x1 )
информации
,

 2 ( x2 )
J x (( x))  J x1 ( 1 ( x1 )), J x2 ( 2 ( x 2 )), J x3 ( 3 ( x3 )) .

 3 ( x3 )
,

На базе J x (( x))  J x1 ( 1 ( x1 )), J x2 ( 2 ( x 2 )), J x3 ( 3 ( x3 ))
продукционная БЗ:
.
в ИИС NS проектирована
Продукционная БЗ
B
тип
ИЕ
Значения
кол
обш_кол
частота
Важность
B2
ЖГ
A1
a11
10
16
0,625
0,4
B2
ЖГ
a1
a12
5
16
0,3125
0,4
B2
ЖГ
a1
a14
1
16
0,0625
0,4
B2
ЖГ
a2
a21
1
16
0,0625
0,1
B2
ЖГ
a2
a22
9
16
0,5625
0,1
B2
ЖГ
a2
a23
3
16
0,1875
0,1
B2
ЖГ
a2
a24
2
16
0,125
0,1
B2
ЖГ
a2
a25
1
16
0,0625
0,1
B2
ЖГ
a3
a32
2
16
0,125
0,2
B2
ЖГ
a3
a33
4
16
0,25
0,2
B2
ЖГ
a3
a34
10
16
0,625
0,2
B2
ЖГ
a4
--
4
16
0,25
0,2
B2
ЖГ
a4
a41
1
16
0,0625
0,2
B2
ЖГ
a4
a42
5
16
0,3125
0,2
B2
ЖГ
a4
a43
6
16
0,375
0,2
B2
ЖГ
a5
a53
15
16
0,9375
0,3
B2
ЖГ
a5
a54
1
16
0,0625
0,3
56
т.е.
В.В.Яворский, А.Ж.Кинтонова
Теперь после проектирования базы знаний мы рассмотрим процедуру диагностики мозгового
инсульта.
Например, в клинику поступила(поступил) больная(больной) со следующими симптомами:
легкий порез ( 13 ), возраст 55 лет(  23 ), сознание на уровне оглушения (  32 ), реакция на свет
ослаблена (  42 ), САД =140/100 мм.рт.ст. (  52 ). Формальная запись состояния больного выглядит
следующим образом Sx = 13   23   32   42   52 . Результаты решения этой задачи с помощью ИИС
NS выглядят следующим образом:
Из таблицы видно, что третий столбец имеет наибольшее значение. Это говорит, что
поступивший больной имеет диагноз «ишемический инсульт».
СПИСОК ЛИТЕРАТУРЫ
1. Осипов Г.С. Динамика в системах, основанных на знаниях // Известия РАН. Теория и
системы управления. 1998. – №5. - С. 24-28.
2. Рустамов Н.Т. Формализация понятий данные, информация и онтология знаний
//Республиканская научно - практическая конференция. «Наука и производства». Жетысай,
т.1, 2009.- С.136- 146.
3. Рустамов Н.Т., Асабаев О.М., Кантуреева М.А. Особенности продукционных знаний.
Астана.// Вестник ЕНУ им. Л.Н. Гумилева, №4(65), 2008.-С.36-42.
4. Поспелов Д.А. Продукционные модели. Искусственный интеллект. –
Кн.2. Модели и
методы. М.: Радио и связь. 1990. -340с.
57
В.В.Яворский, А.Ж.Кинтонова
5. Рустамов Н.Т., Турежанов С. Продукционный метод создания системы управления базой
знаний. //Республиканская научно- практическая конференция. «Наука и производства».
Жетысай, т. 1.- 2009, С.275 – 284.
6. Исраилов Р.И. , Рустамов Н.Т., Рустамов Б.К. Математический метод
клинического
прогнозирования морфологических и морфометрических изменений сосудов головного мозга
при инсульте. Смоленск. Математическая морфология. Электронный математический и
медико - биологический журнал. – Т.8. – вып. 1. – 2009. - С. 7 -15.
7. Рустамов Н.Т., Ибраим М., Абдрахманов Р.Б.. Закономерности организационных успехов и
неудач. –Т.: Fan va texnologiya, 2009. -200с.
NS интеллектуалды ақпараттық жүйесі
Бұл жұмыста өнімді білім базасына негізделген интеллектуалды ақпараттық жүйені жасау қарастырылады. Медициналық
диагностика тұрғысында қолданбалы есептерді шығару және білімге кейбір амалдар қолдану көрсетілген.
Intellectual information system NS
In the given work the question of creation of intellectual information system based on the production base of the knowledge is
considered. Some operations over knowledge and the decision of an applied problem from area of medical diagnostics are holding
58
В.В.Яворский, А.Ж.Кинтонова
В.В. ЯВОРСКИЙ , А.Ж. КИНТОНОВА
УПРАВЛЕНИЕ ВУЗОМ
(Карагандинский государственный технический университет, г Караганда)
(АО «Финансовая академия», г Астана)
В этой работе рассматриваются цели функционирования вуза и иерархическая структура управления вузом.В работе
рассматриваются методы и средства анализа и корректировки сложившихся взаимосвязей управления, использование
которых позволяют создавать структуры, реагирующие на изменения окружающей среды и корректировку целей
управления.
Современный вуз представляет собой большую и сложную систему, которая определяется
большим числом входящих в ее состав подразделений, многоцелевым характером
функционирования, обусловленной большим числом направлений, по которым осуществляется
подготовка специалистов, и ведутся научные исследования.
Формирование элементарной структуры управления предполагает создание методов и средств
анализа и корректировки сложившихся взаимосвязей управления и прежде всего методов
формирования иерархий взаимосвязанных элементов системы, соответствующих дереву целей.
Использование этих методов позволяет создавать структуры, реагирующие на изменения
окружающей среды и корректировку целей управления[1].
Любая социально-экономическая система (в том числе и информационно-образовательная), с
точки зрения управления - это организация, имеющая многогранную, выраженную в виде идеологии,
законов и инструкций, цель существования, и так как для организации функционирования цель
необходимо структурировать: разбивать на подцели, практически неизбежно возникает
необходимость выделения отдельных уровней управления и элементов организации, отвечающих за
тот или иной участок деятельности.
Цель синтезирует внутреннюю и внешнюю целостность системы, определяет рациональную
структуру системы и ее функции.
Правильное определение и задание целей - главное для существования организационной
системы.
На основе определенных целей, строится стратегия и тактика управления системой,
формируется структура системы, которая предполагает наличие системы управления и объекта
управления. Система управления на основе целей определяет нормативную технологию и проекты
функционирования, распределяет ресурсы, контролирует и оценивает параметры функционирования
элементов.
Существует несколько уровней достижения организационного согласия. Наивысшая точка
развития этого процесса - полностью согласованная организация, когда цели всех элементов системы
и глобальная цель полностью согласованы, когда скрытые замыслы и негативные психологические
аспекты функционирования элементов системы полностью исключены[2].
Цель синтезирует внутреннюю и внешнюю целостность системы, определяет рациональную
структуру системы и ее функции.
При построении дерева целей вуза, рассматривая глобальную цель функционирования вуза
можно остановится на следующей ее формулировке – это подготовка в соответствии с
установленными нормами и стандартами специалистов, отвечающих требованиям рынка труда и
необходимости всестороннего развития личности, поддержание высокого уровня научнометодической и научно-технической деятельности для повышения конкурентоспособности
образования и развития научно-технического потенциала
при эффективном использовании
имеющихся ресурсов и обеспечении финансовой самостоятельности[4].
Можно выделить шесть основных продуктов деятельности подразделений вуза:
o
o
o
o
o
дипломированные специалисты и выпускники образовательных программ;
учебно-методическая продукция;
научные исследования;
результаты финансово-коммерческой деятельности;
культурно-массовые мероприятия;
59
В.В.Яворский, А.Ж.Кинтонова
o результаты хозяйственной деятельности.
В соответствии с этим можно сформулировать следующие цели второго уровня:
1. Выпуск специалистов в соответствии с установленными нормативами и требованиями рынка
труда.
2. Поддержание высокого уровня учебно-методической работы, при постоянном
совершенствовании методов и средств обеспечения учебного процесса.
3. Обеспечение научно-исследовательской работы для развития научно-технического
потенциала, повышения уровня и развития активных форм обучения, установления научнометодических связей с ведущими предприятиями по профилям вуза.
4. Обеспечение необходимой финансовой эффективности основных и дополнительных учебнообразовательных, научно-технических и прочих платных услуг.
5. Обеспечение высокого уровня спортивных и культурно-воспитательных мероприятий.
6. Обеспечение необходимого уровня и высокой эффективности строительных и ремонтных
работ, мероприятий по охране труда, благоустройству и содержанию материально-технических
средств.
Третий уровень дерева целей должен отражать требования основных систем,
взаимодействующих с вузом.
По 1 цели второго уровня такими системами являются следующие:
o министерство образования и науки;
o рынок труда и, прежде всего, базовые предприятия – потребители специалистов;
o территориальные органы управления;
o объект управления – факультеты и кафедры, обеспечивающие реализацию проектов
обучения;
o обучающиеся – как активный предмет деятельности вуза;
o система управления учебным процессом вуза.
o По 2 цели второго уровня основными взаимодействующими системами являются
следующие:
o министерство образования и науки и учебно-методические советы по специальностям;
o базовые предприятия;
o кафедры, обеспечивающие реализацию проектов обучения;
o система управления учебно-методической работой вуза.
По 3 цели второго уровня основными взаимодействующими системами являются следующие:
научно-технические потребности общества;
рынок научно-технической продукции;
заказчики научно-технической продукции;
кафедры и лаборатории вуза, реализующие научно-технические проекты;
обучающиеся, как активный предмет научно-технического развития вуза;
система управления научно-исследовательской деятельностью;
ведущие предприятия и организации по профилю вуза.
По 4 цели второго уровня основными взаимодействующими системами являются
следующие:
o рынок образовательных услуг;
o рынок научно-технических и прочих коммерческих услуг;
o кафедры и прочие структуры вуза, работающие по финансовым проектам вуза;
o предприятия во взаимодействии, с которыми университет осуществляет коммерческие
проекты;
o обучающиеся, как активный предмет финансовой деятельности;
o планово-финансовые органы управления вузом.
И так далее по конкретным отдельным целям второго уровня формируются цели третьего уровня
и, аналогичным образом - цели четвертого, пятого уровней. Таким образом формируется дерево
целей.
Для более детального определения задач управления необходимо описывать выполнение
комплекса работ, связанных с реализацией той или иной функции. Анализ общего дерева целей
o
o
o
o
o
o
o
o
60
В.В.Яворский, А.Ж.Кинтонова
позволяет выявить наиболее актуальные сферы деятельности вузов, после чего можно формировать
системы показателей деятельности вузов и построить дерево критериев.
Эффективное управление учебным процессом современных вузов невозможно без организации
системы многокритериальной оценки деятельности, которая должна включать четыре
функциональные составляющие: оценку работы кафедр и факультетов; анализ качества реализации
учебных планов; аттестацию профессорско-преподавательского состава; определение рейтинга и
анализ учебы студентов[3].
Исследование и анализ структур систем управления в организациях включает в себя
следующие этапы:
o выявление существующей структуры управления;
o определение характеристик деятельности отдельных элементов структуры;
o анализ целей, на достижение которых направлена деятельность элементов;
o определение изменений, которые следует произвести в структуре управления для повышения
эффективности функционирования.
На уровне системы управления организации имеют иерархическую структуру управления, это
является объективным требованием управления в соответствии с целями. Конкретный вид
иерархии системы определяется документацией, регламентирующей деятельность аппарата
управления. Однако нередко фактическая структура, проявляющаяся при функционировании,
отличается от нормативной (соответствующей дереву целей). Это объясняется, прежде всего, тем,
что в современной организации происходит постоянная корректировка целей управления. Таким
образом, отслеживание и описание фактической сложившейся иерархии элементов и ее
взаимосвязи
с
деревом
целей является
весьма важным материалом
для анализа и
совершенствования системы управления[4].
Обследование организаций можно производить анкетными методами, а в случае
реализованной интернет сети оно может быть дополнено экспертным анализом взаимодействия
элементов. Анкета для обследования должна быть простой и понятной и может регулярно
рассылаться сотрудникам по сети. В неё могут быть занесены примерно следующие основные
данные:
o непосредственный руководитель и частота его распоряжений;
o непосредственные подчиненные и характер взаимодействия с ними;
o характер участия руководителя в работе сотрудника;
o характер непосредственного руководства подчиненными.
В результате обработки такого рода анкет имеется возможность выявить существующую
структуру управления. Такую структуру можно представить графом G(Z, W), где Z - множество
структурных элементов (исполнителей, сотрудников, распорядительных центров), кодируемых
вершинами графа G, W - множество управляющих связей (дуг графа G).
Если граф G не является иерархическим деревом, то возникает задача анализа взаимосвязи графа
G с деревом целей и возможности преобразования этого графа к иерархической структуре.
Граф G приводится к иерархическому дереву способом описания связей между структурными
элементами (СЭ), предполагая, что каждая дуга графа характеризуется степенью подчиненности СЭ.
Другим способом приведения графа G к иерархической структуре является построение
укрупненного графа, получаемого объединением некоторых совокупностей СЭ в один. Укрупненный
граф можно представить в виде: СЭ1 - СЭ2 - СЭ3.
Выбор того или иного алгоритма построения многослойной иерархии следует осуществлять с
учетом специфики анализируемой организационной структуры. Наиболее важны способы
построения иерархий, при которых устанавливается взаимосвязь структуры управления с деревом
целей системы[4].
Функционирование многоуровневой организационной системы происходит путем выявления
проблемных ситуаций, определения целей ликвидации проблем; для реализации целей строится
соответствующая структура системы управления; далее определяются ресурсные ограничения и
проекты функционирования объекта управления, производится синтез стратегии функционирования,
процедуры планирования и системы стимулирования деятельности элементов организации[3].
Для реализации высокого уровня организационного согласия необходимо чтобы структура
управления формировалась в соответствии с программно-целевым подходом и фактически
порождалась деревом целей организации, а само дерево целей было динамичной конструкцией, в том
61
В.В.Яворский, А.Ж.Кинтонова
смысле, что структуризация целей должна меняться в соответствии с новыми проблемами
функционирования и развития.
СПИСОК ЛИТЕРАТУРЫ
1.
Формализация
и
прозрачное
управление
организационной
структурой
вуза.
http://www.naumen.ru/go/solutions/naumen_university
2. Румянцева З.П. и др. Общее управление организацией: принципы и процессы: 17-модульная
программа для менеджеров. - М.:ИНФРА-М, 2000, c 63.
3. Oberlender G.D. Project Management for Engineering and Construction. McGraw-Hill, Inc., New
York, 1993
4. Яворский В.В. Методы структурного моделирования многоуровневых организационных
систем. – М.: Энеогоатомиздат, 2002. – 168-170с.
ЖОО басқару
Яворский В.В., Кинтонова Ә.Ж.
Бұл еңбекте жоғары оқу орынның (ЖОО) жұмыс істеудің мақсаттары және басқару иерархиялық құрылымы жайында
мәселелер қозғалады.
Жұмыста басқарудың қалыптасқан байланыстарын қарастыру және оларды өзгертудің тәсілдері мен әдістері
қарастырылады. Бұл тәсілдермен әдістері, қоршаған ортаның өзгерістеріне қарай, басқарудың мақсаттарын өзгертуге
мүмкіндік береді.
The management of the higher educational institution
Yavorskiy V.V., Kintonova A.G.
This paper considers the aims of the higher education institution hierarchical structure of such institution and its managing.
The paper studies the methods and means of the analisys and correction of the current interrelations of the management, the use
of which makes it possible to create structures, which react for the changes in the environment and correction of the aims of
management.
62
В.В.Яворский, А.Ж.Кинтонова
-ШАРИПБАЕВ А. А., РИФА В.Н.
ОБ ОДНОМ МЕТОДЕ РЕШЕНИЯ ЗАДАЧИ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЯ ПО
УПРАВЛЕНИЮ МАНИПУЛЯТОРОМ
(Евразийский Национальный Университет им. Л.Н. Гумилева)
Рассматривается возможность применения метода динамических характеристик для решения задачи идентификации
пользователя компьютера по управлению манипулятором "мышь". Численные эксперименты показывают сходимость
собственных чисел ковариационных матриц к устойчивому индивидуальному набору для пользователя с ростом числа
наблюдений.
Введение
Успешность работы информационных систем и технологий в современных рыночных условиях
в значительной степени определяется мерой восприятия проблем безопасности разработчиками таких
систем, а также представлениями о комплексе мероприятий защиты информации в
автоматизированных системах, умением обнаруживать угрозы и своевременно получать
необходимую информацию о них, анализировать ее, оценивать ситуацию и обеспечивать
необходимый уровень безопасности с использованием организационно технических методов и
программного обеспечения, а также использовать полученные знания при разработке и построении
автоматизированных систем и систем защиты информации.
Центральным звеном безопасности информационной системы (ИС) несомненно является
система аутентификации пользователя или система контроля доступа. Задача аутентификации
заключается в подтверждении индивидуальных данных («имя», «пароль» – "login"+"password"),
которые вводит пользователь, чтобы получить разрешение на работу с ИС. Иными словами, задача
аутентификации - это задача идентификации субъекта.
В настоящее время все более интенсивно исследуются биометрические системы контроля
доступа (БСКД). Методы биометрии в задаче аутентификации можно разбить на два основных класса
- статические и динамические. В данной работе будет уделено внимание именно второму классу,
динамическим БСКД.
Широкое применение получили три типа динамических БСКД, основанных на анализе голоса,
рукописного и клавиатурного почерков. Принципиально важным качеством динамических БСКД
является возможность для личности сохранять в тайне свой биометрический образ (парольную
фразу), что на 4-6 десятичных порядков повышает степень защиты, предоставляемой динамическими
БСКД относительно статических [1,2].
Достоинством динамической биометрии (голос, рукописный и клавиатурный почерк), является
возможность смены образа личности за счет быстрой смены воспроизводимого пароля.
Статический образ личности (отпечаток пальца) нельзя сохранить в тайне или изменить, он дан
личности единожды и навсегда. Иначе обстоит дело с образами динамической биометрии, они легко
поддаются изменению, и могут быть сохранены пользователем в тайне. Последние делают
динамическую биометрию предпочтительной для удаленной идентификации личности в открытом
информационном пространстве.
Как недостаток этого класса систем следует отметить то, что на их работу влияет
психофизическое состояние личности (испуг, стресс, психотропные препараты). Тем не менее,
системы динамической биометрии оказываются эффективными длительное время, существующие
данные свидетельствуют о стабильном сохранении отработанных двигательных навыков у человека в
течение нескольких десятилетий.
Практически все существующие сегодня коммерческие системы биометрической динамической
идентификации личности построены в основном на анализе динамики воспроизведения подписи.
Такие системы следует разделить на одно, двух и трех координатные. Соответственно, эти системы
отличаются тем, что анализируют одну координату, пару координат или полную тройку координат
X(t), Y(t), Z(t). Однокоординатные системы могут быть построены путем учета любой из этих
временных функций, обеспечивая вероятности ошибок первого и второго рода на уровне 0,1. Двух
координатные системы используют любую пару функций времени из тройки X(t), Y(t), Z(t) и, на
сегодняшний день, позволяют достичь уровня вероятности ошибок порядка 0,01. Наиболее сложные
системы используют полную тройку функций, обеспечивая уровень вероятностей ошибок
первого/второго рода порядка 0,003 [3].
63
В.В.Яворский, А.Ж.Кинтонова
В основе методов на которых базируются динамические БСКД положены предположения о
хаотичности подсознательных движений человека. При этом хаотичность трактуется как признак
неустойчивости системы человек – подпись, или человек - ключевая фраза и т.д., так как человек не в
состоянии повторить в точности ни свою подпись, ни ключевую фразу голосом. Всегда будут
некоторые отличия для каждой пары попыток. Но, если принять во внимание, что неустойчивость
означает, что любое, даже самое малое изменение состояния системы может привести к сколь угодно
большому фактическому изменению движения, то приходим к противоречию. А именно, насколько
бы сильно не отличались два экземпляра подписи, все же динамические картины схожи, если
подпись произведена ее владельцем, т.е. присутствует явление устойчивости системы при
нестационарности шумов. Устойчивость в этом случае нужно понимать несколько шире, чем
устойчивость по Ляпунову или даже по Пуанкаре. Необходимо принять во внимание тот факт, что
строгое определение устойчивости предполагает известной некоторую  -окрестность начальных
условий, которая не может быть наблюдаема нами в силу особенностей рассматриваемой системы.
Исходя с этой точки зрения, целесообразно построить некоторую заведомо устойчивую систему,
в которой человек – субъект во время испытаний будет достигать поставленной цели, и проводить
биометрические измерения во время достижения цели субъектом. Наиболее простая подобная
система – система управления манипулятором "мышь", которая имеется на каждом компьютере.
Биометрические измерения поведения пользователя
1.
Биометрические измерения поведения пользователя при управлении манипулятором
заключаются в следующем:
a.
Перед началом управления манипулятором курсор находится в произвольной точке
S ( xS , yS ) , называемой начальной точкой.
b.
Посредством генератора случайных чисел с равномерным распределением по x и y
генерируются координаты случайной точки
c.
T ( xT , yT ) , называемой целевой точкой.
Пользователь переводит курсор из начальной точки S ( xS , yS ) в целевую точку
T ( xT , yT ) и нажимает левую клавишу манипулятора при достижении цели.
Траектория движения курсора запоминается в виде последовательности пар чисел
( x(ti ), y (ti )) , и ti значение системного таймера в момент нахождения курсора в точке
d.
( x(ti ), y (ti )) .
e.
Затем снова генерируется целевая точка, и процесс повторяется до тех пор, пока не будет
сформирован достаточный массив траекторий для вычислений.
Массив, состоящий из траекторий одного эксперимента (только одной траектории), называется
сессией (сегментом).
Рассматривая движение курсора под управлением пользователя как задачу оптимального
управления для некоторой сложной нелинейной динамической системы мы можем наблюдать
следующее:

Цель всегда достигается (ограничений по времени на достижение цели пользователем не
накладывается).

Траектории непрерывны и никогда не повторяются.
Основываясь на том факте, что цель всегда достигается, можно по аналогии с динамическими
системами утверждать, что система пользователь-цель-курсор устойчива.
На множестве траекторий движения курсора некоторым образом, нам не известным, отображены
особенности поведения пользователя:

Физические антропометрические особенности: длинна рук, пальцев, развитость
отдельных групп мышц т.д. – императивная часть системы управления.

Психофизические особенности: скорость реакции на цель, тип темперамента и т.п. –
интеллектуальная часть системы управления или все то, что относится функционалу качества
управления.
Возникает вопрос: каким образом можно отличить траектории одного пользователя от
другого? Для решения этого вопроса (задачи аутентификации пользователя) необходимо построить
процедуру формирования пространства признаков, в котором имеется возможность создания образов
различных пользователей, и более того эти образы будут различимы.
64
В.В.Яворский, А.Ж.Кинтонова
Естественно предположить, что динамическая система пользователь–цель-курсор имеет
достаточно большое число переменных состояния, которые мы не сможем наблюдать. Все, что мы
можем наблюдать заключено в траекториях курсора, полученных в результате эксперимента.
Полученные данные дают возможность использовать только статистический анализ траекторий.
Поэтому основной вопрос для построения процедуры формирования пространства признаков
заключается в следующем: каким образом могут быть связаны статистические характеристики
траекторий и аналитический вид задачи оптимального управления для нелинейных динамических
систем?
Вывод 1.
В общем виде решить такую задачу очень трудно, если вообще возможно. Однако с целью
рассмотреть пример как аналог для выработки идеи построения пространства признаков это
возможно.
2. Решение задачи оптимального управления для линейной системы с функционалом
четвертого порядка.
Рассмотрим линейную динамическую систему
x(t )  Ax(t )  Bu (t ); x  D  R n ; x(t0 )  x0 ; u  R m . ,
(1)
с функционалом качества управления четвертого порядка.
t
J   ( xT Q x  xT R x  xT S x u T Lu  F ( x))dt  min,
(2)
t0
где,
x
- вектор пространства состояний системы,
u
- вектор управления,
A  {aij }i 1,n
-
j 1,n
вещественная
неособенная
устойчивая
матрица,
B  {bij }i 1,m
вещественная
матрица.
j 1,n
Q  {qij }i1,n , R  {rij }i 1,n , S  {Sij }i 1,n
j 1,n
L  {lij }i 1,m
j 1,n
- некоторые неотрицательно определенные матрицы и
j 1,n
- положительно определенная матрица. И пусть
F ( x)  O( x 6 )
некоторая
j 1,m
неотрицательная функция шестого порядка малости относительно
Без потери общности положим, что евклидова норма
xD
x.
не превышает 1, т.е.
x  1.
Задача: найти такой закон управления u  u ( x) системой (1), чтобы минимизировать значения
функционала (2).
Напомним определение. Дифференцируемая функция V ( x(t )) фазового состояния x
dx / dt  f ( x)
состояния x0 ; для
детерминированной динамической системы
называется функцией Ляпунова для
особой точки x  x0 (для стационарного
положения равновесия x0  0 ), если
она удовлетворяет следующим условиям:
1) функция V определена в некоторой окрестности точки x0 и имеет в этой точке строгий
локальный минимум;
2) скорость изменения (полная производная по времени) функции V вдоль решений x(t )
системы в некоторой окрестности точки x0 неположительна, dV / dt  0 .
Предположим существование функции Ляпунова для системы (1) в виде
V ( x)  xT V0 x  xT V1 x  xTV2 x ,
где V0 ,V1 ,V2 неотрицательно определенные постоянные матрицы размерности n  n .
(3)
Запишем уравнение Беллмана
d

min  V ( x)   ( x, u )   0 .
u
 dt

(4)
65
В.В.Яворский, А.Ж.Кинтонова
Вычислим производную от V ( x) по
t
d
V ( x(t ))  xT V0 x  xT V0 x 
dt
( xT V1 x  xT V1 x )( xT V2 x )  ( xTV1 x )( xTV2 x  x TV2 x ) 
(5)
x V0 x  x V0 x  ( x V1 xx V2 x  x V1 xx V2 x ) 
T
T
T
T
T
T
( xT V1 xxT V2 x  xT V1 xxT V2 x ).
Тогда уравнение Беллмана примет вид
min{( xT AT  uT BT )V0 x  xT V0 ( Ax  Bu ) 
u
( xT AT  u T BT )T V1 xxT V2 x  xT V1 ( Ax  Bu ) xT V2 x 
(6)
x V1 x( x A  u B )V2 x  x V1 xx V2 ( Ax  Bu ) 
T
T
T
T
T
T
T
xT Qx  xT RxxT Sx  u T Lu  F ( x)}  0.
Или
min{xT AT V0 x  uT BT V0 x  xT V0 Ax  xT V0 Bu 
u
xT AT V1 xxT V2 x  u T BT V1 xxT V2 x  xT V1 AxxTV2 x  xTV1BuxTV2 x 
x V1 xx A V2 x  x V1 xu B V2 x  x V1 xx V2 Ax  x V1 xx V2 Bu 
T
T
T
T
T
T
T
T
T
(7)
T
xT Qx  xT RxxT Sx  u T Lu  F ( x)}  0.
Примем во внимание, что:
xT V1 BuxTV2 x  xTV2 xxTV1 Bu ,
xT V1 xuT BTV2 x  uT BTV2 xxTV1 x ,
T
также обозначим xx  Y .
Далее, дифференцируя выражение в фигурных скобках по
u
имеем
B V0 x  B V1YV2 x  B V2YV1 x  Lu  0.
T
T
T
Откуда
u   L1 BT V0 x  L1 BT (V1YV2  V2YV1 ) x ,
(8)
или
uT   xT V0 BL1  xT (V1YV2  V2YV1 ) BL1 .
Тогда
xT ( AT V0  V0 A  V0 BL1 BT V0  Q ) x 
xT (( AT  V0 BL1 BT )(V1YV2  V2YV1 ) 
(9)
(V1YV2  V2YV1 )( A  BL1 BT V0 )  RYS ) x 
xT (V1YV2  V2YV1 ) BL1 BT (V1YV2  V2YV1 ) x  F ( x )  0.
Полученное уравнение распадается на:
а) матричное уравнение Риккати для линейно квадратичной задачи
AT V0  V0 A  V0 BL1 BT V0  Q ,
б) уравнение Ляпунова относительно матрицы W
(10)
 V1YV2  V2YV1
66
В.В.Яворский, А.Ж.Кинтонова
( AT  V0 BL1 BT )(V1YV2  V2YV1 ) 
(V1YV2  V2YV1 )( A  BL1 BT V0 )   RYS
И определив F ( x) как
.
(11)
F ( x)  xT (V1YV2  V2YV1 ) BL1 BT (V1YV2  V2YV1 ) x
имеем:
1.
2.
3.
(12)
Решение уравнения Риккати существует и единственно.
Решение уравнения Ляпунова существует и единственно.
F ( x)
по построению положительно определена и имеет порядок малости
Следовательно, не ухудшает качество управления.
4.
Для вычисления управляющего воздействия
необходимости вычислять матрицы V1 ,V2 .
u
6
O( x ) .
в каждый момент времени
t нет
C  A  BL1 BT V0 учитывая, что C устойчива и усредняя (11) по всем траекториям
x(t )  D (полагая, что M {x(t ) : x(t )  D}  0 ) получим
(13)
CT (V1V2  V2 V1 )  (V1V2  V2 V1 )C  RS  0 ,
Положим
где
 - ковариационная матрица по всем возможным траекториям x(t ) t0
t
решений задачи (1-2).
Последнее
уравнение
является
уравнением
Ляпунова
относительно
матрицы
W  V1V2  V2 V1 . Матрица RS положительно определена по построению. Следовательно по
теореме Ляпунова решение существует и единственно.
В свою очередь ковариационная матрица  симетрична и положительно определена. Тогда
существует матрица
I , I T  I 1 такая, что
I 1I  
где  диагональная матрица, по
2
2
2
собственные числа (1 , 2 ,..., n )
,
главной диагонали которой расположены вещественные
матрицы

. Здесь специально введены обозначения
указывая на то, что собственные числа ковариационной матрицы  положительны
вещественны(суть дисперсии в координатах главных компонент).
Тогда при известной положительно определенной матрице W имеем уравнение
I T WI  I T V1 II T II TV2 I  I TV2 II T II TV1I
i2
и
,
или
W *  V1*V2*  V2*V1* ,
где
(14)
[]*  I T []I .
Рассмотрим общее двучленное уравнение Сильвестра
AXB  CXD  Z .
(15)
Известна теорема [4]. Уравнение (15) имеет единственное решение в том и только в том случае,
когда выполнены условия:
1) в парах (A, D) и (В, С) имеются невырожденные матрицы;
B 
  n;
D
det( A  C )  det( D   B)  0 ,
2) rank [ A | C ]  rank 
3) 
   0, если
(  ( A   C ),   ( D   B)) .
Следовательно, коль скоро  существует
и невырождена(как диагональная матрица
собственных значений ковариационной матрицы  ), то и матрицы V1 ,V2 существуют и
67
В.В.Яворский, А.Ж.Кинтонова
невырожденны поскольку очевидно, что условия теоремы выполнены. Т.е. существует
невырожденная функция Ляпунова в виде (3).
Что собственно и требовалось показать.
Алгоритм для нахождения пары матриц V1 ,V2 можно предложить следующий. Положим в (14)
V1*  E - единичная матрица. Тогда имеем уравнение Ляпунова вида
W *  V2*  V2* .
 вычисляется как диагональная матрица состоящая из собственных значений ковариационной
матрицы полученной на траекториях движения системы.
И следовательно по теореме Ляпунова решение существует и невырожденно для каждой
.
Вывод 2.
Если рассматривать множество всех возможных решений задачи (1-2) в некоторой
окрестности точки (0), то спектр ковариационной матрицы на всех траекториях решений
однозначно определяет функцию Ляпунова(и следовательно поле направлений устойчивых решений),
т.е. может выполнять роль идентификатора для многообразия решений.
3.
Построение пространства признаков
Теперь, учитывая вышеизложенное можно предположить, что если фазовое пространство нам
известно, следовательно, известны измерения переменных фазового пространства динамической
системы пользователь–цель–курсор, то аналогично результатам приведенным выше спектр
ковариационной матрицы построенной на траекториях движения курсора в фазовом пространстве
мог бы служить идентификатором такой системы.
Однако, в результате эксперимента имеем только траектории на экране монитора, т.е. только
некоторое пространство наблюдений которое является подпространством фазового пространства
динамической системы. При этом мы даже не можем проверить, является ли система наблюдаемой.
Мы не можем знать даже размерности фазового пространства исследуемой системы.
Тогда, построим некоторую систему функций – характеристик траекторий курсора, с целью
охватить, насколько это возможно, некоррелированные измерения динамических параметров
траекторий
{k ( x(ti ), y (ti ))}, i  0,1,...n, k  1,...,6 ,
где n - количество отсчетов на траектории, k - количество характеристик.
В качестве характеристик возьмем естественные измерения траекторий движения курсора:
скорость - vx, vy , ускорение - ax, ay , кривизну - k и угловую скорость -  в каждой точке
траектории.
Напомним, что массив отображающий координаты курсора содержит (n  1) тройки чисел
( xi , yi , ti ), i  0,1,..., n . Тогда характеристики вычисляются по формулам из таблицы
1.
2.
3.
4.
xi 1  xi 1
ti 1  ti 1
y  yi 1
vyi  vy (ti )  i 1
ti 1  ti 1
vx  vxi 1
axi  ax(ti )  i 1
ti 1  ti 1
vy  vyi 1
ayi  ay (ti )  i 1
ti 1  ti 1
vxi  vx(ti ) 
68
i  1,..., n  1
i  1,..., n  1
i  2,..., n  2
i  2,..., n  2
В.В.Яворский, А.Ж.Кинтонова
5.
ki  k (ti ) 
vxi ayi  vyi axi
((vxi )2  (vyi ) 2 )3/ 2
6.
Следует отметить, что данная таблица может быть дополнена другими характеристиками,
допустим приведенными первыми разностями vki  (ki 1  ki 1 ) /(ti 1  ti 1 ) и т.п. В данной
работе ограничимся только приведенным выше шестимерным пространством характеристик.
Статистически доказана сходимость спектра ковариационной матрицы траекторий в
пространстве характеристик к некоторому стационарному значению – индивидуальному набору
собственных чисел для каждого субъекта.
На рис.1. показана общая картина движения курсора на экране монитора.
600
500
400
Ряд1
300
200
100
0
0
100
200
300
400
500
600
Рисунок 1. Траектории целенаправленного движения курсора под управлением субъекта
8,00E-03
6,00E-03
4,00E-03
Ряд1
Ряд2
Ряд3
2,00E-03
0,00E+00
-1,00E-02
0,00E+00
1,00E-02
2,00E-02
3,00E-02
4,00E-02
5,00E-02
-2,00E-03
-4,00E-03
Рисунок 2. Отображение множества спектров ковариационных матриц траекторий на плоскость
для трех субъектов методом главных компонент. Каждой точке соответствует одна траектория
На рисунке 3 показана сходимость спектра ковариационной матрицы к некоторому
стационарному набору для одного субъекта[5]. Измерения проводились в 12 – мерном пространстве
характеристик. Анализ показал, что шесть из них малоинформативны. Дальнейшие исследования
проводились в 6 - мерном пространстве характеристик.
69
В.В.Яворский, А.Ж.Кинтонова
Рисунок 3. Сходимость спектра ковариационной матрицы для одного субъекта в пространстве 12
характеристик
На рисунках 4 и 5 показано, что характер ломаной, построенной на значениях спектра Σ строго
индивидуален и ни одно измерение в точности не совпадает с другим, однако тенденции
соотношений между отдельными собственными значениями сохраняются. Экспериментально
доказано, что тенденции сохраняются на протяжении нескольких лет[10,11].
V
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0,00
1
2
3
4
5
6
Рисунок 4. Спектры ковариационной матрицы субъекта V для шести проб измерений
T
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0,00
1
2
3
4
5
6
Рисунок 5. Спектры ковариационной матрицы субъекта Т для пяти проб измерений
На рисунке 6 проиллюстрирован, для сравнения, индивидуальный характер спектра
ковариационной матрицы для каждого субъекта.
70
В.В.Яворский, А.Ж.Кинтонова
av(V)&av(T)
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0,00
1
2
3
4
5
6
Рис. 6. Усредненные значения спектров субъектов V и T
Таким образом, предлагаемый метод использует в качестве биометрических измерений траектории курсора, которые даже сам субъект не в состоянии повторить в точности, если даже
предположить, что исходное положение курсора и сгенерированная случайным образом цель
совпадут с каким либо случаем ранее. При удаленной идентификации предлагаемый метод
предпочтительнее параметрических поскольку "испытатель" разворачивает на экране "испытуемого"
аплет – "окно испытаний" в котором происходят все движения, вследствие чего "испытателю"
известно текущее положение курсора и положение цели (генерируется со стороны "испытателя"). И
даже если допустить, что у злоумышленника существует база перехваченных траекторий, то гипотеза
о том, что в базе есть траектория именно с таким началом движения и его конечной точкой, более
чем невероятна. Тем более, что в процессе измерений присутствуют десятки а то и сотни таких
траекторий. Попытка, каким-либо образом "подправить" траекторию приводит к полному
{ λ , λ ,..., λ }
6 .
разрушению целостности образа – набора 1 2
Выводы.
Представленный "Метод динамических характеристик" решения задачи аутентификации
может служить ядром динамической БСКД для разнообразных типов ИС. Проведенные
эксперименты на разработанном макете системы аутентификации подтверждают довольно
высокую достоверность идентификации пользователя и достаточно малые ошибки первого и
второго рода порядка 0,05 при использовании метрики
L1 .
СПИСОК ЛИТЕРАТУРЫ
1.
Иванов А.И. Биометрическая идентификация личности по динамике подсознательных
движений. Монография. Пензенский государственный университет, Пенза 2000. -188с.
2.
Брюхомицкий Ю.А. Параметрический метод биометрической аутентификации пользователей
информационных систем. Научно практический журнал "Информационное противодействие угрозам
терроризма". №1, 2003г. http://www.contrterror.tsure.ru/site/index.htm
3.
Загоруйко В.А. Российский фонд фундаментальных исследований, Грант № 00–06–80178.
http://www.philosophy.nsc.ru/journals/philscience/3_02/Zagorujko.htm
4.
Кореневский Д.Г. Устойчивость динамических систем при случайных возмущениях
параметров, Монография. Киев; Наукова думка, 1989. -208с.
5.
Рифа В.Н., Баклан Я.И., Баклан И.В., Метод главных компонент в задачах аутентификации.
//Труды Шестой Всеукраинской международной конференции УКР’ОБРАЗ 2002. - Киев 2002. С. 215218.
6.
Бидюк П.И., Баклан И.В., Рифа В.Н. Системный подход к построению регрессионной модели
по временным рядам. //Международный научно технический журнал “Системные исследования и
информационные технологии”. №3 Киев 2002.
71
В.В.Яворский, А.Ж.Кинтонова
7.
Баклан И.В., Рифа В.Н. Гибридные модели в статистических методах распознавания образов.
//Вестник ХГТУ №3(19), Херсон 2003.
8.
Рифа В.Н. Баклан Я.И. Баклан И.В. Бидюк П.И. Долгов Д.С., Метод динамических
характеристик в задачах аутентификации, //Вестник КАЗАУ, Т-IV, ч. 4, Астана 2004. С.26-28.
9.
Рифа В.Н. Методы оптимального управления в задаче аутентификации. //Вестник
"Университета Туран", Алматы 2004.
10.
Рифа В.Н. Метод динамических характеристик в задаче биометрической аутентификации.
//Тезисы докладов Международной 11-й межвузовской конференции по математике и механике
Евразийского национального университета им.Л.Н. Гумилева, Астана 2006.
11.
Рифа В.Н. Метод динамических характеристик и фрактальные структуры. //Международный
журнал “Системные исследования и информационные технологии”, №3, Киев 2007.
12.
Рифа В.Н., Лопатин О.К., Фрактальные структуры в задаче биометрической аутентификации,
//Международный журнал Института Проблем Искусственного Интеллекта НАНУ №4, Донецк 2007.
C.309-316.
Манипуляторды басқару бойынша пайдаланушыны айқындайтын бір әдіс
А. Шәріпбаев, В.Рифа
Компьютерді пайдаланушыны манипуляторды басқаруына байланысты ұқсастыру есебін шешуге динамикалық
сипаттау әдісін қолдану мүмкіндігі қарастырылады. Сандық эксперимент нәтижесі коварияциалық матрицаның өзіндік
санының бақылау саны өскен сайын пайдаланушының өзіндік тұрақтылығына жинақталатындығын көрсетеді.
One method to the problem identification of a computer user by manipulator control
A.Sharipbaev, V. Rifa
The possibility of application of the dynamic characteristic method to the problem identification of a computer user by
manipulator control is considered. The numerical experiments show the convergence of eigenvalues of covarianse matrixes to
individual steady state values on the set of with increasing number of measurements.
72
В.В.Яворский, А.Ж.Кинтонова
Ә.К. БӨРІБАЕВА, А.Ә. ШӘРІПБАЕВ
ҚАЗАҚ ТІЛІНІҢ МОРФОЛОГИЯЛЫҚ ЕРЕЖЕЛЕРІН СХЕМОТЕХНИКАЛЫҚ
МОДЕЛДЕУ
(Л.Н. Гумилев атындағы Еуразия ұлттық университеті, Астана)
Кез келген тілді оқып үйренудің негізі осы тілде жазылған мәтіннің мағынасын түсінуге және сол тілде өз ойын дұрыс
жазуға қажетті грамматикалық ережелер болып табылады. Қазіргі қоғамды компьютерлендіру мен ақпараттандыру
кезеңінде көптеген табиғи (ағылшын, француз, орыс, жапон және т.б.) тілдер компьютерлік программалар көмегімен
оқытылып үйретіледі. Ол үшін, алдымен, оқытылатын тілдің грамматикалық ережелерінің математикалық моделдері
құрылып, сонан кейін, осы алгоритмдер компьютерлік программалар арқылы жүзеге асырылады. Ал осы алгоритмдердің
аппараттық жүзеге асырылуы тіптен құба-құп болып табылады. Біздер соның жолдарын қарастырып көрейік.
Ол үшін ең алдымен шешімдер қабылдау дегеніміз не, соны түсініп алайық.
Анықтама 1. Берілген контексттегі зерттелетін барлық оқиғалардың жиыны оқиғалардың
факторлық кеңістігін қалыптастырады.
Қандай да бір f логикалық функциясы үшін оқиғалардың факторлық кеңістігіндегі
айнымалылардан импликация амалын қолдана отырып келесі түрдегі логикалық өрнекті жазайық:
(1)
f х1...xn   R.
Мұндағы f - орын алған жағдайды, шартты анықтайтын өрнек, ал R — салдар ретінде
қарастырылатын айтылым: тәртіп ережесі, векторлық функцияның мәні, әрекетке нұсқау т.б.
Осылайша, «шарт - салдар», «егер..., онда...» тәрізді байланыстар қалыптасуы мүмкін. Бұл кезде f
функциясы ситуациялар жиынында беріледі және өзі қандай да бір жағдайда «1» (АҚИҚАТ) мәнін
қабылдаса, онда R айтылымы да сондай мәнді қабылдайтынын көрсетеді.
(1) тәрізді, оқиғалардың факторлық кеңістігіндегі қалыптасқан жағдайға сәйкес басқару жүйесін
немесе шешімдер қабылдау жүйесін анықтайтын логикалық өрнектер жиынын сипаттауға болады:
f1 х1...xn   R1;
f 2 х1...xn   R2 ;
………………
(2)
f m1 х1...xn   Rm .
Анықтама 2. Оқиғалардың факторлық кеңістігінде (ішкі кеңістігінде) берілген, толықтық және
қарама-қайшылықсыздық қасиеттеріне ие (2) түріндегі логикалық өрнектер жүйесі шешімдер
қабылдау жүйесі деп аталады [1].
Анықтамада айтылған қасиеттердің маңыздылығын түсіндіріп өтейік.
f1 ,..., f m функциялар жүйесінің толық болуы оқиғалардың факторлық кеңістігіндегі кез-келген
нүктенің осы функциялардың тым болмағанда біреуінің берілгендер облысында жататынын
білдіреді. Қарама-қайшылықсыздық әр жағдай үшін осы функциялардың біреу және тек қана біреуі
сәйкес айтылым – шешімнің ақиқаттығына алып келетін 1 мәнін қабылдайтынын білдіреді.
Дегенмен, шынында есептің мағыналық мазмұнының негізінде кейбір жағдайлар үшін бірден
артық дұрыс шешімдер белгілі болуы мүмкін. Мұндай жағдайда бұл шешімдер туралы
айтылымдарды НЕМЕСЕ амалымен біріктіруге болады, бұл жоғарыда өзіміз айтып кеткен қарамақайшылықсыздық болжамына алып келеді.
Енді шешімдер қабылдаудың мысалы ретінде қазақ тілінде зат есімге көптік жалғаулардың
жалғануын қарастырайық. Жалпы, көптік жалғаудың «лар», «лер», «дар», «дер», «тар», «тер» деген
түрлері бар екені белгілі. Егер сөз жуан дауыстыға аяқталса «лар» жалғауы, ал жіңішке дауыстыға
аяқталса «лер» жалғауы жалғанады. Ал егер сөз ұяң немесе үнді дауыссыз дыбысқа аяқталатын
болса, және соңғы буындағы дауысты дыбыс жуан болатын болса «дар», керісінше жіңішке болатын
болса «дер» жалғауы жалғанады. Дәл солай егер сөз қатаң дауыссыз дыбысқа аяқталып, соңғы
73
В.В.Яворский, А.Ж.Кинтонова
буындағы дауысты дыбыс жуан болса «тар», жіңішке болса «тер» көптік жалғауы жалғанады. Енді
осы есепті шешімдер қабылдау моделіне салып көрелік.
Бізде келесідей параметрлер болсын:
x1 – дауысты дыбыстар;
x2 – дауыссыз дыбыстар;
х3 – жуан дауыстылар;
x4 – жіңішке дауыстылар;
x5 – қатаң дауыссыздар;
x6 – ұяң дауыссыздар;
x7 – үнді дауыссыздар;
x8 – түбір сөздің соңғы буыны жуан;
x9 – түбір сөздің соңғы буыны жіңішке;
R1...R6 – қабылданатын шешімдер.
Сәйкесінше, біздің жүйеміз келесі түрде болады:
1. x1  x3  R1  «лар»;
2. x1  x4  R2  «лер»;
3. x2  x8 ( х6  x7 )  R3 = «дар»;
4. x2  x9 ( х6  x7 )  R4 «дер»;
5. x2  x8  х5  R5  «тар»;
6. x2  x9  х5  R6  «тер».
Мұндағы  - логикалық конъюнкция амалы,  - логикалық дизъюнкция амалы.
Бұл жүйенің схемотехникалық орындалуы 1 – суретте көрсетілген. «AND», «OR» логикалық
элементтерінен тұратын бұл схеманың жұмыс істеу принципі де қарапайым.
1-сурет. Шешімдер қабылдаудың схемотехникалық моделі (көптік жалғаулар)
Өздеріңіз байқағандай, бұл схемада дыбыстарды классификациялау қарастырылмаған. Ол
өзінше бір бөлек есеп болып табылады, және басқадай схема арқылы жүзеге асырылуы мүмкін.
74
В.В.Яворский, А.Ж.Кинтонова
Сондықтан біз бұл жерде схеманың, мысалы, «а» дыбысының жуан дауысты екендігін қалай
анықтайтыны жөнінде бас қатырмаймыз. Бұл жердегі басты мәселе – сөзге көптік жалғауды жалғау
барысында шешім қабылдау.
Сонымен біз жасанды зердеге «бала» сөзін енгізейік. Ол өзіне ғана белгілі қандай да бір жолмен
сөздің соңындағы «а» әрпінің жуан дауысты дыбыс екендігін анықтады. Соның әсерінен біздің
схемамыздың кірісіне 101000000 ( x1 , х 3 - 1, қалғандары - 0) коды берілді. Қарапайым схеманың
жұмысы нәтижесінде «ана» сөзіне «-лар» жалғауы жалғанатынына көз жеткіздік. Енді жасанды
зердеге «кітап» сөзін енгізіп көрейік. Алғашқыдағыдай емес, бұл есеп күрделірек. Себебі бұл жерде
соңғы дыбыс дауыссыз, яғни, оның ұяң немесе қатаңдығын анықтағаннан бөлек, соңғы буынның
жуан-жіңішкесін анықтауымыз қажет. Бұл жағдайда да жасанды зерде бізге беймәлім жолмен
дыбыстарды жіктеп берді: «п» - қатаң дауыссыз дыбыс, соңғы буындағы «а» дауысты дыбысы –
жуан. Демек, біздің схемамызға 010010010 коды беріледі. Берілген деректердің нәтижесінде «кітап»
сөзіне «-тар» жалғауы жалғансын деген шешім қабылданады.
Енді септік жалғауларын қарастырайық. Септік жалғауларына байланысты ереже келесі кестеде
көрсетілген:
1-кесте
Септік жалғауларының жалғану ережесі
Септік жалғаулары
Соңғы дыбыс
ілік
барыс
табыс
жатыс
шығыс
көмектес
жуан а,о,ұ,ы
ның
ға
ны
да
дан
мен
менен
Жіңішке ә,ө,ү,і,е
нің
ге
ні
де
ден
қатаң
с.б.жн.
тың
қа
ты
та
тан
с.б.же.
тің
ке
ті
те
тен
с.б.жн.
ның
ға
ды
да
нан
с.б.же.
нің
ге
ді
де
нен
с.б.жн.
дың
ға
ды
да
дан
с.б.же.
дің
ге
ді
де
ден
с.б.жн.
тың
қа
ты
та
тан
с.б.же.
тің
ке
ті
те
тен
с.б.жн.
дың
ға
ды
да
дан
с.б.же.
дің
ге
ді
де
ден
мен
менен
пен
пенен
пен
пенен
мен
менен
мен
менен
мен
менен
мен
менен
пен
пенен
пен
пенен
бен
бенен
бен
бенен
Дауысты
үнді1
м,н,ң
үнді2
р,у,й,л
ұяң 1
б,г,ғ,д
ұяң 2
ж,з
Түсіндірме:
с.б.жн – түбір сөздің соңғы буыны жуан,
с.б.же – түбір сөздің соңғы буыны жіңішке.
Ереже бойынша, бізде келесідей параметрлер болады:
x1 – дауысты дыбыстар;
x2 – дауыссыз дыбыстар;
75
В.В.Яворский, А.Ж.Кинтонова
х3 – жуан дауыстылар;
x4 – жіңішке дауыстылар;
x5 – қатаң дауыссыздар;
x6 – ұяң дауыссыздар (б, г, ғ, д);
x7 – ұяң дауыссыздар (ж, з);
x8 – үнді дауыссыздар (м, н, ң);
x9 – үнді дауыссыздар (р, у, й, л);
x10 – түбір сөздің соңғы буыны жуан;
x11 – түбір сөздің соңғы буыны жіңішке;
x12 – ілік септік;
x13 – барыс септік;
x14 – табыс септік;
x15 – жатыс септік;
x16 – шығыс септік;
x17 – көмектес септік;
R1...R29 – қабылданатын шешімдер.
Бұл кезде біздің жүйеміз келесі түрде болады:
x12 ( x1  x3  x2  x10  x8 )  R1  «ның»;
2. x13 ( x1  x3  x2  x10 ( x7  x8  x9 ))  R2  «ға»;
3. x1  x3  x14  R3  «ны»;
1.
4.
x15 ( x1  x3  x2  x10  ( x7  x8  x9 ))  R4  «да»;
5.
x16 ( x1  x3  x2  x10 ( x7  x9 ))  R5  «дан»;
x17 ( x1  x2 ( x8  x9 ))  R6  «мен, менен»;
6.
7.
8.
9.
x12 ( x1  x4  x2  x11  x8 )  R7  «нің»;
x13 ( x1  x4  x2  x11 ( x7  x8  x9 ))  R8  «ге»;
x1  x4  x14  R9  «ні»;
10. x15 ( x1  x4  x2  x11  ( x7  x8  x9 ))  R10  «де»;
11. x16 ( x1  x4  x2  x11 ( x7  x9 ))  R11  «ден»;
12. x2  x10  x12 ( x5  x6 )  R12  «тың»;
13. x2  x10  x13 ( x5  x6 )  R13  «қа»;
14. x2  x10  x14 ( x5  x6 )  R14  «ты»;
15. x2  x10  x15 ( x5  x6 )  R15  «та»;
16. x2  x10  x16 ( x5  x6 )  R16  «тан»;
17. x2  x17 ( x5  x6 )  R17  «пен, пенен»;
18. x2  x11  x12 ( x5  x6 )  R18  «тің»;
19. x2  x11  x13 ( x5  x6 )  R19  «ке»;
20. x2  x11  x14 ( x5  x6 )  R20  «ті»;
21. x2  x11  x15 ( x5  x6 )  R21  «те»;
22. x2  x11  x16 ( x5  x6 )  R22  «тен»;
76
В.В.Яворский, А.Ж.Кинтонова
.
2-сурет. Шешімдер қабылдаудың схемотехникалық моделі (септік жалғаулар)
23. x2  x10  x14 ( x7  x8  x9 )  R23  «ды»;
24. x2  x10  x16  x8  R24  «нан»;
25. x2  x11  x14 ( x7  x8  x9 )  R25  «ді»;
26. x2  x11  x16  x8  R26  «нен»;
27. x2  x10  x12 ( x7  x9 )  R27  «дың»;
28. x2  x11  x12 ( x7  x9 )  R28  «дің»;
29. x 2  x 7  x17  R 29  «бен, бенен»;
Кіріс және шығыс нүктелерінің саны көп болуына байланысты бұл жүйенің схемотехникалық
моделі көптік жалғау жүйесінің схемотехникалық орындалуына қарағанда әлдеқайда күрделі (2сурет).
Осыған ұқсас принциптерді ұстана отырып, тәуелдік, жіктік жалғауларын жалғаудың
схемотехникалық үлгісін жасауға болады. Бір ғана айырмашылығы, көптік және септік жалғауларына
байланысты жалпы параметрлерден бөлек «жақ» (І, ІІ, ІІІ жақ) параметрі пайда болады. Сонымен
қоса, тәуелдік жалғаударды жалғаған кезде түбірдің соңындағы кейбір әріптердің өзгеретінін
(мысалы, «п» әрпі «б» әрпіне, «к» әрпі «г» әрпіне, «қ» әрпі «ғ» әрпіне өзгереді) ескерген жөн.
Осындай құрылған схемотехникалық моделдер қазақ тілінің сөздерін талдау мен құруды
автоматтандыру аппаратты (программалық емес) түрде жүзеге асыруға мүмкіндік беретін арнаулы
микропроцессор жасап шығаруға жол ашады. Оны қазақ тілін оқыту, қазақ тілінде іс жүргізу, қазақ
тіліндегі ақпараттардың орфографиясын, морфологиясын және синтаксисін тексеру мүмкіндігі бар
қазақ тілінде қарым–қатынас жасайтын зерделік ақпараттық технологиялар мен жүйелерді
дайындауда және телекоммуникациялық жүйелерде қазақ тіліндегі ақпаратты дұрыс қабылдау, беру
мен өңдеуде қолдануға болады.
77
В.В.Яворский, А.Ж.Кинтонова
ПАЙДАЛАНҒАН ӘДЕБИЕТТЕР
1.
Барский А.Б. Логические нейронные сети. - М.: Интернет-Университет Информационных
технологий; БИНОМ. Лаборатория знаний , 2007.-352 с.
Схемотехническое моделирование принятия решений при добавлении окончаний в казахском языке
Бурибаева А.К., Шарипбаев А.А.
В этой работе составлена математическая модель правил окончаний казахского языка, и на ее основе реализована
схемотехническая модель.
The circuit modeling of decision making at addition of ending in Kazakh
Buribayeva A.K., Sharipbayev A.A.
This work examines mathematical model of guidance Kazakh and in terms of realized circuit model
Редакцияға 12.01.10. қабылданды
Басылымға 29.01.10. жебірілді
78
В.В.Яворский, А.Ж.Кинтонова
РУСТАМОВ Н.Т., КАНТУРЕЕВА М.А.
СТРУКТУРИЗАЦИЯ ПРОДУКЦИОННЫХ МОДЕЛИ ЗНАНИЙ
(Евразийский национальный университет им. Л.Н. Гумилева, г. Астана)
В данной работе предлагается продукционный метод структуризации знаний. Приводится формализация такого
подхода, с целью теоретического обоснования предложенной концепции.
Компьютерный мир проходит мучительный процесс эволюционного переход от
вычислительных систем в их, если так можно выразиться, «чистом виде» через системы обработки
данных, далее к системам управления информацией и знанием. Мучительность этого процесса
состоит в том, что на каждом из его этапов усложняются не только средства, но и предмет обработки
– причем и предмет, и средства управления информацией и знанием далеки от полноценного
определения.
Когда появились первые компьютеры, они использовались непосредственно, отвечая своему
названию – как средство автоматизации расчетов. Вплоть до 70–х годов прошлого века применение
компьютеров ограничивалось решением математических задач, поэтому достаточно было
представлять данные в виде массивов чисел, что не представляло особого труда. Затем,
необходимость оперирования данными с более сложной структурой привела к появлению систем
управления базами данных; этот этап начался в 70-е годы прошлого века и протянулся до
современности. На первых двух этапах участие человека ограничивалось подготовкой данных и
анализом конечных результатов [1].
Особенности третьего этапа связаны прежде всего, появлением фундаментальных отличий трех
«соседствующих» понятий – данных, являющихся продуктом, потребляемой машиной, информации и
знания, продуктом, который потребляет человек. Эти различия пока еще не вполне осознаны.
Поэтому и появляются на свет отдельные, чаще паллиативные решения, которые в каком–то смысле
этого слова являются информационными системами. Далее, интеллектуализация этих систем
породила задачу структуризации знаний. В данной работе сделана попытка решить эту задачу с
помощью понятий «продукция».
Метод решения. В общем виде под продукцией понимается выражение следующего вида [2].
(i) Q; P; AB; N
(1)
здесь і - имя продукции, с помощью которого данная продукция выделяется из всего множества
продукций. В качестве имени может выступать некоторая лексема, отражающая суть данной
продукции (например, “покупка книги” или “набор вида замка”), и порядковый номер продукции в
их множестве, хранящемся в памяти системы.
Элемент Q характеризует сферу применения продукции, т.е. контекст где интерпретируется
информация J p (x) . Такие сферы легко выделяются в когнитивных структурах человека. Наши
знания как бы “разложены по палочкам”. На одной “палочке” хранятся знания о том, как надо
готовить пищу, на другой – как добраться до работы и т.п.
Основным элементом продукции является ее ядро - носитель знания: AB. Интерпретация
ядра продукции может быть различной и зависит от того, что стоит слева и справа от знака секвенции
. Обычное прочтение ядра продукции выглядит так: ЕСЛИ А, ТО В, более сложные конструкции
ядра допускают в правой части альтернативный выбор, например, ЕСЛИ А, ТО В1, ИНАЧЕ В2.
Секвенция может истолковываться в обычном логическом смысле как знак логического следования В
на истинного А (если А не является истинным выражением, то о В ничего сказать нельзя). Возможны
и другие интерпретации ядра продукции, например А описывает некоторые условия, необходимое
для того, чтобы можно было совершить действие В. Элемент Р есть условие применимости ядра
продукции. Обычно Р представляет собой логическое выражение (как правило предикат). Когда Р
принимает значение “истина”, ядро продукции активизируется. Если Р ложно, то ядро продукции не
может быть использовано. Например, если в продукции “НАЛИЧИЕ ДЕНЕГ”; “ЕСЛИ ХОЧЕШЬ
79
В.В.Яворский, А.Ж.Кинтонова
КУПИТЬ Х, ТО ЗАПЛАТИ В КАССУ ЕЕ СТОИМОСТЬ И ОТДАЙ ЧЕК ПРОДАВЦУ” условия
применимости ядра продукции ложно, т.е. денег нет, то применить ядро продукции невозможны.
Элемент N описывает постусловие продукции. Они актуализируются только в том случае, если ядро
продукции реализовалось. Постусловия продукции описывают действия и процедуры, которые
необходимо выполнить после реализации В. Например, после покупки некоторой вещи в магазине
необходимо в описи товаров, имеющихся в этом магазине, уменьшить количество вещей такого типа
на единицу. Выполнение N может происходить не сразу после реализации ядра продукции.
При этом информация должна быть семантической. Надо сразу отметить, что традиционная
(шенноновская) теория информации, являющейся частью теории связи изучает методы кодирования
сообщений различных источников и проблемы надежной передачи сообщений по каналам связи с
шумом. Сама семантика сообщений здесь остается в стороне и, следовательно, семантическая
информация не является предметом этой теории. Понятие семантической информации, семантика
знаний отсутствует и в традиционной (виннеровской) кибернетике. Это связано с тем, что в
кибернетике в ситуациях, когда каждый из исследуемых точек множества Х характеризуется (если
смотреть эту точку в информационном пространстве) большим числом разнотипных
взаимосвязанных свойств, тогда определить знание об этой точке требует более глубокого (в
диалектическом смысле) изучиния свойства и идентификации его семантического указателя.
Актуальность этой проблемы обусловлена как необходимостью решения задачи, определения
семантики свойств точки, так и связанные с созданием базы знаний. Для информационных систем
работающих семантическими информациями, само создание базы знаний тесно связано с
представлением знаний для обработки, хранения и передачи.
Всякий объект обладает определенными свойствами, проявляющимися при отражении с другими
объектами. Всякое свойство объекта проявляется в рамках того или иного контекста [3]. Как уже
отмечалось, всякое сведение должно иметь указатель (имя) объекта, о котором сообщается в данном
сведении. Обозначим через х тот объект, который указан в сведении. Тогда х является элементом
как опорного множества Х , так и подмножества  , т.е. х  Х , х   . В случае табличном
представлении х1 , х2 ,..., хn  X будет выражать строку таблицы.
Все вышесказанное схематически можно представить следующим образом:
Таблица Х
1
2
3
…
n
х0
a 01
a 02
a 03
…
a0n
х1
a11
a12
a13
…
a1n
х2
a 21
a 22
a 23
…
a2n
…
…
…
…
…
…
xn
a n1
an2
a n3
…
amn
Информация в контексте x0

Информация в контексте  , J 
Рис.1. Табличное представление свойства точки
х Х
Определение 1. Непустое семейство элементарных сведений об объекте x из Х назовем
продукционной информацией об объекте х  Х , и обозначим через J х x  в заданном контексте р ,
если выполняются следующие условия:
1) из  р  х   J х x  следует, что   непустое множество, т.е.  p  x   
80
В.В.Яворский, А.Ж.Кинтонова
2) из  р  х   J х x  следует, что любое общее сведение  p    x  также принадлежит J х x  , т.е.
~
для любого подмножества  p    p  в X будет   x   J х  x 
~
~
3) из  1 x ,  2 x   J х x  следует, что  p 1 x   p  2  x0   J p  x 
.
Если задан контекст х  х1 , х2 ,..., хn  , тогда семантика информации J х x  выглядит следующим
образом:
J х x    p1  1 x ,  p 2  2  x ,...,  p n  n x 
.
(2)
По своей диалектической природе  могут иметь глобальные и локальные выраженности [3].
Именно выраженность  рождает причинно- следственные связи между элементарными
информациями.
При решении практических задач существенную роль играют информации J х x  , связанные
с «причинно-следственными» свойствами. Допустим, что точка x  X имеет различные свойства,
определяющиеся тройкой  p  x  . Каждое свойство отражается в J х x  . Различия этих свойств
формально можно выражать с помощью логической импликации, объединения и пересечения, т.е.
 p1  x1    p2  x2    p3  x3    p4  x4 ..... . Такое представление информации называется
интерпретацией данных в контексте х  х1 , х2 , ..., хn  . Интерпретация данных в контексте тесно
связана
с определением из данных
 px   p1 x,  p 2 x....
имеющих «причинные» и
«следственные» свойства. Естественно, из этих соображений вытекает, что информация J х x  тоже
имеет «причинно-следственные» свойства. Из-за глобальной и локальной выраженности свойств 
порождаются «причинные» и следственные характеристики свойств  [4]. Это в свою очередь
порождает глобальные и локальные характеристики информации.
Из (2) видно что, если, контекст изменится, то семантика той же информации будет
интерпретироваться по другому.
Определение 2 [5]. Семейство L подмножеств множества X назовем решеткой uei для , X если:
а) X  L,   L
б) из 1 , 2  L следует 1  2  L
где 1  ue1 ,
2  ue2
в) из 1 , 2  L следует 1  2  L
г) из 1 , 2  L следует 1 \ 2  L
Элементы решетки будет отождествляться с информационными единицами uei , объем которых
определяется этими элементами как множествами.
При таком представлении uei будет выражать совокупность  характеризующих определенные
свойства изучаемого объекта, эти свойства определяются практикой. Потребность к uei вытекает изза того, что надо представить предметную область в виде знаний.
Например
81
В.В.Яворский, А.Ж.Кинтонова
   ue0  пустое множество,

   доктора наук

ue1  имеющие научную степень   1

 2  кандидаты наук

  3  не доктора наук

ue2  не имеющие научную степень   4  не кандидаты наук

   ассистенты
L1  
 3

  4  не доктара наук

  не кандидаты наук


ue3  профессора   5

  6  доктор наук

  7  кандидат наук

 Х  ue  все преподователи
4

Этот пример показывает, как образуются информационные единицы ue .
Как известно, подтверждение гипотез на основании верификации ее, следствий осуществляется
способом превращения заключения в умозаключений, от утверждения следствия к утверждению
основания, поэтому надо брать всю совокупность взаимосвязанных следствий, и тогда гипотеза
однозначно будет вызываться только данной совокупностью следствий, а поэтому заключение будет
вызываться только данной совокупностью следствий, и поэтому заключение будет не вероятным, а
достоверным, протекающим по формуле
H  c1  c2  c3  ...  cn  ,
где H - гипотеза, c1 , c2 , c3 ,..., cn - следствия вытекающие из нее импликация от гипотезы к
совокупности следствий.
Эта процедура выражает превращение элементарной информации в элементарное знание. Понятно,
что такое преобразование осуществляется [4]. алгоритмом имеющим эвристические свойства.
Решение практических задач показало, что, информативные  являются гипотезами H [6]. Именно,
определение информативных  будет началом работы алгоритма преобразования информации в
знание [7].
Определение 3. Элементарным продукционным знанием будем называть информацию
 p  x  J х x интерпретируемую в uei и имеющие следующие свойства:
 
 ~
- всякое подмножество puei  множества puei  x   J ue x  принадлежит
J ue x  ,
- пересечение конечного числа множеств из J ue x  принадлежит J ue x  ,
- пустое множество Ø не принадлежит J ue x  ,
- при   ue элементарное знание Ф
uei
 x , где ' x   J x   J~ x  ;
'
ue
ue
здесь
~
J ue  x    1 x    2 x   ...;
(3)
В предлагаемой концепции данные интерпретируются в контексте р и в решетке uei Из рис.1.
видно, что данные интерпретируются по столбцам и по строкам. Тогда у нас получится информация в
контексте  и знание в uei .
82
В.В.Яворский, А.Ж.Кинтонова
Утверждение 1. Всякая конечная
знанию Ф
uei
x  если   ue .
Доказательство.
Пусть
 px
информация J ue x  , эквивалентна элементарному
( x)   1 x ;...;  n ( x) в контексте
ue . Тогда их конъюнкция
 x    1 x  & ... &  n x  также принадлежит J x  . По определению J ue x  для  x  существует
 i x  из x , менее общее, чем  0  x  , т.е.  i   0 .
Следовательно, среди сведений данных x есть сведение  i x    0 x  , а остальные сведения
ue
более общие чем  0 x0  . Поэтому x
 0  x  дает ту же информацию J ue x  , что и J ue x 
~
значит   ue . Из этого следует, что J ue x  является элементарным знанием.
Из семантики продукции видно, что А3 – это есть информация J   (( x)) имеющий
~
~
причинное свойство, а В3 – это будет информацией J  (( x)) , где J  (( x))  J  (( x)) имеющий
следственные свойства. Например, знание  ue сужение или разрыв сосудов головного мозга
приведет к мозговому инсульту. Здесь информация J  (( x)) - сужение или разрыв сосудов
~
головного мозга. Информация J  (( x)) - мозговой инсульт (  n - паралич, глубокий порез, запор,
и.т.д.) [7].
~
В этом случае знание  ue представляется как  uei (  ( x ))  J  (( x))  J  (( x)) , иеi – это
мозговой инсульт.
Выводы. Представление знаний в продукционном виде, дает нам возможность структуризировать
эти знаний в виде таблицы [4]. Такая структиризация, имеют по крайней мере два недостатка. При
большом числе продукции становится сложной проверка непротиворечивости системы продукций.
Это заставляет при добавлении новых продукций тратить много времени на проверку
непротиворечивости новой системы. Из–за присущей системы недетерминированности
(неоднозначного выбора выполняемой продукции из фронта активизированных продукций)
возникают принципиальные трудности при проверке корректности работы системы. Это недостаток
можно устранить, применением алгоритма вычисления оценок для генерации новых знаний. В
продукционных БЗ каждую продукцию, находящуюся на пересечении строк и столбцов таблицы,
можно интерпретировать контексте р и иеi Х. Вопрос интерпретации, тесно связан с оценкой
выраженности элементов ∆.
Продукционным моделям не хватает строгой теории [2]. Пока в них царит эвристика. При
задании модели проблемной области в виде совокупности продукций нельзя быть уверенным в ее
полноте и непротиворечивости. Причина неудач создания теории кроется в расплывчатости понятия
данных, информации и знаний. Не смотря на это, решения практических задач показывает
правильность преложенной концепции.
СПИСОК ЛИТЕРАТУРЫ
1. Черняк Л. Навстречу системам хранения неструктурированных данных. - М.: Открытые
системы. 2004, С. 40-44.
2. Поспелов Д.А. Продукционные модели. Искусственный интеллект. –Кн.2. Модели и методы:
Справочник. – М.: Радио и связь. 1990. -340с.
3. Чичкин А.В. Математическая информатика - М.: Наука. - 1991. - 416 с.
4. Рустамов Н.Т., Асабаев О.М., Кантуреева М.А. Особенности продукционных знаний. Астана: Вестник ЕНУ им Л.Н. Гумилева., №4(65), 2008. - С.36-42.
5. Рустамов Н.Т., Темирбеков А.Н., Кантуреева М.А. Валидность представления знаний. Астана: Вестник ЕНУ им. Л.Н. Гумилева
№ 4(71), 2009. –С.57-62.
6. Исраилов Р.И., Рустамов Н.Т., Рустамов Б.К. Математический метод
клинического
прогнозирование морфологических и морфометрических изменений сосудов головного мозга
при инсульте. //Электронный математический и медико– биологический журнал. - Смоленск:
Математическая морфология. 2009.– Т.8. – Вып. 1. –С. 7 -15.
83
В.В.Яворский, А.Ж.Кинтонова
7. Рустамов Н.Т. Формализация понятий данные, информация и онтология знаний
//Республиканская научно - практическая конференция. «Наука и производства». Жетысай.
2009.- т.1.- С.136- 146.
Білімді құрылымдаудың өнімді моделі
Бұл жұмыста білімді құрылымдаудың өнімді әдісі келтірілген, мұндай құрылым ұсынылған концепцияны
теориялық тұрғыдан түсіндіру үшін келтірілген.
Structurization product models of knowledge
In this work product method of structurization of knowledge is given. Formalisation of such approach, is resulted
with the purpose of a theoretical substantiation of the suggested concept.
84
В.В.Яворский, А.Ж.Кинтонова
ИСАЙНОВА А. Н., ШАРИПБАЕВ А.А.
ОЦЕНКА РИСКА ПО МЕТОДУ МОНТЕ-КАРЛО
(Евразийский Национальный Университет им. Л.Н.Гумилева)
Сущность метода Монте-Карло состоит в следующем: требуется найти значение а некоторой
изучаемой величины. Для этого выбирают такую случайную величину Х, математическое ожидание
которой равно а: М(Х)=а.
Практически же поступают так: производят n испытаний, в результате которых получают n
возможных значений Х; вычисляют их среднее арифметическое
оценки (приближённого значения) a* искомого числа a:
и принимают x в качестве
.
Поскольку метод Монте-Карло требует проведения большого числа испытаний, его часто
называют методом статистических испытаний. Теория этого метода указывает, как наиболее
целесообразно выбрать случайную величину Х, как найти её возможные значения. В частности,
разрабатываются способы уменьшения дисперсии используемых случайных величин, в результате
чего уменьшается ошибка, допускаемая при замене искомого математического ожидания а его
оценкой а*.
Оценка погрешности метода Монте-Карло.
Пусть для получения оценки a* математического ожидания а случайной величины Х было
произведено n независимых испытаний (разыграно n возможных значений Х) и по ним была найдена
выборочная средняя
, которая принята в качестве искомой оценки:
. Ясно, что если
повторить опыт, то будут получены другие возможные значения Х, следовательно, другая средняя, а
значит, и другая оценка a*. Уже отсюда следует, что получить точную оценку математического
ожидания невозможно. Естественно возникает вопрос о величине допускаемой ошибки. Ограничимся
отысканием лишь верхней границы d допускаемой ошибки с заданной вероятностью (надёжностью)
g:
.
Интересующая нас верхняя грань ошибки d есть не что иное, как «точность оценки»
математического ожидания по выборочной средней при помощи доверительных интервалов.
Рассмотрим следующие три случая.
Случайная величина Х распределена нормально и её среднее квадратичное отклонение d
известно.
В этом случае с надёжностью g верхняя граница ошибки
, (*)
где n число испытаний (разыгранных значений Х); t – значение аргумента функции Лапласа, при
котором
, s - известное среднее квадратичное отклонение Х.
Случайная величина Х распределена нормально, причём её среднее квадратическое отклонение s
неизвестно.
В этом случае с надёжностью g верхняя граница ошибки
, (**)
где n – число испытаний; s – «исправленное» среднее квадратическое отклонение,
находят по
таблице приложения 3.
Случайная величина Х распределена по закону, отличному от нормального.
В этом случае при достаточно большом числе испытаний (n>30) с надёжностью, приближённо
равной g, верхняя граница ошибки может быть вычислена по формуле (*), если среднее
квадратическое отклонение s случайной величины Х известно; если же s неизвестно, то можно
85
В.В.Яворский, А.Ж.Кинтонова
подставить в формулу (*) его оценку s – «исправленное» среднее квадратическое отклонение либо
воспользоваться формулой (**). Заметим, что чем больше n, тем меньше различие между
результатами, которые дают обе формулы. Это объясняется тем, что при
распределение
Стьюдента стремится к нормальному.
Из изложенного следует, что метод Монте-Карло тесно связан с задачами теории вероятностей,
математической статистики и вычислительной математики. В связи с задачей моделирования
случайных величин (в особенности равномерно распределённых) существенную роль играют также
методы теории чисел.
Среди других вычислительных методов, метод Монте-Карло выделяется своей простотой и
общностью. Медленная сходимость является существенным недостатком метода, однако, могут быть
указаны его модификации, которые обеспечивают высокий порядок сходимости при определённых
предположениях. Правда, вычислительная процедура при этом усложняется и приближается по своей
сложности к другим процедурам вычислительной математики. Сходимость метода Монте-Карло
является сходимостью по вероятности. Это обстоятельство вряд ли следует относить к числу его
недостатков, ибо вероятностные методы в достаточной мере оправдывают себя в практических
приложениях. Что же касается задач, имеющих вероятностное описание, то сходимостью по
вероятности является даже в какой-то мере естественной при их исследовании.
В качестве оценки определённого интеграла
принимают
,
где n – число испытаний;
- возможные значения случайной величины X, распределённой
равномерно в интервале интегрирования
, их разыгрывают по формуле
, где
- случайное число.
Дисперсия усредняемой функции
равна
,
где
. Если точное значение дисперсии вычислить
,
трудно или невозможно, то находят выборочную дисперсию (при n>30)
, или
исправленную дисперсию (при n<30)
, где
.
Эти формулы для вычисления дисперсии применяют и при других способах интегрирования,
когда усредняемая функция не совпадает с подынтегральной функцией.
В качестве оценки интеграла
единичному квадрату
,
, где область интегрирования D принадлежит
, принимают
, (*)
где S – площадь области интегрирования; N – число случайных точек
области интегрирования.
86
, принадлежащих
В.В.Яворский, А.Ж.Кинтонова
Если вычислить площадь S трудно, то в качестве её оценки можно принять
случае формула (*) имеет вид
; в этом
,
где n – число испытаний.
В качестве оценки интеграла
принадлежит единичному кубу
, где область интегрирования V
,
, принимают
,
где V – объём области интегрирования, N – число случайных точек
области интегрирования.
Если вычислить объём трудно, то в качестве его оценки можно принять
формула (**) имеет вид
,
, принадлежащих
, в этом случае
, где n – число испытаний.
Задача: найти оценку
определённого интеграла
Решение. Используем формулу
.
. По условию, a=1, b=3,
.
Примем для простоты число испытаний n=10.Тогда оценка
где возможные значения
разыгрывается по формуле
Результаты десяти испытаний приведены в таблице 1.
Случайные числа
Таблица 1.
Номер
взяты из таблицы приложения.
i
1
2
3
4
5
6
7
8
9
10
0,100
0,973
0,253
0,376
0,520
0,135
0,863
0,467
0,354
0,876
Из таблицы 1 находим
1,200
2,946
1,506
1,752
2,040
1,270
2,726
1,934
1,708
2,752
2,200
3,946
2,506
2,752
3,040
2,270
3,726
2,934
2,708
3,752
. Искомая оценка
87
,
.
В.В.Яворский, А.Ж.Кинтонова
Заключение.
Метод Монте-Карло используется очень часто, порой некритично и неэффективным образом. Он
имеет некоторые очевидные преимущества:
а) Он не требует никаких предложений о регулярности, за исключением квадратичной
интегрируемости . Это может быть полезным, так как часто очень сложная функция, чьи свойства
регулярности трудно установить.
б) Он приводит к выполнимой процедуре даже в многомерном случае, когда численное
интегрирование неприменимо, например, при числе измерений, большим 10.
в) Его легко применять при малых ограничениях или без предварительного анализа задачи.
Он обладает, однако, некоторыми недостатками, а именно:
а) Границы ошибки не определены точно, но включают некую случайность. Это, однако, более
психологическая, чем реальная, трудность.
б) Статическая погрешность убывает медленно.
в) Необходимость иметь случайные числа.
88
В.В.Яворский, А.Ж.Кинтонова
Приложение.
Равномерно распределённые случайные числа
10 09 73 25 33 76 52 01 35 86 34 67 35 48 76 80 95 90 9117
37 54 20 48 05 64 89 47 42 96 24 80 52 40 37 20 63 61 04 02
08 42 26 89 53 19 64 50 93 03 23 20 90 25 60 15 95 33 47 64
99 01 90 25 29 09 37 67 07 15 38 31 13 11 65 88 67 67 43 97
12 80 79 99 70 80 15 73 61 47 64 03 23 66 53 98 95 11 68 77
66 06 57 47 17 34 07 27 68 50 36 69 73 61 70 65 81 33 98 85
31 06 01 08 05 45 57 18 24 06 35 30 34 26 14 86 79 90 74 39
85 26 97 76 02 02 05 16 56 92 68 66 57 48 18 73 05 38 52 47
63 57 33 21 35 05 32 54 70 48 90 55 35 75 48 28 46 82 87 09
73 79 64 57 53 03 52 96 47 78 35 80 83 42 82 60 93 52 03 44
СПИСОК ЛИТЕРАТУРЫ
1.Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической
статистике: Учебное пособие для студентов втузов. – 3-е издание, переработанное и дополненное –
М.: Высшая школа, 1979.-C.285
2Ермаков С. М. Методы Монте-Карло и смежные вопросы. М.: Наука, 1971. – С. 75
3.Севастьянов Б. А. Курс теории вероятностей и математической статистики. – М.:Наука,1982.С. 56
4.Математика. Большой энциклопедический словарь / Гл. ред. Ю. В. Прохоров. – М.: Большая
Российская энциклопедия,1999. – С.103
89
В.В.Яворский, А.Ж.Кинтонова
Б.З. АНДАСОВА
ДЕРЕКТЕР ҚОЙМАСЫ ЖӘНЕ ОНЫҢ МӘСЕЛЕЛЕРІ
(Л.Н.Гумилев атындағы Еуразия ұлттық университеті, Астана қаласы)
Жұмыста деректер қоймасы тұжырымы, оның негізгі ұғымдары мен компоненттері сипатталады. Деректер
қоймасының мүмкіндіктері, кемшіліктері мен мәселелері, оларды шешу жолдары қарастырылады.
Деректер қоймасы тұжырымы. Экономиканың түрлі салаларының дамуы олардың жұмысына
қажет маңызды ақпаратты сақтауға арналған үлкен интеграцияланған деректер қоймасын құруды
талап етеді. Сондықтан басқару мен бизнесті дамытудың басты құралы ретінде деректер қоймасы
бүгінгі таңда өзіне көңіл аударып отыр.
Деректер базасы технологиясының дамуындағы жаңа бағыттың негізін қалаушы, деректер
қоймасы тұжырымының авторы Уильям Инмон 1990 жылы деректер қоймасын жедел талдау мен
шешім қабылдауға қажетті «біртұтас және жалғыз» шынайы ақпаратпен
менеджерлер мен
аналитиктерді қамтамасыз ететін «пәнге бағытталған, интеграцияланған, өзгермейтін, хронологияны
қолдайтын, басқаруды қолдау мақсатында ұйымдастырылған деректер жинағы» деп классикалық
анықтама берді [1].
Уильям Инмон деректер қоймасының келесі қасиеттерін (құрылымын) анықтады:
 пәнге бағытталуы – қоймада талдауға және шешім жасауға қажетті деректер ғана
сақталады;
 деректердің интеграциялануы – әр түрлі уақытта әр түрлі әзірлеу құралдары арқылы әртүрлі
құрушылардың ұжымдары жасаған деректер базаларындағы мәнісі бір объектілердің атаулары мен
өлшем бірліктерінің әртүрлі болу мәселесін шешеді;
 уақыт ішіндегі инварианттылық – деректердің қатаң және біртипті хронологиясын қолдау;
 бұзылмауы – ақпараттың тұрақтылығы – қоймаға деректер тек жүктеледі және оқылады. Бұл
мына екі мәселені шешеді: бір рет жазылған деректер өз актуальдылығын әрқашан сақтайды және
деректерге қатынау жылдамдығы артады;
 ақпарат артықтығын минимизациялау – қоймада тек қажетті ақпарат қана болады.
Деректер қоймасы тұжырымы – бұл корпоративті ақпаратты жүйелерді құрудың архитектурасы.
Ол ұйымдастырылуы мен орналасу жағынан үлестірілген, ал олардың талдауы шешім қабылдауға
ықпал ететін, қажетті деректерге түпкі қолданушылардың тікелей бірыңғай қатынауды қажет етуінің
нәтижесінде дамыды [2].
Деректер қоймасы тұжырымының негізінде екі басты идея жатыр:
1) нақтыланған (нақты фактілер, оқиғалар, қасиеттерді т.б. сипаттайтын) түрдегі бөлек
орналасқан деректерді біртұтас қоймаға интеграциялау. Процесс барысында келісілмеген
деректердің келісілуі,
агрегация орындалады. Деректер қоймаға корпорацияның тарихи
архивтерінен, жедел деректер базаларынан, сырты ақпарат көздерінен түсуі мүмкін.
2) жедел өңдеуге және талдау есебін шешуге арналған деректер жинағы мен қолданбаларды
бір-бірінен ажырату.
Осы тұрғыдан басты мәселе – басқарудың күрделі объектісін біртұтас интеграцияланған түрде
қарастыруды, ол туралы жиналған мәліметтерге кешенді талдау жасауды, үлкен көлемді нақты
деректердің ішінен пайдалы ақпаратты алуды қамтамасыз ету болып табылады.
Деректер қоймасы пәнге бағытталғандықтан оның ұйымдастырылуы бизнес процестерді
автаматтандыруға емес, ақпаратты талдауға арналады. Бұл қасиет оның құрылу архитектурасын
анықтайды [3].
Деректер қоймасы деректер жинағының уақытына тәуелді немесе тарихи деректерді сақтайды.
Ол шешім қабылдауды қолдауға арналған, оның қолданушылары – банктің жоғары және орта
менеджменті, аналитиктер, қаржылық талдау мен маркетинг бөлімдерінің өкілдері және т.б.
Жинақталған ақпарат негізінде басқарудың шешімін қабылдауды қолдау үш негізгі салада іске асады
[4]:
1. Нақтыланған деректер саласы. Бұл – ақпаратты іздеуге арналған көпшілік транзакциялық
жүйелердің (OLTP) әрекет ету саласы. Көп жағдайда реляциялық ДББЖ мұндағы міндеттерді жақсы
шеше алады.
90
В.В.Яворский, А.Ж.Кинтонова
2. Агрегацияланған көрсеткіштер саласы. Деректер қоймасына жиналған ақпаратқа кешенді
көзқарас, оны жалпылау және агрегациялау, гиперкубтық бейнелеу, көпөлшемді талдау – деректерді
жедел аналитикалық өңдеу жүйелерінің (OLAP) міндеттері болып табылады.
3. Заңдылықтар саласы. Деректерді интеллектуальды талдаудың әдістері (Data Mining)
арқылы деректерді интеллектуальды талдау мен өңдеу орындалады, жиналған ақпараттан
функциональды және логикалық заңдылықтарды
іздеу, қарастыратын процестердің дамуын
түсіндіру немесе болжам жасау үшін модельдер мен ережелер құру міндеттері қойылады.
Деректер қоймасындағы барлық деректер үш категорияға бөлінеді: метадеректер, нақты
деректер, агрегацияланған деректер [5]:
Деректер қоймасының негізгі компоненттері:
 Аралық қабаттың программалық қамтамасы – желілік қатынау мен деректер базаларына
қатынауды қамтамасыз етеді. Бұларға желілік және коммуникациялық хаттамалар, драйверлер,
хабарлармен алмасу жүйелері және т.б. жатады.
 Транзакциялық деректер базалары және сыртқы ақпарат көздері.
 Деректерге қатынау деңгейлері – бұған жататын программалық қамтамалар түпкі
қолданушылардың деректер қоймасымен қатынасын және транзакциялық жүйелерден керек
деректерді жүктеуді қамтамасыз етеді. Әмбебап қатынау тілі ретінде SQL қолданылады.
 Жүктеу және алдын-ала өңдеу – бұл деңгей OLTP-жүйелер мен сыртқы көздерден
деректерді жүктеуге арналған құралдардан тұрады. Деректер тазалығы тексеріледі, консолидация,
форматтау, фильтрация және т.б. өңдеулер қоса жүргізіледі.
 Ақпараттық қойма – бүкіл жүйенің ядросы, яғни деректер базаларының бір немесе
бірнеше серверінен тұрады.
 Метадеректер (репозиторий, «деректер туралы деректер») – бастапқы деректердің көздері,
бастапқы деректерді өңдейтін алгоритмдер және т.б. туралы мәліметтерден тұратын анықтама
қызметін атқарады.
 Ақпараттық қатынау деңгейі – деректер қоймасының деректерімен қолданушының тікелей
қатынасын манипуляциялаудың, талдаудың және бейнелеудің стандартты жүйелері (MS Excel, MS
Access, Lotus 1-2-3 және т.б.) арқылы қамтамасыз етеді.
 Басқару деңгейі (әкімшілік ету) – деректер қоймасын жаңартуға немесе оның күйін
қолдауға арналған процедуралардың орындалуы қадағаланады.
Деректерді интеграциялаудың мәселелері
 Программалық ортаның әртекті болуы;
 Үлестірілген түрде ұйымдастырылуы;
 Деректердің қауіпсіздігіне жоғары талаптар қойылуы;
 Көпдеңгейлі метадеректер анықтамалықтарын қажет етуі;
 Аса үлкен көлемді ақпаратты тиімді сақтау мен өңдеу қажеттілігі.
Деректер қоймасы мен витриналарының жүзеге асуының түрлері:
 Виртуальды деректер қоймасы – оның негізі – ақпарат көздерін сипаттайтын метадеректер
репозиторийі, SQL-сұратулар.
 Деректер витринасы (Data Mart, киоск) – бұл корпорация әрекетінің жеке аспектілеріне
қатысты ақпараттары бар, тақырыбы бойынша байланысқан деректер базалары. Деректер витринасы
– тақырып бойынша біріктірілген деректерден тұратын деректер қоймасының жеңілдетілген, көлемі
шағын түрі. Көп ретте витринаға деректер деректер қоймасынан алынғандықтан, витринада тазалау,
унификация, денормализация құралдары сирек қолданылады. Деректер қоймасынан айырмашылығы,
мұнда қолданушы өз деректерінің құрылымын жасай алады [5].
 Кең ауқымды деректер қоймасы. Соңғы кезде деректер қоймасы мен витриналарының
тұжырымдарын біріктіру, яғни деректер қоймасын барлық деректер витриналары үшін жалғыз
интеграцияланған деректер көзі ретінде қолдану идеясы кең етек алып келеді.
 Деректер қоймасының көпдеңгейлі архитектурасы. Бірінші деңгейде қазіргі заманғы
реляциялық ДББЖ негізінде нақтыланған интеграцияланған деректерден тұратын корпоративті
деректер қоймасы іске асады. Екінші деңгейде көпөлшемді ДББЖ негізінде (мысалы, Oracle Express
Server) деректер витриналары қолдау табады. Олар деректер қоймасына жасалған сілтемелерден
тұруы мүмкін және сұратулардың түсуіне байланысты ақпаратпен толығып отырады. Үшінші
91
В.В.Яворский, А.Ж.Кинтонова
деңгейде түпкі қолданушылардың деректерді жедел талдау құралдары орнатылған клиенттік жұмыс
орындары болады.
Вон Кимнің [6] айтуынша қазіргі заманғы деректер қоймасының үш басты кемшілігі бар:
1) «лас» деректерді өңдеудің қанағаттанарлықсыз болуы;
2)
деректер қоймасына енгізу үшін деректер көздерін таңдаудың
қанағаттанарлықсыз болуы;
3)
сканерлеуге негізделген операцияларды орындаудағы өнімділік пен
масштабтылықтың қанағаттанарлықсыз болуы.
Деректерді талдау және оның соңынан шешім қабылдау тұрғысынан аса көңіл аударатын
деректер қоймасын қолданудағы осал жер – ол оған енгізілетін деректердің келісушілігі мен дұрыс
болуы. Алайда, әдетте деректер қоймасын құрғанда оған түсетін деректерді тазалауға көп көңіл
бөліне бермейді. Бұл қойманың келісілмеген, қате деректермен «ластануын» тудырады. Мысалы,
орфографиялық қателері бар, дұрыс емес форматтағы, толық емес немесе керексіз деректер, кетіп
қалған немесе жоқ адамдар туралы сақталған деректер және т.б. Ал ақпаратты тазалау қажет, себебі
олар әр текті болады және әртүрлі ақпарат көздерінен түседі. Кез келген күрделі жүйеде ақпаратты
жинау барысында деректердің келіспеушілігі, енгізу қатесі немесе жаңылысулар болады. Деректер
қоймасын толтыру барысында деректердің сапасына әсер ететін қателердің пайда болуының
себептерін былайша топтауға болады:
 қарама-қайшылықты ақпарат;
 деректердің қалып кетуі;
 аномальды мәндер;
 деректерді енгізу қателері.
Осыған байланысты деректер қоймасын құрудың әдебиеттерде [6-7] қарастырылған келесі
мәселелерін атауға болады:



Ақпараттың қарама-қайшылықты болуы. Бұл мәселені шешу үшін ненің қарамақайшылық деп саналатынын анықтап, қарама-қайшылығы бар жазбаларды түзету, кейде жою
әрекеттері орындалады.
 Деректердің қалып кетуі де, әсіресе болжам жасау әдістерін қолданған кезде – маңызды
мәселенің бірі. Бұл мәселені шешу үшін реттелген деректерге аппроксимация (жоқ нүктенің айналасы
қарастырылып, формуламен осы нүктедегі мән есептелінеді) және неғұрлым ұқсас мәнді анықтау
(барлық дерек қарастырылады) әдістері қолданылады.
 Аномальды мәндер. Кейде деректер ішінде қалғандарынан аса қатты ауытқитын мәндері
бар деректің болу оқиғасы орын алады, бұл мәселені робастты бағалау әдісімен шешеді. Шектен
шыққан мәндер не жойылады, не жақын деген шекарлық мәнмен алмастырылады.
 Шулар. Деректерді талдау кезінде шулар кезігеді, оларда ешқандай пайдалы ақпарат жоқ.
Шуларды жою үшін спектральды талдау, авторегрессиялық әдістер қолданылады.
 Деректерді енгізу қателері. Бұл типтегі қателердің саны аса көп. Бұл мәселені шешу үшін
де деректерді енгізу алдына форматын тексеру, тезаурус арқылы тексеру және т.б. сыналған әдістері
баршылық.
Бұл мәселелердің әрқайсысын шешудің, сондай-ақ «лас» деректерден арылудың сыналған
әдістері бар. «Лас» деректер деректер қоймасының үлкен мәселесі болып табылады. Сондықтан
деректерді фильтрациялау механизмі деректер қоймасының маңызды атрибуты болуы тиіс. Қазіргі
кезде деректерді тазалаудың құралдары (Vality/Ascential Software, Trillium Software, First Logic
компанияларының өнімдері) автоматты түрде кейбір маңызды деректер типтерін, соның ішінде кісі
аттары мен адрестерін ұлттық каталогтарды қолданып түзете алады.
 Деректер көздерін таңдау мәселесі. Деректер қоймасын құрғанға дейін онда сақталуы тиіс
дерекер үшін мүмкін болатын барлық сұратуларды анықтау қиын есеп. Бұл мәселе жұмыс
барысында біртіндеп түскен сұратуларды тіркеу арқылы шешіледі және қажет деректер ғана
сақталуы тиіс.
 Өнімділік пен масштабтылық мәселелері. Реляциялық деректер базаларындағы (РДБ)
хэштеу негізіндегі индекстер мен B+-бұтақтар сияқты түрлі қатынау әдістері бүкіл кестені
сканерлемей-ақ шағын термелеу жасауға мүмкіндік береді. Бұл әдістер нәтиже шағын кесте түрінде
болса ғана аса тиімді. Ал баған мәндері жиі өзгерсе, қатынау әдістерін де жиі өзгертуге тура келеді.
92
В.В.Яворский, А.Ж.Кинтонова
Бұдан басқа РДБ жүйелерінің қатынау әдістерінің агрегация (кесте жолдарын топтап, оларға
агрегаттық функцияны қолдану) және файлдарды ауыстыру (файлдарды тұтас оқу/жазу) сияқты
операциялардың екі тобына күші келмейді. Агрегация операцияларын орындау кезіндегі өнімділік
пен масштабтылық мәселесін шешуге MaxScan и Ab Initio өнімдері арналған. Файлдарды ауыстыру
операциясы деректер қоймасын жасағанда деректерді түрлендіру кезінде және деректерді дайындау
кезеңінде деректер көзінен автоматты түрде деректерді алу үшін маңызды болып табылады.
Қорытынды
Деректер қоймасының технологиясы үлкен көлемді деректерді өңдеуге, талдауға және шешім
жасауда сапалы нәтижелер алуға мүмкіндік береді.
Деректер қоймасын құру кезінде басты көңіл бөлуді талап ететін үш мәселе бар: деректердің
сапасы, деректер көздерін дұрыс таңдау және өнімділік пен масштабтылық.
Қазіргі заманғы деректер қоймасының көпшілігінде деректерді сақтау және басқару үшін
реляциялық деректер жүйелері қолданылады, алайда сканерлеуге (бүкіл кестені не базаны қарау)
бағытталған жазбаларды топтау, агрегатты есептеу, файлдарды ауыстыру сияқты сұратуларды
өңдеуге олардың мүмкіндіктері шектеулі.
ПАЙДАЛАНҒАН ӘДЕБИЕТТЕР
1. W. H. Inmon. Building The Data Warehouse (Second Edition). - NY, NY: John Wiley. - 1993.
2. N. Raden. Данные, Данные и только данные // ComputerWeek-Москва. - 1996. - №8. - С. 28.
3. Спирли Э. Корпоративные хранилища данных. Планирование, разработка и реализация. Т. 1:
Пер. с англ. - М.: Вильямс, 2001. - 400 с.
4. K. Parsaye. New Realms of Analysis: Surveying Decision Support // Database Programming &
Design. - 1996. - N 4. - P. 26-33.
5. Кадощук И.Т., Липчинский Е.А. Обзор технологии хранилищ данных. http://www.olap.
ru/basic/genstore.asp
6. Kim W. On Three Major Holes in Data Warehousing today // J. of Object Technology, 2002. - Vol.
1, N 4. - P. 39-47.
7. Гула А.Ю., Игнатенко А.П., Перечинский И.А. Применение методов интеллектуальной
обработки в задачах очистки хранилища данных. // Сб. тр. конф. Системы поддержки принятия
решений. Теория и практика (7 июня, 2007). –Киев: 2007. - С. 145- 148.
Хранилище данных и их проблемы
В работе описаны концепция, основные понятия и компоненты хранилищ данных. Рассмотрены возможности,
недостатки и проблемы хранилищ данных, пути их решения.
The date warehouse and its problems
The article decribes the сonception of date warehouses, the basic notions and components of date warehouses. The problems
of date warehouses and the methods of solution are considered.
РИФА В.Н.
ОБ ОДНОЙ АЛЬТЕРНАТИВЕ НЕЙРОСЕТЯМ В РЕШЕНИИ ЗАДАЧИ БИОМЕТРИЧЕСКОЙ
ИДЕНТИФИКАЦИИ
93
В.В.Яворский, А.Ж.Кинтонова
(Евразийский Национальный Университет им. Л.Н. Гумилева)
Рассматривается возможность применения метода динамических характеристик для решения задачи идентификации
пользователя компьютера по управлению манипулятором "мышь". Численные эксперименты показывают сходимость
собственных чисел ковариационных матриц к устойчивому индивидуальному набору для пользователя с ростом числа
наблюдений.
Введение
В последнее время заметно возросло количество публикаций по биометрическим методам
идентификации личности или биометрическим системам контроля доступа (БСКД). О
преимуществах и недостатках таких систем написано очень много. Поэтому не буем повторять
известные всем сравнения и остановим свое внимание только на динамических БСКД.
Наиболее просто получить биометрические данные пользователя компьютера можно через
анализ управления манипулятором "мышь" тем же пользователем. Рассмотрим целенаправленные
движения курсора под управлением пользователя компьютера. Авторам представляется, что именно
целенаправленные движения несут более полную информацию о психофизических особенностях
субъекта, нежели случайные блуждания курсора, что собственно и было подтверждено результатами
многочисленных экспериментов.
В имеющейся литературе неоднократно встречаются попытки использовать нейронные сети
(НС) совместно с параметрическими методами для создания классификатора решения задачи
динамической БСКД через управление манипулятором. При этом надо учесть тот факт, что при
дополнении еще одного пользователя к базе уже существующих, необходимо переобучение НС.
Поскольку НС определяет принадлежность входных векторов измерений только тем классам, на
которых происходило обучение, обучить НС на класс "всех остальных" не представляется
возможным [1,2].
Естественно, возникает потребность и желание найти метод, который позволил бы строить
классификатор не на относительных различиях между классами-субъектами, будь то
параметрические или непараметрические статистики, а на некоторых абсолютных значениях вектора
признаков. Эти абсолютные значения, или некоторые аттракторы в признаковом пространстве,
неоспоримо существуют для каждого субъекта и являются присущими только ему, хотя и
существование "двойников" вовсе не исключается. Последнее относится к задаче чувствительности
метода, на основе которого строится признаковое пространство и классификатор.
Постановка задачи
Ставится задача распознавания пользователя по множеству статистических параметров,
полученных на основе данных движения курсора пользователя в реальном времени. Измерения
координат движения курсора необходимо преобразовать таким образом, чтобы получить множество
признаков, однозначно определяющих выбранного пользователя системы.
Решение задачи
В работах [3,4,5,6,7,8] предложен метод построения признакового пространства  на основе
множества  (l ) – характеристик траекторий движения курсора под управлением субъекта.
Приведены статистические доказательства существования аттракторов, в пространстве  – спектров
ковариационных матриц   , индивидуальных для каждого субъекта.
Необходимо найти ответ на вопрос, каким же образом можно простроить классификатор на
таких аттракторах? Попытки применить известные теоремы о среднем и использовать классические
метрики вида:
1
r  ( x1  x1  ...  xn  xn ) p , хотя и дают приемлемые результаты, однако
p
p
требуют больших объемов измерений и вычислений, в силу упоминаемых в тех же работах
фрактальных свойств рядов собственных чисел. Известно, что среднее не является устойчивым для
величин временного ряда, имеющего фрактальную природу.
Признаковое пространство на траекториях
образом:
l
движения курсора определено следующим
(l )  {k ( x(ti ), y (ti ))}, i  0,1,...n, k  1,...,6 ,
94
В.В.Яворский, А.Ж.Кинтонова
где в качестве характеристик траекторий выбраны следующие функции:
vxi  vx(ti ) 
xi 1  xi 1
ti 1  ti 1
i  1,..., n  1 ;
vyi  vy (ti ) 
yi 1  yi 1
ti 1  ti 1
i  1,..., n  1 ;
axi  ax(ti ) 
vxi 1  vxi 1
ti 1  ti 1
i  2,..., n  2 ;
ayi  ay (ti ) 
vyi 1  vyi 1
ti 1  ti 1
i  2,..., n  2 ;
ki  k (ti ) 
vxi ayi  vyi axi
((vxi )2  (vyi ) 2 )3/ 2
i   (ti )  ki (vxi2  vyi2 )1/ 2
i  2,..., n  2 ;
i  2,..., n  2 .
Распределения значений характеристик близки к нормальному распределению, но все же не являются
таковыми и имеют более "толстые хвосты". Такие распределения в экономических исследованиях
известны как распределения Парето-Леви. Закон больших чисел не применим к таким
распределениям, т. к. выборочные средние малоинформативны и неустойчивы [9]. На рис. 1
приведена гистограмма совместного распределения первых двух характеристик траекторий курсора.
Biv ariate Histogram (Spreadsheet1 10v *2179c)
Рис. 1. Гистограмма совместного распределения 1-й и 2-й характеристик
95
В.В.Яворский, А.Ж.Кинтонова
Вычисление спектров ковариационных матриц на характеристиках траекторий приводит также к
фрактальным структурам. На рис.2 приведена гистограмма распределения первого собственного
числа ковариационной матрицы. Наиболее близкий закон распределения – логнормальный.
Аналогичные распределения имеют также значения остальных собственных чисел кроме четвертого
и пятого.
R / S  (a  N ) H , где R / S - нормированный размах, N - число
H - показатель Херста. Оказалось, что показатель Херста, вычисленный
Известно соотношение:
наблюдений, а – константа,
для временного ряда каждого собственного числа ковариационной матрицы существенно меньше 0,5,
что свидетельствует о фрактальной природе последовательности спектров.
Histogram (Spreadsheet1 10v*530c)
Var1 = 530*0,02*lognorm(x; -2,2514; 0,3079)
Var1 = 530*0,02*extreme(x; 0,0945; 0,0283)
160
140
120
No of obs
100
80
60
40
20
0
0,00
0,04
0,08
0,10
0,12
0,14
0,18
0,20
0,24
0,26
0,28
Var1
Рис. 2. Гистограмма значений первого собственного числа ковариационной матрицы
Если отобразить спектр на плоскости, где по горизонтали указан номер собственного числа, а по
вертикальной оси его значение и соединить точки одного спектра отрезками рис. 3, то для построения
классификатора необходимо найти метрику, которая позволит оценить расстояние между двумя
спектрами в 6-ти мерном пространстве. Использование метрики
d12  max 1i  2i , i  1,...,6 ,
i
дает приемлемые результаты только для спектров всей сессии. Каждая сессия содержит более 500
сегментов – траекторий. Каждая траектория состоит в среднем из 30 точек.
0.1
0.09
0.08
0.07
Ser
ies
1
Ser
ies
2
Ser
ies
3
Ser
ies
4
0.06
0.05
0.04
0.03
0.02
0.01
0
1
2
3
4
96
5
6
В.В.Яворский, А.Ж.Кинтонова
Рис. 3. Спектры ковариационной матрицы для всей сессии(жирная линия) и 6-и наиболее близких
сегментов той же сессии
На рис.4 изображено взаимное расположение спектров пяти пользователей по трем первым
собственным числам. Каждая точка соответствует одной сессии измерений пользователя. Очевидно,
что существуют разделяющие гиперплоскости в пространстве спектров для построения линейного
классификатора. Однако, вопрос о принадлежности нового измерения – точки соответствующей
испытательной сессии неизвестного пользователя, определенному уже существующему классу или
же отрицание такой принадлежности остается открытым. Причиной тому - отсутствие
доказательства, что множество спектров полученных для пользователя является выпуклым
множеством.
3D Scatterplot (Spreadsheet2 15v*21c)
Var3
Рис. 4. Образы 5-и пользователей в трехмерном пространстве по первым трем собственным числам
сессий
Также, препятствием для построения приемлемого классификатора является нахождение
некоторой величины, которая позволит нормировать спектры всех пользователей. Как упоминалось
выше, выборочное среднее не пригодно из-за его неустойчивости.
Чтобы попытаться решить эту проблему, рассмотрим пример. Пусть 1 и 2 некоторые
положительные числа, которые связанны соотношением
1  k 2 , где k  const .
И пусть
1  2  v . Найдем такое r , чтобы выполнялось равенство
1r  2 r  1 .
97
В.В.Яворский, А.Ж.Кинтонова
Тогда
v  (1  k )(1  k r )1/ r .
Оказывается, что эта функция имеет ряд интересных свойств. При
функции для
0.5  k  1 ,
график
0  r  2,5 имеет вид рис. 5. Т. е., можно заменить прямой линией с точностью до
четвертого знака после запятой.
y = 0,0516x + 0,8796
R2 = 1
1.2
0,9
y = 0,1067x + 0,7566
R2 = 1
y = 0,1659x + 0,6307
R2 = 1
y = 0,2297x + 0,5013
R2 = 1
y = 0.2986x + 0.3679
R² = 0.9998
1
0,8
0,7
0.8
0,6
0.6
0,5
y = 0,3732x + 0,2304
R2 = 0,9994
0.4
0,4
y = 0.4534x + 0.0896
R² = 0.9981
0,3
0.2
y = 0,5369x - 0,0504
R2 = 0,9939
0,2
0
2.5
2
1.5
1
0.5
0
Linear (0,9)
Linear (0,8)
Linear (0,7)
Рис. 5. Графики функции
v  (1  k )(1  k r )1/ r
для различных
k
Применим такой подход к спектру ковариационной матрицы сессии для пользователя. А
1  2  ...  6  v ,
1r  2r  ...  6r  1 , получим пару
чисел (r , v) . Далее, построив на плоскости точки ( ri , vi ) , где i – номер сессии, увидим, что точки
именно: если
то решая уравнение
3
всех сессий одного пользователя лежат на прямой с погрешностью меньше 1 10 рис. 6. Таким
образом, можно утверждать, что в пространстве RV удается построить образ пользователя в виде
выпуклого множества с некоторой погрешностью  . Уменьшить погрешность можно за счет
увеличения объема выборки сегментов для вычисления ковариационной матрицы.
1,5
1,4
1,3
y = 1,4216x - 0,3952
R2 = 0,9998
y = 1,5133x - 0,5067
R2 = 0,9996
1,2
Ряд1
Ряд2
1,1
Ряд3
Ряд4
1
Линейный
(Ряд1)
Линейный
(Ряд2)
Линейный
(Ряд3)
y = 1,6593x - 0,6596
R2 = 1
0,9
0,8
0,9
0,95
1
1,05
1,1
1,15
1,2
1,25
1,3
Рис. 6. Линии регрессии для трех пользователей в пространстве RV
98
В.В.Яворский, А.Ж.Кинтонова
Экспериментально подтверждено, что для определения параметров прямой линии регрессии (r , v)
существенно снижается объем вычислений. Для точности порядка 10-3 достаточно, чтобы сессия
1
содержала около 3х30 сегментов вместо 500 сегментов при использовании метрики L .
Очевидно, что вопрос о принадлежности измерения определенному классу решается
автоматически.
СПИСОК ЛИТЕРАТУРЫ
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
Иванов А.И. Биометрическая идентификация личности по динамике подсознательных
движений. Монография. Пензенский государственный университет, Пенза 2000.
Брюхомицкий Ю.А. Параметрический метод биометрической аутентификации пользователей
информационных систем. Научно практический журнал "Информационное противодействие
угрозам терроризма". №1, 2003. http://www.contrterror.tsure.ru/site/index.htm
Рифа В.Н., Баклан Я.И., Баклан И.В., Метод главных компонент в задачах аутентификации.
//Труды Шестой Всеукраинской международной конференции УКР’ОБРАЗ 2002. - Киев 2002.
С 215-218.
Рифа В.Н. Метод динамических характеристик в задаче биометрической аутентификации.
//Тезисы докладов Международной 11-й межвузовской конференции по математике и
механике Евразийского национального университета им.Л.Н. Гумилева, Астана 2006.
Рифа В.Н. Метод динамических характеристик и фрактальные структуры. Международный
журнал “Системные исследования и информационные технологии”. №3 К. - 2007.
Рифа В.Н., Лопатин О.К., Фрактальные структуры в задаче биометрической аутентификации.
Международный журнал Института Проблем Искусственного Интеллекта НАНУ №4, Донецк
2007. С.309-316.
Рифа В.Н., Шарипбаев А.А. Метод динамических характеристик и фрактального анализа в
задаче динамической биометрической аутентификации, //ВЕСТНИК НАУКИ Костанайского
социально-технического университета им. Академика Зулхарнай Алдамжар, №2, Костанай
2009.- С. 136-146.
Рифа В.Н., Шарипбаев А.А., Метод динамических характеристик в задаче идентификации
пользователя по управлению манипулятором, Материалы международной научно
практической конференции "Актуальные проблемы математики, информатики, механики и
теории управления" Ч.2, Алматы, 2009. -С.391-395.
Петерс Э. Хаос и порядок на рынках капитала: Новый аналитический взгляд на циклы, цены и
изменчивость рынка / Пер. с англ. М.: Мир, 2000.
Бидюк П.И., Баклан И.В., Рифа В.Н. Системный подход к построению регрессионной модели
по временным рядам. //Международный научно технический журнал “Системные
исследования и информационные технологии”, №3, Киев 2002.
Баклан И.В., Рифа В.Н. Гибридные модели в статистических методах распознавания образов.
//Вестник ХГТУ №3(19), Херсон 2003.
Рифа В.Н. Баклан Я.И. Баклан И.В. Бидюк П.И. Долгов Д.С., Метод динамических
характеристик в задачах аутентификации, //Вестник КАЗАУ, Т-IV, ч. 4, Астана 2004. - С.2628.
Рифа В.Н. Методы оптимального управления в задаче аутентификации. //Вестник
"Университета Туран", Алматы 2004.
Биометриялық айқындау есебін шешудегі нейрожүйеге бір балама
Шәріпбаев А., Рифа В.
Компьютерді пайдаланушыны манипуляторды басқаруына байланысты ұқсастыру есебін шешуге динамикалық
сипаттау әдісін қолдану мүмкіндігі қарастырылады. Сандық эксперимент нәтижесі коварияциалық матрицаның өзіндік
санының бақылау саны өскен сайын пайдаланушының өзіндік тұрақтылығына жинақталатындығын көрсетеді.
About one alternative to neuron network in the decision of a problem of biometric identification
Rifa V., Sharipbaev A.
The possibility of application of the dynamic characteristic method to the problem identification of a computer user by
manipulator control is considered. Numerical experiments show existence of simple linear qualifiers in some spaces of attributes.
99
В.В.Яворский, А.Ж.Кинтонова
100
Download