Цепи Маркова – частный случай случайного процесса

advertisement
 Цепи Маркова – частный случай случайного процесса, применительно к изучению состояния рейтинга МИЭФ
План
1. Введение
1.1. Введение
в
теорию
случайных
процессов;
классификация
случайных
процессов;
1.2. Цепи Маркова как метод прогнозирования;
2.
Построение теоретической модели прогнозирования рейтинга учащихся с применением
цепей Маркова.
2.1. Определение состояния системы в нулевой момент времени
2.2. Построение матрицы перехода и стохастической матрицы
3.
Применение теоретической модели к рейтингу студентов МИЭФ, поступивших в 2007
году.
3.1. Деление на группы и построение трех вариантов прогноза.
3.2. Построение регрессионной модели для выявления наиболее удачного прогноза
3.3. Корректировка результатов.
4.
Библиография.
Введение в теорию случайных процессов.
Теория случайных процессов – это наука, изучающая закономерности случайных явлений в
динамике их развития. Понятие случайного процесса появилось в начале прошлого века и
связано с именами А. Н. Колмогорова, А.Я. Хинчина, Е.Е. Слуцкого, Н. Винера и других.
Это понятие в наши дни является одним из центральных не только в теории вероятностей,
но также в естествознании, инженерном деле, экономике, организации производства,
теории связи. Теория случайных процессов принакдлежит к категории наиболее быстро
развивающихся математических дисциплин. Несомненно, это обстоятельство в
значительной мере определяется ее глубокими связями с практикой.
ХХ век не мог удовлетвориться наследием, которое было получено им от прошлого.
Действительно, в то время как физика, биолога, инженера интересовал процесс, т.е.
изменение изучаемого явления во времени, теория вероятностей предлагала им в качестве
математического аппарата лишь средства, изучавшие стационарные состояния. Для
исследования изменения во времени теории вероятностей конца XIX начала ХХ века не
имела ни разработанных частных схем, ни тем более общих приемов. Изучение
броуновского движения в физике подвело математику к порогу создания теории случайных
процессов. В исследованиях датского ученого А.К.Эрланга была начата новая важная
область поисков, связанная с изучением загрузки телефонных сетей. Работы Эрланга
оказали влияние на развитие не только чисто телефонных задач, но и на теорию случайных
процессов: процессов гибели и размножения.1
Многие физические явления описываются теорией случайных процессов. К примеру
движение молекулы, в случайные моменты времени сталкивающейся с другими
молекулами и при этом меняющей направление и скорость является случайным процессом.
Существует статистическая теория диффузии, основанная на теории случайных процессов
и описывающая процессы диффузии и их характеристики. Радиоактивный распад молекул,
напряжение в электросети, население города, полет космической ракеты, плотность воды в
океане, направление ветра, уровень воды в реке – все это примеры случайных процессов. В природе не существует неслучайных процессов, однако, есть факторы, влиянием которых
в контексте конкретной задачи можно пренебречь. К примеру, решая задачу о составлении
расписания самолетов мы можем предположить, что траектории полета прямолинейны а
скорость полета равномерна. Однако, это допущение нельзя делать если мы сталкиваемся с
задачей конструирования автопилота для управления полетом самолета.2
Случайная функция некоторой системы S – это случайные переходы системы из состояния
в состояние. Случайную функцию называют случайным процессом в том случае если мы
рассматриваем реализацию функции по времени. То есть случайный процесс – это
случайная функция, аргументом которой является время – t.
1
2
Гнеденко Б.В. Очерк по истории теории вероятностей.
Вентцель Е.С. Овчаров Л.А. Теория случайных процессов и ее инженерные приложения.
3 Если мы зафиксируем время (t=t0) , то случайное состояние системы превращается в
некоторую случайную величину- одно из возможных состояний в котором может оказаться
система в момент времени t0.
Случайный процесс может быть описан одной и более переменными. К примеру
напряжение в электросети описывается одной случайной переменной (напряжение)
зависящей от времени, движение частицы – двумя переменными (в двухмерном
пространстве – координатами X и Y, зависящими от времени. Примером многомерного
случайного процесса может служить полет ракеты: здесь случайными переменными будут
не только координаты в пространстве, но и углы наклона ракеты, скорость, запас топлива.3
Несмотря на то, что теория случайных процессов – сравнительно новая ветвь в теории
вероятностей, существует большое количество отечественной и зарубежной литературы,
посвященной этому разделу. Многие издания в незначительной степени отличаются друг от
друга в определении случайного процесса, и в большинстве источников дается следующее
определение случайного процесса:
«Случайным процессом X(t) называется процесс, значение которого при любом значении
аргумента t является случайной величиной» 4
Случайный процесс можно записать в виде функции двух аргументов: некоторого
элементарного события ω и времени t.
X(t) = ! !, ! , ! ∈ Ω, ! ∈ !, ! ! ∈ !
где ! − элементарное событие, Ω − пространство элементарных событий, T – область
значений аргумента t функции X(t), I – множество возможных значений случайного
процесса X(t).
Если опыт, в ходе которого протекает случайный процесс, уже произведен, то есть уже
произошло элементарное событие ! ∈ Ω, случайный процесс перестает быть случайным и
его зависимость от времени приняла вполне определенный вид – это уже обычная
неслучайная функция аргумента t.
Реализацией случайного процесса X(t) называется неслучайная функция x(t) в которую
превращается случайный процесс в результате опыта. Реализацию процесса можно
записать как функцию от времени t при фиксированном элементарном событии !.
! ! = ! !, !! , ! ∈ !
Если произведено более одного опыта, то мы получим несколько реализаций одного и того
же процесса – семейство реализаций. На основе семейства реализаций мы можем получить
характеристики случайного процесса: математическое ожидание и дисперсию.5
Самыми простыми классификациями случайных процессов являются классификации по
времени и по состояниям.
Случайный процесс называется процессом с дискретным временем, если система может
менять свои состояния в фиксированные моменты, число которых конечно и счётно.
3
Вентцель Е.С. Овчаров Л.А. Теория случайных процессов и ее инженерные приложения.
Н.Ш. Теория вероятностей и математическая статистика.
Основные характеристики случайного процесса в данной работе не рассматриваются.
4 Кремер
5
4 Случайный процесс с непрерывным временем – это процесс, в котором переходы системы
из одного состояния в другое могут происходить в любой момент времени.
Случайный процесс называется процессом с дискретными состояниями, если в любой
момент времени множество его состояний конечно, и процессом с непрерывными
состояниями – если в любой момент времени множество его состояний бесконечно или
несчетно. Другими словами, если сечение процесса в любой момент времени является
дискретной случайной величиной, то мы имеем дело с процессом с дискретными
состояниями; в противном случае – с процессом с непрерывными состояниями.
Таким образом мы можем разделить все процессы на четыре класса:
1. Процессы с дискретными состояниями и дискретным временем;
2. Процессы с дискретными состояниями и непрерывным временем;
3. Процессы с непрерывными состояниями и дискретным временем;
4. Процессы с непрерывными состояниями и непрерывным временем.6
Примером процесса с дискретным временем и дискретными состояниями может
служить число билетов лотереи выигравших до момента t из общего числа билетов m.
Процесс с дискретными состояниями и непрерывным временем: количество узлов прибора
(из n узлов), отказавших до момента времени t. Процесс с непрерывными состояниями и
дискретным временем: температура воздуха, измеряемая в определенные моменты
времени. И наконец, процесс с непрерывными состояниями и непрерывным временем:
напряжение в электросети.
Цепи Маркова как метод прогнозирования.
Особое место в теории случайных процессов занимают Марковские процессы.
Случайный процесс, протекающий в системе I с дискретными состояниями i1, i2,…, ii,…,
называется марковским, или случайным процессом без последействия, если для любого
момента времени t0 вероятность каждого из состояний системы в будущем (при t>t0)
зависит только от ее состояния в настоящем(t=t0) и не зависит от того, когда и как она
пришла в это состояние, то есть не зависит от ее поведения в прошлом(при t<t0). (Будущее
зависит от прошлого через настоящее).
Марковские процессы делятся на процессы с дискретным и с непрерывным временем. В
некоторых источниках под цепями Маркова понимают только Марковские процессы с
дискретным временем, однако есть и авторы (Кельберт, Сухов), которые все Марковские
процессы называют цепями Маркова. В данной работе под цепями Маркова будем
понимать Марковские процессы с дискретным временем.
Итак, цепью Маркова называется Марковский случайный процесс с дискретным временем,
в котором его возможные состояния i1, i2,… можно заранее перечислить, а переход из
состояния в состояние происходит мгновенно (скачком), но только в определенные
моменты времени (t0, t1,…), называемые шагами процесса.
Случайный механизм, вызывающий изменение состояния, описывается матрицей перехода
Р с элементами рij , где i,j∈ !. Элемент рij равен вероятности, с которой система перейдет из
6 Вентцель
Е.С. Овчаров Л.А. Теория случайных процессов и ее инженерные приложения.
5 состояния i в состояние j за единицу времени. Таким образом рij – это условная вероятность
того, что система будет находиться в состоянии j в следующий момент, при условии что в
данный момент она находится в состоянии i. значит все элементы Р неотрицательны, но не
превышают 1, и сумма элементов в любой строке равна 1:
0≤ !!" ≤ 1 ∀!, ! ∈ !
!!" = 1 ∀! ∈ !
!∈!
Матрица Р, обладающая
вероятностной.
такими
свойствами
называется
стохастической,
т.
е.
Простейший случай имеет вид 2x2 (пространство из 2 состояний). Можно считать, что
состояниями являются 0 и 1.
Тогда элементы матрицы имеют вид !!" , i,j=0,1, а стохастическую матрицу можно
представить в виде:
1−!
!
где 0 ≤ !, ! ≤ 1.
!
1−!
В частности при ! = ! = 0 получаем единичную
антидиагональную матрицу:
1 0
0 1
,
0 1
1 0
матрицу,
а
при ! = ! = 1 –
Система с единично матрицей остается в начальном состоянии навсегда, а в
антидиагональном случае она меняет состояние в каждый момент времени, переходя из 0 в
1 и обратно.
!
С другой стороны при ! = ! = ! мы получаем матрицу
1/2 1/2
1/2 1/2
В этом случае система может либо остаться в том же состоянии, либо поменять его с
вероятностью ½.
Пусть !! - состояние системы в момент n. Правила задающие марковскую цепь с начальным
распределением ! и матрицей перехода P таковы:
1. !! имеет распределение !: ! !! = ! = !! ∀! ∈ !;
2. Более общим образом, ∀! и !! , … , !! ∈ ! вероятность !(!! = !! , !! = !! , … , !! = !! )
того, что система находится в состоянии !! , !! , … , !! в моменты времени 0, 1, … , n
записывается как произведение
!(!! = !! , !! = !! , … , !! = !! ) = !!! !!! !! … !!!!! !!
1 – это частный случай 2 при n=0.
Для условной вероятности ! !!!! = ! !! = !! , !! = !! , … , !! = !!
момент n+1 есть j, при условии что заданы состояния !! , … , !!!! и !! = ! в моменты времени 0, … , ! − 1, !:
того, что состояние в
6 ! !!!! = ! !! = !! , !! = !! , … , !! = ! =
!(!! !!! ,…,!!!! !!!!! ,!! !!,!!!! !!)
!(!! !!! ,…,!!!! !!!!! ,!! !!)
=
!!! !!! !! …!!!!! ! !!"
!!! !!! !! …!!!!! !
= !!" Таким образом, при условии, что !! = !! , … , !!!! = !!!! , !! = !, !!!! имеет распределение
!!" , ! ∈ !. В частности, условное распределение !!!! не зависит от !! , … , !!!! , т. е. зависит
только от состояния i в последний предшествующий момент n.
Эта формула иллюстрирует свойство ограниченной памяти цепи Маркова.
Теперь нас интересует вероятность !(!! = !)того, что в момент n наша система находится
в состоянии j. Для n=1:
!(!! = !)= !∈! !( !! = !, !! = !),
где i – все возможные начальные состояния.
Тогда, !∈! !( !! = !, !! = !)=
И для общих значений n:
! !! = ! =
!∈! !! !!" =(!")j
для n=1.
!!! !!! !! … !!!!! ! = (!!! )!
! !! = !! , !! = !! , … , !! = ! =
!! ,…,!!!!
!! ,…,!!!!
где Pn – n-я степень матрицы P. Таким образом стохастический вектор, описывающий
распределение случайной величины Xn, можно получить помножив матрицу Рn к
начальному стохастическому вектору !.
Теперь аналогично:
! !! = !, !!!! = ! =
=
! !! = !! , !! = !! , … , !! = !, !!!! = ! =
!! ,…,!!!!
!!! !!! !! … !!!!! ! !!"
!! ,…,!!!!
= (!!! )! !!"
и отсюда следует, что
!!! ! !!"
! !! = !, !!!! = !
=
= !!" .
! !! = !
!!! !
То есть элемент !!" равен условной вероятности того, что в следующий момент состояние
будет j, если в данный момент оно есть i.
! !!!! = !|!! = ! =
! !! = !, !! = ! =
=
! !! = !! , !! = !! , … , !!!! = !!!! , !! = !
!! ,…,!!!!
=
и
!! !!
… !!!!! ! !!" = !! (!! )!"
!! ,…,!!!!
! !! = !|!! = ! =
!!
!! (!! )!"
! !! = !, !! = !
=
= (!! )!" .
! !! = !
!!
7 Значит, элемент (!! )!" матрицы !! дает вероятность перехода за n шагов из состояния i в
состояние j.
В общем случае ! !! = !, !!!! = ! = (!!! )! (!! )!"
и
(!!! )! (!! )!"
! !! = !, !!!! = !
! !!!! = !|! = ! =
=
= (!! )!"
! !! = !
(!!! )!
Теперь можно дать точное определение цепи Маркова с дискретным временем:
Говорят, что последовательность случайных величин !! со значениями в конечном или
счетном множестве I образует цепь Маркова с дискретным временем с начальным
распределением ! и матрицей перехода Р, если ∀!! , … , !! ∈ ! совместное распределение
!(!! = !! , !! = !! , … , !! = !! ) равно !!! !!! !! … !!!!! !! . 7
Построение теоретической модели
применением цепей Маркова.
прогнозирования
рейтинга
учащихся
с
Целью данной работы является определить на основании данных рейтинга за первый и
второй курс обучения с какими показателями закончит обучение данный курс студентов.
Имеются данные рейтингов студентов МИЭФ, поступивших в 2007 году, за первый, второй
и третий курс. Итоговый рейтинг за первый курс (2007/2008 год) включает в себя 118
человек.
На основании рейтинга студенты разделяются на n групп. Обозначим балл студента по
рейтингу за X, Рейтинг ℛ – множество действительных чисел от 0 до 100 - делится на n-1
непересекающихся подмножеств Δi таких, что ! Δ! = ℛ . В k-ю группу входят все
студенты прошедшие аттестацию с баллом рейтинга !!Δ! , в n-ю группу относим
студентов не прошедших аттестацию или покинувших курс по разным причинам. В каждой
группе у нас Аk студентов, k=1,2,…,n.
Под состоянием системы мы будем понимать определенное распределение студентов по
группам, в зависимости от рейтинга. Тогда наша система в начальный момент времени t=0
выглядит в виде столбца:
!!
!
S0 = !
⋮
!!
Таким образом наша система состоит из распределения студентов по n группам, и
изменение состояния системы в моменты времени t=1,2,3 – связано с переходом студентов
из одной группы в другую.
Понятно, что такая система может принимать конечное число состояний. Система может
менять свои состояния в определенные моменты времени t. Предполагается, что состояние
системы в момент времени t зависит только от состояния системы в момент времени t-1
(при t=0 состояние системы по итогам первого курса, t=1 – состояние системы по итогам
второго курса и т.д. Считаем, что состояние системы в текущем году зависит только от её
состояния в предыдущий год), то есть мы определяем данный процесс изменения системы
как цепь Маркова.
7
М.Я.Кельберт, Ю.М.Сухов Марковские цепи как отправная точка теории случайных процессов и их приложения.
8 Составляем матрицу перехода для следующего курса:
!
!!!
A1 = ⋮
!
!!!
⋯
⋱
⋯
!
!!!
⋮ ,
!
!!!
где !!" - это количество человек, которые были в i-й группе для t=0 и попали в j-ю группу в
момент t=1(т.е. после второго курса). Соответственно система примет следующее значение:
!
!!! = ! !!!
!
!
S1= !! = ! !!!
⋮
!
!
!! = ! !!"
Аналогично для третьего курса:
!
!!!
A2 = ⋮
!
!!!
⋯
⋱
⋯
!
!!!
⋮
!
!!!
где !!" - это количество человек, которые были в i-й группе для t=0 и попали в j-ю группу в
момент t=2 (после третьего курса). И система примет вид
!
!!! = ! !!!
!
!
S2= !! = ! !!!
⋮
!
!
!! = ! !!"
Наша задача состоит в том, чтобы используя имеющийся аппарат цепей Маркова
спрогнозировать состояние системы в следующий момент времени. С имеющимися
данными, мы можем спрогнозировать состояние системы после третьего курса и сравнить
результаты прогнозных данных с реальными.
Находим вероятностную (стохастическую) матрицу перехода для второго курса:
!
!!!
!!
!
P= !!" !!
⋮
!
!!! !!
!
!!"
!!
!
!!! !!
⋮
!
!!! !!
⋯
⋯
⋱
⋯
!
!!!
!!
!
!!! !!
⋮
!
!!! !!
Возведением матрицы Р в квадрат мы получим матрицу Р2 прогнозированных
вероятностей, каждый элемент !!" которой будет показывать вероятность перехода из
состояния i (t=0) в состояние j(t=2).
Полученную матрицу можно перевести в реальные значения, помножив каждый элемент на
соответствующее ему количество студентов в группе (в момент времени t=0).
В результате имеем матрицу, каждый элемент которой показывает прогнозируемое
количество студентов перешедших из i-й группы в j-ю.
9 Эту матрицу прогнозируемых значений(!!!"#$ ) можно сравнить с реальной матрицей,
составленной по рейтингу за третий курс (!!!"#$ ). И прогнозное состояние системы S2 =
S0×P(2) сравнить с реальным.
Далее можно спрогнозировать состояние системы для t=3, то есть для четвертого курса.
S3 = S0×P(3)
Применение модели на практике. Три вида распределения и три варианта прогноза.
Ниже приведены расчеты для трех видов разбиения системы на группы: n=4, n=6 и n=11.
распределение на группы
1 вариант (n=4)
2 вариант (n=6)
1. X≥70
1группа. X≥60
2. 60≤X<70
3. 50≤X<60
2. 40≤X<60
4. 40≤X<50
3. X<40, PASS
5. X<40, PASS
4. FAIL
6. FAIL
3 вариант (n=11)
1. Х≥75
2. 70≤Х<75
3.65≤Х<70
4. 60≤Х<65
5. 55≤Х<60
6. 50≤Х<55
7. 45≤Х<50
8.40≤Х<45
9. 35≤Х<40
10. Х<35, pass
11. fail
10 1 вариант
По данным рейтинга и разбиения 1 имеем:
33
S0 = 53
20
12
19
А01 = 1
0
0
10
29
2
0
1 3
7 16
7 11
0 12
13
A02 = 0
0
0
12 2
6
18 12 23
0
4 16
0
0 12
20
S1 = 41
15
42
13
S2 = 30
18
57
0,5758 0,3030 0,0303 0,0909
0,0189 0,5472 0,1321 0,3019
Рассчитываем матрицу вероятностей перехода P01= 0 0,1000 0,3500 0,5500
0
0
0
1
Рассчитываем вероятность перехода из одной группы в другую после третьего года
обучения:
0,34 0,34
0,07 0,25
0,02 0,32
0,12 0,54 , если перевести в натуру
!!"!"#$ =
0 0,09 0,14 0,77
0
0
0
1
11 11 2 8
А02prog = 1 17 6 29
0 2
3 15
0 0
0 12
Ниже приведена матрица вероятностей рассчитанная непосредственно по данным рейтинга
по итогам 3 курса с сайта МИЭФ, которую можно сравнить с расчетной:
0,39
0,0
!!"!"#$ =
0 0
13 12
A02real= 0 18
0 0
0 0
0,36
0,06 0,18
0,34
0,23 0,43
, в натуральных значениях
0,0 0,20 0,80
0
0
1
2
6
12 23
4 16
0 12
12
S2prog = 30
11
64
13
S2real = 30
18
57
2 вариант.
11 S0 =
9
5
3
0
0
0
1
24
2
9
7
3
1
2
0
0
12
9
0
7
26
0
1
1
7
8
9
19
0
0
0
2
6
11
12
0
0
0
0
0
12
0.5556
0.3333
0.0000
0.0000
0.0000
0.1111
0.0833
0.3750
0.2917
0.1250
0.0417
0.0833
0.0000
0.0000
0.4286
0.3214
0.0000
0.2500
0.0000
0.0385
0.0385
0.2692
0.3077
0.3462
0.0000
0.0000
0.0000
0.1053
0.3158
0.5789
0.0000
0.0000
0.0000
0.0000
0.0000
1.0000
0.10
0.24
0.20
0.04
0.00
0.00
0.04
0.18
0.22
0.12
0.06
0.00
0.01
0.07
0.10
0.18
0.13
0.00
0.20
0.26
0.47
0.63
0.80
1.00
28
A1 =
Матрица вер. перехода !!" =
!"
!!"#$
=
0.34
0.08
0.00
0.00
0.00
0.00
0.31
0.17
0.01
0.02
0.00
0.00
переведенная в натуральные ед. A02prog =
3
2
0
0
0
0
3
4
0
1
0
0
1
6
6
1
0
0
0
4
6
3
1
0
0
2
3
5
3
0
2
6
13
16
15
12
S2prog =(5,8,14,14,13,64) ; S2real =(3,10,11,19,18,57)
12 3 вариант
6
3
12
12
17
11
9
17
9
10
12
S0 =
A01 =
4
0
1
0
0
0
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
0
3
3
1
0
0
0
0
0
0
0
0
0
3
2
0
0
1
0
0
0
0
0
0
3
2
5
2
0
0
0
0
0
0
0
0
2
3
2
1
0
0
0
0
0
0
0
2
2
3
3
1
0
0
0
0
0
0
1
3
1
1
2
1
1
0
0
0
0
1
0
0
0
7
0
1
0
0
0
0
0
0
0
0
1
3
2
0
1
0
1
1
4
3
3
6
5
6
12
13 Матрица перехода вероятностей !!" =
0.6666
66667
0.1666
66667
0
0.0833
33333
0
0.0833
33333
0
0.1666
66667
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0.25
0.1666
66667
0
0
0
0
0
0
0
0
0
0
0.1111
11111
0
0
0
0
0
0
0
0
0.4117
64706
0
0
0
0
0
0
0
0
0.0833
33333
0.1764
70588
0.0909
09091
0.1111
11111
0.1176
47059
0.1111
11111
0
0
0
0.1666
66667
0.1176
47059
0.2727
27273
0.3333
33333
0.0588
23529
0
0
0
0.1666
66667
0.1764
70588
0.1818
18182
0.1111
11111
0
0.0833
33333
0
0.25
0.1666
66667
0.2941
17647
0.1818
18182
0
0
0.25
0.0833
33333
0
0
0.0588
23529
0.3333
33333
0
0.0833
33333
0.0833
33333
0.2352
94118
0.2727
27273
0.3333
33333
0.3529
41176
0.5555
55556
0
0
0
0
0
0
0
0.1
0.1
0.2
0.6
0
0
0
0
0
0
0
0
0
0
1
0
!"
!!"#$
0.4444
44444
0.0833
33333
0.0763
88889
0.0069
44444
0.1111
11111
0.0833
33333
0.0347
22222
0.0069
44444
0.1666
66667
0
0
0
0
0
0
0
0.25
0.1776
96078
0.1279
33749
0.1185
90752
0.0865
33787
0.0387
20539
0
0
0.0857
84314
0.1060
11091
0.0970
60571
0.0954
46443
0.0757
57576
0.0065
35948
0
0
0
0
0
0
0
0
0
0
0
0
0.0710
78431
0.1532
97683
0.1323
26727
0.1672
33836
0.1664
68608
0.0265
28258
0.0065
35948
0.0058
82353
0
0.0649
5098
0.0960
33868
0.1017
79036
0.0896
12705
0.0694
69202
0.0720
10765
0.0464
05229
0.0428
75817
0
0.0208
33333
0.0482
02614
0.0726
6436
0.0374
33155
0.0550
10893
0.0543
2526
0.0790
84967
0.0611
76471
0
0
0.25
0.1041
66667
0.0671
2963
0.0130
71895
0.0303
0303
0.0555
55556
0.0065
35948
0
0.0326
79739
0.0103
80623
0.0053
47594
0.0065
35948
0.1559
40023
0.0732
02614
0.0792
15686
0.2777
77778
0.0833
33333
0.1977
12418
0.3201
00515
0.4541
26035
0.4880
89451
0.5232
2242
0.6781
23799
0.7947
71242
0.8108
49673
0
0
0
0
0
0
0
0
0.0092
59259
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0.25
0.1666
66667
0.0347
22222
14 3
0
1
0
0
0
0
0
0
0
0
В натуральных единицах
А02prog =
1
0
0
0
0
0
0
0
0
0
0
1
1
2
0
0
0
0
0
0
0
0
0
1
1
1
0
0
1
0
0
0
0
0
1
2
2
2
1
0
0
0
0
0
0
0
1
1
2
1
1
0
0
0
0
0
0
1
2
2
2
1
0
0
0
0
0
0
1
1
2
1
1
1
0
0
0
0
0
0
1
1
1
0
1
1
1
0
0
0
0
0
0
0
0
3
1
1
0
1
0
3
4
8
5
5
12
7
8
12
S2prog=(4,1,4,4,8,6,7,6,5,65) ; S2real=(2,1,7,3,6,7,11,6,9,9,57)
Таким образом, у нас есть реальные данные для третьего курса(t=2) и прогнозированные.
Для того, чтобы выявить какой из вариантов(n=4, n=6, n=11) наиболее эффективен,
построим регрессии, где зависимой переменной будут реальные данные, а независимой –
спрогнозированные. По значениям коэффициента ! и R2 постараемся выявить лучший
прогноз и определить наиболее эффективный вариант, с помощью которого составим
прогноз для четвертого курса(n=3)
Ниже приведена таблица, количества человек в каждой группе по итогам 3 курса,
действительные и вычисленные.
1 вариант
real
predicted
2 вариант
real
predicted
3 вариант
real
predcted
13
12.274411
3
4.972222222
2
3.916666667
30
29.658072
10
8.016025641
1
1.416666667
18
11.416977
11
13.17078755
7
4.25
57
64.650540
19
15.28636495
3
3.972222222
18
11.74004723
6
7.733957219
57
64.81455241
7
5.794414736
11
8.848484848
6
7.343612597
9
5.217647059
9
4.788235294
57
64.71809269
15 Линейная регрессия (real=a+b*predicted)
1 вариант
real=Y
predicted=X
(X-X*)
17.21126358
1
13
12.28873642
2
30
29.99456832
3
4
18
57
118
29.5
11.27115495
64.44554031
sum
mean
b=
a=
r^2=
(X-X*)^2
0.494568325
18.22884505
34.94554031
(Y-Y*)
(Y-Y*)^2
(X-X*)(Y-Y*)
296.227594
-16.5
272.25
283.9858491
0.244597828
0.5
0.25
0.247284162
332.290792
1221.190787
1849.953771
-11.5
27.5
132.25
756.25
1161
209.6317181
961.0023585
1454.86721
0.78643436
6.300186385
0.985493163
Данные по рейтингу Y Регрессия имеет вид
Real=6.3002+0.7864*(predicted)
60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 предсказанные значения Х 2 вариант.
real=Y
predicted=X
(X-X*)
1
3
4.972222222
2
10
8.016025641
3
11
13.17078755
4
19
15.28636495
5
18
11.74004723
14.69444444
11.65064103
6.495879121
4.380301716
7.926619433
6
57
64.81455241
45.14788574
sum
118
mean
19.66666667
(X-X*)^2
(Y-Y*)
62.83129564
16.66666667
9.666666667
8.666666667
0.666666667
1.666666667
2038.331587
37.33333333
215.9266975
135.7374363
42.19644555
19.18704312
2514.210505
(Y-Y*)^2
(X-X*)(Y-Y*)
277.7777778
244.9074074
93.44444444
112.6228632
75.11111111
56.29761905
0.444444444
2.920201144
2.777777778
13.21103239
1393.777778
1685.521068
1843.333333
2115.480191
16 b=
0.841409336
a=
3.118949731
lданные по рейтингу Y r^2= 0.965633697
Регрессия имеет вид
Real=3.1189+0.8414*(predicted)
70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 предсказанные значения Х 3 вариант.
real=Y
predicted=X
(X-X*)
(X-X*)^2
1
2
3.916666667
2
1
1.416666667
3
7
4.25
4
3
3.972222222
5
6
7.733957219
6
7
5.794414736
7
11
8.848484848
8
6
7.343612597
9
9
5.217647059
10
9
4.788235294
6.810606061
9.310606061
6.477272727
6.755050505
2.993315508
4.932857992
1.878787879
3.383660131
5.509625668
5.939037433
11
57
64.71809269
53.99081996
sum
mean
118
10.727
27273
(Y-Y*)^2
(X-X*)(Y-Y*)
46.38435491
-8.727272727
76.16528926
59.43801653
86.68738522
-9.727272727
94.61983471
90.56680441
41.95506198
-3.727272727
13.89256198
24.14256198
45.63070733
-7.727272727
59.7107438
52.19811754
8.959937731
-4.727272727
22.34710744
14.15021877
24.33308797
-3.727272727
13.89256198
3.529843893
0.272727273
0.074380165
18.38610706
0.512396694
11.44915588
-4.727272727
22.34710744
15.99548425
30.35597501
-1.727272727
2.983471074
9.516626155
35.27216563
-1.727272727
2.983471074
10.25833738
2915.00864
46.27272727
2141.165289
2498.302487
3249.566316
b=
a=
r^2=
(Y-Y*)
2450.181818
2792.442365
0.859327705
1.509030073
0.979365315
Регрессия имеет вид
Real=1.5090+0.8593*(predicted)
17 данные по рейтингу Y 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 предсказанные значения X сведем результаты в одну таблицу
вариант
1 вариант
2 вариант
3 вариант
b
0.78643436
0.841409336
0.859327705
a
6.300186385
3.118949731
1.509030073
r^2
0.985493163
0.965633697
0.979365315
Из вышеприведенных вычислений видно, что наиболее точным по критерию R2 является вариант 1 с
наименьшим количеством групп(n=4), по критерию коэффициента ! – вариант 3 с наибольшим (n=11).
Мы рассмотрели состояние нашей системы и смогли сравнить прогнозные и реальные
значения для третьего курса. Видна значительная разница, т.е. дальнейшие вычисления
будут еще более искажать реальность. Продолжим для первого варианта:
!!" = !!" ∙ !!" = !!"
!
0,2006 0,2968 0,0794 0,4231
0,0182 0,1925 0,0844 0,7049
!!" = 0,0028 0,0632 0,0594 0,8746
0
0
0
1
7
А = 1
0
0
03
10
10
1
0
2
5
1
0
14
37
18
12
8
21
S3 =
- состояние системы после 4-го курса.
8
81
Корректировка результатов.
Для улучшения результатов прогнозирования, можно пойти двумя путями: 1) исключить из
списка тех студентов, которые покинули курс с высокими баллами рейтинга, т.е. прошли
18 аттестацию, но покинули курс; 2) за начальный момент принять второй курс (случайных
людей на втором курсе значительно меньше, чем на первом), составить матрицу перехода
по данным второго и третьего курса и спрогнозировать состояние системы по окончанию
четвертого курса.
Первый путь, как субъективный, отметаю. Выбираю второй путь и проведя необходимые
расчеты, получаю:
Матрица перехода вероятностей составленная для перехода из состояния S1 в S2:
!′!" =
0,6500 0,3500
0
0
0
0,5122 0,2927 0,1951
0 0,1333 0,4000 0,4667
0
0
0
1
!′!" = (!′!" )! =
9
!′! = 0
0
0
8
2
1
12 11 18
2
3 10
0
0 42
0,42 0,41 0,1 0,07
0
0,3 0,27 0,43
0 0,12 0,2 0,68
0
0
0
1
9
!′! = 22
16
71
8
21
Сравним S3 =
и !!!=
8
81
9
22 .
16
71
К сожалению, на данный момент рейтинг выпускников МИЭФ еще не известен, и мы не
имеем возможности сравнить реальные данные с прогнозами на конец обучения.
19 Библиография
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
М. Я. Кельберт, Ю. М. Сухов. Вероятность и статистика в примерах и задачах. Т. 2:
Марковские цепи как отправная точка теории случайных процессов и их приложения.
М.: МЦНМО, 2010.
Е.С. Венцель, Л.А. Овчаров. Теория случайных процессов и ее инженерные
приложения. 5-е изд. М.: КНОРУС, 2010.
Н. Ш. Кремер. Теория вероятностей и математическая статистика. 3-е изд. М.:
ЮНИТИ-ДАНА, 2009.
Б.В. Гнеденко. Очерк истории теории вероятностей. Курс теории вероятностей. 6-е
изд. М.: НАУКА, 1988.
В.Н. Сулицкий. Деловая статистика и вероятностные методы в управлении и бизнесе.
М.: ДЕЛО, 2009
Б.В. Гнеденко, И.Н. Коваленко. Введение в теорию массового обслуживания. М.: ЛКИ,
2011.
Т. Л. Саати. Элементы теории массового обслуживания и ее приложения. 3-е изд. М.:
ЛИБРОКОМ, 2010.
А.А. Марков. Избранные труды. Ленинград: Академия Наук СССР, 1951.
А.Т. Баруча-Рид. Элементы теории Марковских процессов и их приложения. М.:
НАУКА, 1969
А.Н. Колмогоров. Основные понятия теории вероятностей. М. 1974.
Т.А. Сарымсаков. Основы теории процессов Маркова. М.: ГОСУДАРСТВЕННОЕ
ИЗДАТЕЛЬСТВО ТЕХНИКО-ТЕОРЕТИЧЕСКОЙ ЛИТЕРАТУРЫ, 1954.
Р.Л. Стратонович. Условные марковские процессы и их применение к теории
массового обслуживания. М.: МГУ,1965.
20 
Download