3.3. Множественный коэффициент детерминации

advertisement
ЛЕКЦИЯ 11.
Основные вопросы, выносимые на
обсуждение
на
предыдущей
лекции:
Рассмотрели
1.
двухфакторных
качестве
можно
еще
примеры
моделей.
одного
рассмотреть
В
примера
следующую
модель:
Pt   0  1Et 1  2 RE
Эта модель основана на
остаточной
чистой
*
t   t 
модели
прибыли
(Residual earnings model – REM),
которая
предполагает,
что
фундаментальная
ценность
собственного
капитала
организации складывается из двух
элементов.
Во-первых, из Et-1 - балансовой
стоимости собственного капитала
на момент оценки;
Во-вторых,
прироста
стоимости
REt*-величины
фундаментальной
над
балансовой,
определяемой, в свою очередь, как
бесконечный
поток
чистых
дисконтированных
остаточных
прибылей,
по
ставке
затрат на собственный капитал.
Последний, в свою очередь, при
определенных
допущениях
перпетуитет
есть
фактически
наблюдаемого
значения
остаточной чистой прибыли за
прошлый период (t - 1, t).
2. Вели понятия многофакторной
регрессионной модели и функции
регрессии.
Получили
нормальных
уравнений
оценивания
для
параметров
многофакторной
регрессии
систему
в
матричной форме.
функции
скалярной
и
3.
Построили
интервалы
для
доверительные
неизвестных
параметров функции регрессии и
неизвестной дисперсии
На этой лекции рассмотрим,
каким
образом
осуществляется
прогнозирование
при
многофакторной
регрессии,
приведем
помощи
и
формулу
для
интервальной оценки прогноза.
Обозначим
через
следующий вектор:

xпр . = 1, х1пр , х2пр ,...,хm 1пр
Запись
xпр .

.
x j np , j  1,...,m  1,
означает
прогнозируемое
значение фактора с номером j.
Тогда
в
матричной
прогнозируемое
форме
значение
результирующего признака можно
записать так:
Т
y хпр  В хпр ,
(3.2.6)
а в скалярной форме так:
y хпр  в0  в1 x1пр  в2 х2пр  ...  вm1 xm1пр
.
(3.2.7)
Доверительный
интервал
для
неизвестного
условного
математического
ожидания


Е у / xпр будет иметь вид:

  Р у хпр  t ,nm S ynp  Ey / xпр   y xпп  t ,nm S упр
(3.2.8)

где
S y np 
T
Se 1  xпр
.
Х Х 
1
Т
хпр
(3.2.9)
3.3. Множественный коэффициент
детерминации
Введем
множественного
понятие
коэффициента
детерминации. Как и в параграфе
2.4 будем использовать следующие
обозначения:
n
2
 уi

TSS =
 y

yx

ESS=
 y
i 1
n
i 1
i
,

2
где
y xi = в0  в1 x1i  в2 х2i  ...  вm1 xm1i
Определение 3.3.1.Множественным
коэффициентом
детерминации
(выборочным)
следующую величину:
называют
R̂
2
ESS

TSS
.
(3.3.1)
Замечание 1.
вычисления
Формулы для
TSS
и
в
ESS
матричной форме записи будут
иметь вид:


Y
Y

n
y
ТSS=
T
(3.3.2)
2
,
ESS


B
X
Y

n
y
=
T
2
T
.
(3.3.3)
Следовательно,
В Х Y  n  y
R̂  T
2
Y Y  n  y
Т
2
T
2
.
(3.3.4)
Отметим, что множественный
коэффициент детерминации R̂
характеризует,
какая
2
доля
вариации
(изменения)
результирующего
признака
определяется
y
совместным
изменением независимых факторов
х1 , х2 ,...,хm1 .
Значения
R̂
2
принадлежат
отрезку [0;1]. Чем ближе величина
R̂
2
к 1, тем больше у нас
оснований быть уверенными в
правильности
выбора
линейной
многофакторной модели (3.1.4) для
аппроксимации значений у.
Множественный
коэффициент
детерминации
обладает
следующим свойством:
введение нового m-го фактора в
регрессионную модель, по крайней
мере,
не
уменьшает
значение
R̂ 2 .
К чему это может привести на
практике? Мы можем ввести в
регрессионную модель достаточно
большое число факторов и за счет
увеличения их количества, а не за
счет их реального влияния на
переменную y, увеличить значение
R̂ 2 . Это, в свою очередь, может
привести к ошибочному выводу о
значимости
влияния
факторов
х1 , х2 ,...,хm1 на y. Для того чтобы
компенсировать влияние такого
эффекта при включении в модель
нового фактора, вводят понятие
скорректированного
коэффициента детерминации.
Определение3.3.2.
Скорректированным
коэффициентом
детерминации
называют следующий показатель:
R
2

m 1
2
R̂ 
1  R̂
nm

2
.
(3.3.5)
Замечание 2.
Формула (3.3.5)
эквивалентна формуле (3.3.6):
R
2 1  n  1 1  R̂ 2 
=
nm
(3.3.6)
.
Замечание3.
Скорректированный
коэффициент детерминации
может
принимать
отрицательные
Значения
и
значения.
скорректированного
(нормированного)
детерминации
итоговой
R2
коэффициента
приводятся
таблице
в
процедуры
«РЕГРЕССИЯ».
Регрессионная статистика
Множественный R
0,913
R-квадрат
0,834
Нормированный Rквадрат
0,831
Стандартная ошибка
8,276
Наблюдения
124,000
Замечание 4. Скорректированный
коэффициент детерминации
превосходит
по
R 2 не
величине
множественный
коэффициент
детерминации R̂ 2 :
R 2  R̂ 2 .
3.4. Проверка гипотез о значимости
многофакторной регрессионной
модели.
Как отмечалось выше, величина
множественного
коэффициента
детерминации
может
служить
ориентиром при ответе на вопрос,
насколько мы правы, выбрав в
качестве
модели
регрессионную
линейную
модель.
Для
дальнейшего анализа необходимо
провести статистическую проверку
гипотез о значимости, как всей
модели,
так и входящих в нее
факторов.
Основная
проверки
многофакторной
гипотеза
для
значимости
регрессионной
модели формулируется следующим
образом:
H 0 : 1  0, 2  0,..., m1  0;
H a : 1  0, 2  0,..., m1  0.
Для проверки
гипотезы
основной
вычисляют
выборочную статистику:
R̂
nm
Z 

2
1  R̂ m  1 .
2
*
(3.4.2)
Если гипотеза H0 верна,
то статистика (3.4.2) имеет
распределение Фишера c
1=(m-1),
2=(n-m)
степенями свободы (Z*=Fm-
1,n-m.).
Критическая область
является, правосторонней
её границу K2 ищут по
заданному
уровню
значимости 1- и 1=(m-1),
2=(n-m) степеням свободы
по
таблицам
распределения Фишера.
Если
0  Z*  K 2 ,
то принимают гипотезу
H0,
в противном случае,
когда
выполняется
неравенство
Z*  K 2 ,
принимают
альтернативную гипотезу.
Во втором случае говорят,
что
уравнение
регрессии
статистически значимо.
Очень
важным
при
работе с многофакторной
регрессией
является
процесс
выделения
наиболее
существенных
факторов модели. То есть
выявления
степени
влияния
конкретного
фактора
на
результирующий признак.
Проверка
фактора
значимости
хк
сводится
к
статистической
проверке
значимого отличия от нуля
стоящего
перед
ним
коэффициента к.
Относительно
коэффициента,
перед
каждого
стоящего
независимой
переменной
в
многофакторной
регрессионной
модели,
формулируют основную и
альтернативную гипотезы
вида:
H 0 :  j  0,
H a :  j  0.
(3.4.3)
Затем
выборочную
вида:
вычисляют
статистику
в
Z*=
j
Sв
j
.
(3.4.4)
В
том
случае,
если
основная гипотеза верна,
статистика
(3.4.4)
иметь
распределение
Стьюдента
c
степенями свободы
будет
(n-m)
(Z*=tn-m).
Критическая
область
будет
двусторонней, К1= - К2.
Граничное
ищут
значение
по
К2
таблицам
распределения Стьюдента
по
заданному
уровню
значимости (1-) и (n-m)
степеням свободы.
Если
К 1  Z*  K 2 ,
принимают
то
основную
гипотезу
и считают, что
j
коэффициент
незначимо отличается от
нуля
просто
(или
незначим).
Альтернативную гипотезу
принимают, если
К1  Z * или
Z*  K 2 .
В этом случае говорят, что
коэффициент 
j
значимо
отличается от нуля.
Та переменная (фактор)
xj, которой соответствует
незначимый коэффициент
 j,
также
считается
незначимой и заслуживает
того, чтобы усомниться в
необходимости
включения
в
ее
уравнение
регрессии. Может быть, в
дальнейшем
рассмотреть
стоит
регрессионную модель, в
которой переменной xj, уже
не будет.
tстатистика
2,419
22,850
11,632
3.5. Частные
коэффициенты
корреляции.
В первой главе мы уже
говорили
о выборочной
ковариационной
и
корреляционной
матрице
для
двух
случайных
величин. Для дальнейших
рассуждений
рассмотрим
структуру таких матриц в
общем
случае,
нескольких
величин.
уже
для
случайных
Обозначим через
~
Q
Q
и
следующие матрицы
выборочных
коэффициентов
корреляции
между
результирующим
признаком и факторами в
модели множественной и
между факторами.
1 ˆ yx1 ˆ yx2 ... ˆ yxm1 


 ˆ yx1 1 ˆ x1x2 ... ˆ x1xm1 
Q

 ........................................ 
,
 ˆ

ˆ

....
1
yx
x
x
 m1 1 m1

(3.5.1)




1 ˆ x1x2 ... ˆ x1xm1


~ 
Q   ˆ x1x2 1 ... ˆ x2 xm 1

 ........................................

.
 ˆ x x

ˆ

....
1
x
x
 1 m 1
2 m 1

(3.5.2)
Очевидно, что
1 ˆ yx1

 ˆ yx1

Q


 ˆ yxm1

ˆ yx2
... ˆ yxm1 



~
Q


.


Образуя
некоторую
упорядоченную
систему,
факторы
оказывают
совместное
воздействие
друг на друга. Поэтому,
введем
такую
характеристику,
числовую
которая
служит мерой силы связи
между
двумя
переменными
такой
системы, «очищенной» от
влияния остальных. Такая
статистическая
характеристика
называется
частным
коэффициентом
корреляции между двумя
факторами.
Download