ЛК 6 Корреляционный и регрессионный анализ

advertisement
Математическая обработка результатов измерения
Математические основы измерения
Лекция 6
Корреляционный и
регрессионный анализ
Лектор: ст. преподаватель каф. ИИТ
Вавилова Галина Васильевна
Содержание
1. Функциональная, статистическая и
корреляционная зависимости
2. Корреляционный анализ
3. Регрессионный анализ
2
Функциональная, статистическая и
корреляционная зависимости
Функциональная зависимость
Статистическая зависимость
Независимые
3
Виды связи
• Такая связь что любому xi соответствует только
одно значение yi,
• Графически функциональная связь двух величин
представляется какой-то кривой f(x) или, в
Функциональная
частности, прямой линией y=kx
связь
4
Статистическая
зависимость
Корреляционная
зависимость
• при которой изменение одной из величин влечет
изменение распределения другой.
• частный случай статистической зависимости, при
которой при изменении одной из величин
изменяется среднее значение другой
5
Какой вид связи представлен на
рисунке?
6
Корреляционный анализ
В теории вероятности:
D( x  y )  D( x)  D( y )
Если для суммы двух случайных величин окажется,
что
D( x  y )  D( x)  D( y )
то это является признаком корреляционной
зависимости между ними.
7
Корреляционный анализ

D(x) = M x - Mx 
2


D(y) = M y - My
2

то


D(x  y) = M x  y - Mx  y  D( x)  D(y)  2Mx - Mx y - My
2
M  x-M  x   y-M  y  0.
M  x-M  x   y-M  y  0.
наличие
зависимости
между x и y
8
M  x-M  x   y-M  y  0.
наличие зависимости
между x и y
НО
Mx - Mxy - My  0
Независимость
xиy
9
Корреляция
Корреляция
• связь, которая вызывает отличие дисперсии суммы от
суммы дисперсии
Необходимое и достаточное условие
корреляции
•
M  x-M  x   y-M  y  0.
• размерная величина, количественно зависящая от
рассеяния аргументов.
Корреляционный момент
K xy  M  x-M  x   y-M  y .
10
Коэффициент корреляции
• Нормированная безразмерная величина

Коэффициент
корреляции
K xy
D( x )D( y )

K xy
 x y
.
• определяет степень тесноты корреляционной
связи между двумя величинами
11
Свойства коэффициента корреляции
Если X и Y независимы между собой, то ρ = 0.
• Но ρ = 0 и для некоторых зависимых величин, которые называются в этом
случае некоррелированными.
Возможные значения коэффициента корреляции: -1 ≤ ρ ≤ 1.
Если ρ≠0, то существует статистическая связь
Сила связи:
• чем больше ρ по модулю, тем сильнее связь;
• ρ = ±1 означает, что между величинами существует функциональная связь, но
не любая, а строгая линейная зависимость
Таким образом коэффициент корреляции
• показатель того, насколько связь между величинами близка к строгой
линейной зависимости.
• отмечает как долю случайности, так и степень близости к линейной
зависимости.
12
Сила корреляции
отсутствие корреляции
слабая — от 0,1 до 0,3
умеренная — от 0,3 до 0,5
заметная — от 0,5 до 0,7
высокая — от 0,7 до 0,9
весьма высокая
(сильная) — от 0,9 до 1,0.
13
Определите силу корреляции
14
Оценивание коэффициента
корреляции опытным путем
1. провести n испытаний.
2. зарегистрировать одновременно X и Y, и получить n пар значений
(x1, y1), (x2, y2), …, (xn, yn).
3. отметить эти пары как координаты точек на плоскости.
15
Корреляционный анализ
• Оценку зависимости между случайными
величинами по выборочному коэффициенту
корреляции
Корреляционный
анализ
16
Выборочные корреляционный
момент и коэффициент корреляции
n
r
1
n 1
 x
i 1
i
 x ( y i  y )
SxSy
Коэффициент
корреляции
K xy
x
Корреляционный
момент
n
1
xi

n i 1
1 n
y   yi
n i 1
1 n

 xi  x ( yi  y )
n  1 i 1
1 n
2
S 
y

y
.


 i
n  1 i 1
2
y
Выборочный
коэффициент
корреляции

K xy
D( x )D( y )

K xy
 x y
.
Выборочные
корреляционный
момент
K xy  M  x-M  x   y-M  y .
1 n
 x i  x 2
S 

n  1 i 1
2
x
17
Для практических вычислений удобнее
пользоваться следующими формулами
n
n
 x
i 1
i
n
x  y
i 1
n
 x ( yi  y )   xi yi 
n
2


x

x
 i
i 1
n
 y
i 1
i
 y
2
n
i
i 1
 n 
  xi 
n
2
  xi   i 1 
n
i 1
 n

y


i 
n
2
i 1


  yi 
n
i 1
i 1
i
2
2
18
Проверка гипотезы о значимости
выборочного коэффициента корреляции
При достаточно объеме
• выборочный коэффициент корреляции r приближается к
истинному значению ρ
Требуется проверка гипотезы о наличии
корреляционной связи
• генеральный коэффициент корреляции равен нулю
H0 :   0
Критерий значимости при проверке нулевой
гипотезы
• r-критерий
• t-критерий
19
r - критерий
а) по таблицам r – распределения определяется граничное значение
критерия rгр по заданному уровню значимости α и числу степеней
свободы k = n – 2.
б) проверяется выполнение условия: /r/ < rгр.
в) Если условие выполняется, то H 0 :   0 принимается и считается,
что случайные величины не коррелированы между собой.
20
t - критерий
H0 :   0
а) вычисляется наблюдаемое значение критерия
Tнабл  rв
n2
1  rв
2
б) по таблицам t–распределения (Распределение Стьюдента) находится.
граничное значение критерия по уровню значимости α и числу степеней
свободы k = n – 2.
в) проверяется выполнение условия
Tнабл.  tкр
Если условие выполняется, принимаем нулевую гипотезу: коэффициент
корреляции r незначимо отличается от нуля, т.е. между случайными величинами
отсутствует корреляционная связь.
21
Пример
По выборке объема п = 122, извлеченной из нормали двумерной
совокупности, найден выборочный коэффициент корреляции rв = 0,4.
При уровне значимости 0,05 проверить нулевую гипотезу о равенстве
нулю генерального коэффициента корреляции и конкурирующей
гипотезе Н1: rг ≠ 0.
22
Решение. Найдем наблюдаемое значение критерия:
Tнабл  rв
n2
1  rв
2
 0,4
122  2
1  0,4 2
 4,78
По условию, конкурирующая гипотеза имеет вид rг ≠ 0, поэтому
критическая область — двусторонняя.
По уровню значимости 0,05 и числу степеней свободы k = 122 — 2=120
находим по таблице Стьюдента tкр(0,05; 120) = 1,98.
Поскольку Тнабл > tкр — нулевую гипотезу отвергаем. Другими словами,
выборочный коэффициент корреляции значимо отличат от нуля, т. е. X и
Y коррелированы.
23
Регрессионный анализ
Корреляционный анализ
• одновременно оценивает факт случайности или
причинности зависимости от фактора
• НО и одновременно степень неслучайности.
Регрессионный анализ
• является более высокой ступенью анализа
• позволяет оценить как количественные характеристики
степени связи между случайными величинами, так и
характер этой связи
24
Регрессия
Линия
регрессии
• зависимость среднего значения величины y от другой
случайной величины х.
• кривую, описывающую эту зависимость
• Регрессия
• Воспроизводимость
25
Задача
• по парам экспериментальных данных (xi,yi) найти
уравнение приближенной регрессии
• оценить погрешность.
Линия регрессии у = α + βх.
• Метод наименьших квадратов
n
n

n    xi   yi ,

i 1
i 1
 n
n
n
2
 x   x  x y .



i
i
i i

i 1
i 1
 i 1
26
n

n
 yi    xi
i 1
i 1
n
Свободный член
регрессии

n
n
n
i 1
i 1
i 1
n xi yi   xi  yi
 n 
2
n xi    xi 
i 1
 i1 
n
2
Коэффициент
линейной регрессии
27
Преобразовав выражение
n

n
 y  x
i 1
i
i 1
n
получим другое выражение для свободного члена
Отсюда уравнение регрессии
i
  y x
y    x
x, y – центр тяжести поля экспериментальных точек
28
n

n
n
n xi yi   xi  yi
i 1
i 1
i 1


n xi    xi 
i 1
 i 1 
n
n
2
n
 x y  nxy   y  y  x  x 

i 1
n
i
i
  xi  x 
2
 y/x 
n

i 1
2
i 1
n
n
i 1
i 1
i 1
n yi xi   xi  yi


n yi    yi 
i 1
 i 1 
n
2
n
i
  xi  x 
2
r
Sy
Sx
i 1
n
n
i
2
r
Sx
.
Sy
29
.
y  y r
Sy
Sx
 x  x .
x  x   y/ x ( y  y )
Следствие:
линии регрессии у по х и х по у не
совпадают:
 y/ x   x/ y
 y/ x  x/ y  r
2
• первая проходит более полого,
• вторая – более круто
30
Задача регрессивного анализа
• Установление параметров, которые описывают
экспериментальную зависимость.
• При условии, что эмпирические точки получены с
некоторой погрешностью
Регрессия
• Подбор неизвестных коэффициентов аналитической
зависимости f(x)
31
Этапы регрессионного анализа
предварительная обработка ЭД;
выбор вида уравнений регрессии;
вычисление коэффициентов уравнения регрессии;
проверка адекватности построенной функции
результатам наблюдений.
32
Виды уравнения регрессии
Линейная регрессия
Полиномиальная регрессия
Обобщенная регрессия
33
Линейная регрессия
Метод
наименьших
квадратов
y ( x )    x
Метод
медиан
34
Полиномиальная регрессия
y  a0  a1 x  a2 x  a3 x  ...
2
3
35
Обобщенная регрессия
F x   a0 f 0 x   a1 f1 x   ...  an f n x 
15
x  0.1 i
i
10
y  2 x  5 sin
y

l( t u) 5
n
t


F( t)    40   t  
 sin

n
 

f ( t)
0
5
40   x 
0
1
2
3
4
  rnorm( n  102)

5
xt t
36
Спасибо за внимание!
37
Download