Двумерные выборки

advertisement
Регрессионные модели. Метод наименьших квадратов
Двумерные выборки
До сих пор мы рассматривали одномерные выборки, но выборка может
быть и многомерной. Сначала мы будем рассматривать двумерные выборки.
Выборка объёма n из двумерной генеральной совокупности – это набор из n
упорядоченных пар (xi, yi), i=1, 2, …., n. Обычно выборку представляют в
табличной форме, как правило, используют три строки или столбца: номер
опыта, значения xi и значения yi (см. таблицу 1):
Таблица 1. Табличное представление выборки
номер
выборки
xi
yi
1
2
3
i
n
x1
yi
x2
yi
x3
yi
xi
yi
xn
yn
или
x1
yi
xi
yi
x2
yi
x3
yi
xi
yi
xn
yn
Рассмотрим несколько примеров.
Пример 1. Результаты тестирования (баллы) 10 студентов. Первый тест проверяет память x, второй – способность к логическому мышлению y.
номер
выборки
память, xi
логика, yi
1
2
3
4
5
6
7
8
9
10
5
7
8
9
7
6
10
9
4
6
7
7
9
10
6
7
8
6
6
8
Пример 2. На химическом производстве в ходе пяти рабочих смен получены
следующие данные о зависимости выхода продуктов ξ2 (кг/час) от температуры ξ1 (0С):
№
xi,(0C)
yi, (кг/час)
№
xi,(0C)
yi, (кг/час)
1
51
52,7
10
28
5,3
2
32
15,2
11
35
20,7
3
80
89,5
12
40
21,7
4
73
94,8
13
29
9,2
5
64
76
14
53
55,4
6
45
39,3
15
58
64,3
7
83
114,8
16
65
79,1
8
9
44
93
36,5 137,4
17
75
101
Пример 3.Генеральная совокупность – это множество студентов, например,
ТПУ. Случайная величина ξ1 – рост студентов; ξ2 – вес студентов. В табличном виде выборка (объём выборки n=25) выглядит так:
рост, xi, вес, yi
185
77
xi
yi
xi
yi
173
82
185
76
170
183
183
163
188
185
165
185
66
75
77
68
82
74
61
77
180
178
183
188
193
183
175
183
84
100
84
84
70
79
77
70
175
165
178
188
178
83
66
67
95
63
В этом примере данные выборки представлены без нумерации номера выборки и
записаны по столбцам, а в примерах выше по строкам.
Пример 4.
Таблица. Результаты подбрасывания двух кубиков:
номер подбра1
2
3
4
5
сывания
число очков,
выпавшие на
4
6
5
1
1
1-м кубике, xi
число очков,
выпавшие на
5
1
2
3
6
2-м кубике, yi
6
7
8
9
10
5
1
5
6
6
1
1
6
2
6
Пример 4. Одной из важнейших задач статистики является изучение изменений анализируемых показателей во времени, то есть их динамика. Эта задача решается при помощи
анализа рядов динамики (временных рядов).
Ряды динамики, как правило, представляют в виде таблицы (см. табл. 4) или графически
(см. рис. Error! Reference source not found.), причем по оси абсцисс строится шкала времени t, а по оси ординат – шкала уровней ряда y.
Таблица. Внешнеторговый оборот России за период 2000-2007 гг.
Год, xi
2000 2001 2002 2003 2004 2005 2006 2007
Млрд. долл. США, yi 149,9 155,6 168,3 212,0 280,6 368,9 468,4 552,2
Пример 5. Задача взята из книги А.П. Матялис стр. 10
xi
-0,667
-0,36
0,067
0,307
0,627
0,987
1,293
yi
2,6
2,01
1,34
1,08
0,94
1,06
1,25
Числовые характеристики двумерных выборок
Для исследования двумерных выборок, так же как и для одномерных
выборок используют числовые характеристики. Вычисляют выборочное
среднее, дисперсию и среднеквадратичное отклонение для каждой выборки
отдельно. Определим эти характеристики с использованием MS Excel.
Имя
выборки
среднее
рост
вес
179,6667
76,54167
дисперсия отклонение
63,18841
90,08514
7,9491135
9,4913195
Как видно из таблицы средний рост студентов равен 179,9 см., а вес –
76,5 кг. Отклонение от среднего: для роста это 7,9 см., а для веса – 9,5 кг. Из
таблицы видно (это следует и из жизненного опыта), что с увеличение роста
увеличивается величина веса, но здесь отсутствует функциональная зависимость: чем больше рост, тем больше вес, но всё-таки наблюдается тенденция:
чем выше рост, тем больше вес. Поэтому в статистике рассматривают так
называемую статистическую зависимость.
Условным средним 𝑦̅𝑥 называется среднее арифметическое значение
случайной величины Y при X=x. Если каждому значению x соответствует одно значение условного среднего 𝑦̅𝑥 , то зависимость условного среднего от x
является функциональной; в этом случае говорят о корреляционной зависимости случайной величины Y от случайной величины X. Уравнение 𝑦̅𝑥 =f(x)
называется уравнением регрессии Y на X. Функция f(x) называется регрессией
Y на X, а её график – линией регрессии Y на X.
В качестве количественной оценки тесноты корреляционной связи
между двумя случайными величинами используют коэффициент корреляции.
Вычислим коэффициент корреляции rxy между ростом и весом. Используем
MS Excel. Для нахождения коэффициента корреляции rxy используют функцию КОРРЕЛ(), которая находится в разделе "Формулы статистические". В
итоге имеем rxy=0,42087.
Графическое представление
двумерных выборок – диаграммы рассеяния
Графическое представление одномерной выборки – это гистограммы,
полигон и эмпирическая функция распределения (функция накопленных частот, кумулятивная функция). Двумерные выборки удобно представлять с
помощью диаграмм рассеяния (корреляционное поле, корреляционное облако). Каждый элемент двумерной выборки представляется точкой на плоскости с координатами (xi, yi), i=1, 2, …., n. Построим диаграммы рассеяния для
наших примеров.
Отметим, что при построении диаграммы рассеяния требуется сделать
сортировку по величине x (по той величине, значения которой наносятся ось
абсцисс).
Диаграмма рассеяния
11
10
9
8
7
6
5
4
3
2
1
0
4
5
6
6
7
7
8
8
9
10
Рис. 1. Диаграмма рассеяния для примера 1
Диаграмма рассеяния
y
6
5
4
3
2
1
0
0
1
2
3
4
5
6
x
Рис. 2. Диаграмма рассеяния для примера с кубиками
600
2500
500
2000
400
1500
1000
300
500
468.4
200
368.9
280.6
212
168.3
155.6
149.9
0
100
2000
1
2001
2
2002
3
4
2003
5
2004
6
2005
7
2006
2007
Рис. 3. Внешнеторговый оборот России за период 2000-2007 гг.
Диаграмма рассеяния
y
3
2.5
2
1.5
1
0.5
0
-1
-0.5
0
0.5
1
1.5
x
Рис. Диаграмма рассеяния
Диаграмма рассеяния
y
3
2.5
y = 0,8743x2 - 1,2459x + 1,4061
R² = 0,9977
2
1.5
1
0.5
0
-1
-0.5
0
0.5
1
1.5
x
Рис. Диаграмма рассеяния и линия регрессии
Основы корреляционного и регрессионного анализа
Задача восстановления зависимостей по эмпирическим данным была и, вероятно,
всегда будет центральной в прикладном анализе. Эта задача является математической интерпретацией одной из основных естествознания: как найти существующую закономерность по разрозненным данным.
При изучении проблемы восстановления функциональных зависимостей по существу приходят к следующему классическому принципу восстановления функциональных
зависимостей по эмпирическим данным. Следует из допустимого множества функций выбрать такую функцию, которая наилучшим образом приближается к совокупности имеющихся эмпирических данных.
Следовательно, задача для своей корректной постановки требует априорной информации – указать множество функций, которому априори принадлежит функция y(x).
Наиболее простым случаем является случай параметрического задания – y(x)=yθ(x, θ).
Здесь yθ известная функция, а параметр θ неизвестен и определяется по значениям yi.
Функцию yθ(x,θ) часто называют регрессионной моделью. Для подбора параметра θ необходимы сведения о распределении ошибки.
Более сложным считается случай, когда функция y(x) неизвестна и обладает свойством гладкости. В этом случае пытаются подобрать удобный параметрический класс
(например, многочленов или сплайн-функций). В этом случае мы имеем дело с ошибками
двух сортов: систематической ошибкой (ошибкой модели) и случайной ошибкой (ошибкой определения параметров модели).
Этот принцип является достаточно общим. Он составляет свободу в толковании того, что является мерой качества приближения функции к совокупности эмпирических
данных. Существуют различные определения меры: среднеквадратичное уклонение, величина наибольшего отклонения, величина среднего отклонения и т.д.
Различают два вида восстановления зависимостей по эмпирическим данным:
 интерполирование;
 аппроксимация.
Целью любого исследования, осуществляемого в настоящее время, является использование его результатов в будущем, или, иначе говоря, прогнозирование состояния
изучаемого явления. Примерами такого прогнозирования заполнены учебники всех естественнонаучных и экономических дисциплин. При этом, желая изучать явление во взаимосвязи с другими явлениями или величинами, приходится выделять некоторые из них,
влияющие на изучаемое, оценивать степень и "качество" влияния, то есть характер связи
между изучаемым (основным в данном исследовании) и влияющими на него величинами
качественного или количественного характера.
В дальнейшем мы "основную", изучаемую, величину будем называть зависимой
переменной и обозначать литерой y, прочие, влияющие на у, величины будем называть независимыми переменными и обозначать литерами x1, x2, …, xk. Как у, так и x1, x2, …, xk, будем считать числовыми.
Различают два вида связей.
1. Если значение зависимой переменной становится известным, как только известны
значения независимых переменных, говорят о связи динамической или функциональной, поскольку в этом случае существует закон, по которому вычисляется у в
зависимости от x1, x2, …, xk. В математике функциональную зависимость записывают в следующее виде у=f(x1, x2, …, xk).
Примеры таких связей: закон свободного падения тела; закон Ома; закон БойляМариотта; связь между стоимостью единицы товара и ценой, уплаченной за партию его;
зависимость производительности труда и затрат рабочего времени.
2. Иначе обстоит дело, когда по значениям независимых величин можно установить
лишь некоторую "среднюю" тенденцию в значениях зависимой переменной. Так,
например, общепонятно, что между ростом человека и его весом существует зависимость, созданы таблицы такой зависимости, учитывающие еще и пол, и возраст,
однако пользоваться ими можно лишь, опять же, "в среднем". Подобного рода связи называют корреляционными1, а задачей установления математической формы
корреляция [лат. correlatio] – 1) соотношение, взаимосвязь предметов, явлений или понятий; 2) в математической статистике – понятие, которым отмечают связь между явлениями, если одно из них входит в число
причин, определяющих другие, или имеются общие причины, воздействующие на эти явления (функция
является частным случаем корреляции); корреляция может быть более или менее тесной (т.е. зависимость
1
корреляционной связи занимается регрессионный анализ. Зависимая переменная у
при этом рассматривается как случайная величина, а независимые переменные
можно прямо или косвенно контролировать. Корреляционный анализ изучает совместное распределение всех измеряемых переменных с анализом точности оценивания одних величин через другие.
В отличие от функциональной связи в регрессионном анализе речь идет об установлении функции регрессии M(y/x1, x2, …, xk)=f(x1, x2, …, xk), где символ M( / ) обозначает математическое ожидание случайной величины у при заданных значениях независимых
переменных x.
Здесь важно заметить следующее.
В то время как независимые переменные x1, x2, …, xk контролируемы, управляемы,
а у является случайной величиной, то по данным эксперимента, в котором x1, x2,
…, xk приняли вполне конкретные значения, можно судить лишь об оценке параметра, связанного с распределением у, оценок же, как мы уже знаем, можно построить много.
С точки зрения дальнейших применений желательно иметь оценку как можно более простого вида и которая удовлетворяла бы некоторому критерию оптимальности (подобному несмещенности, например, для оценок параметров).
Из всех элементарных функций (исключая константу) наиболее простой является
линейная. Этот случай мы и изучим в дальнейшем детально как наиболее прозрачный с
точки зрения идейной и в то же время дающий возможность для дальнейших обобщений.
В свою очередь второй вид связи можно разбить на два случая:
1. У, x1, x2, …, xk являются случайными величинами;
2. у – случайная величина, а x1, x2, …, xk детерминированы.
Выше было сказано, что задача, связанная с подбором математического выражения,
описывающего связь между экспериментальными данными, называется аппроксимацией.
Само математическое выражение называют уравнением регрессии (регрессией), а соответствующую кривую – линией регрессии, такой эксперимент относят к числу так называемых регрессионных.
Чтобы подобрать наилучшую в некотором смысле регрессию, сперва необходимо
установить критерий, с помощью которого определить, что такое "наилучшая" регрессия.
Одним из широко применяемых на практике критериев оптимальности регрессии является
критерий минимума суммы квадратов отклонений линии регрессии от экспериментальных
данных. Его применение позволяет при определении линии регрессии использовать хорошо разработанный метод наименьших квадратов, обеспечивающий построение линии
регрессии, характеризуемой минимальным средним квадратом её отклонения от результатов эксперимента.
После определения критерия оптимальности регрессии следует перейти к выбору
типа уравнения регрессии.
Тип уравнения в значительной мере зависит от вида экспериментальных данных,
однако наиболее часто используется полином вида
Y=b0+b1x+b2x2+… bkxk.
одной величины от другой – более или менее ясно выражено); число, показывающее степень тесноты корреляции, называется коэффициентом корреляции (это число заключено между -1 и 1).
Можно построить кривую, описываемую полиномом (n-1) степени и проходящую
через все n точек, однако такой способ обычно не используется, поскольку не приводит к
сглаживанию кривой, хотя график этого полинома будет проходить через все заданные
точки, и сумма квадратов отклонений будет равна 0. Поскольку результаты измерений,
как правило, случайны, предпочтительно аппроксимировать их средние значения. Поэтому обычно для аппроксимации используют полиномы первой и второй степени.
Линейная регрессия
Опишем вначале математическую постановку задачи, считая, что изучается одна
зависимая переменная у в присутствии одной независимой переменной х (так называемая
задача парной регрессии).
Пусть зависимость между х и у имеет вид
y=b0+b1x+ε,
где b0, b1 – постоянные коэффициенты, называемые параметрами модели,
-случайная величина с математическим ожиданием равным 0 и дисперсией равной 2.
В этом случае уравнение регрессии превращается в уравнение прямой
𝑦̅ = M(y/x)=b0+b1x.
Предположим, что независимой переменной придали значения x1,x2,…,xk, в результате чего зависимая переменная приняла значения y1, y2, …, yn. В предположении линейной зависимости получаем n равенств
yi=b0+b1xi+εi, i=1,2, …, n,
где εi – независимы и распределены так же, как .
Требуется по значениям пар (xi, yi) оценить неизвестные b0, b1.
Как мы уже знаем, каждая задача оценивания связана с некоторым критерием качества. В излагаемой нами теории таким критерием является критерий наименьших квадратов: Q(b0, b1)= ∑𝑛𝑖=1 𝜀 2 → min.
Запишем эту сумму иначе, так, чтобы была видна зависимость от b0, b1:
∑𝑛𝑖=1 𝜀𝑖2 = ∑𝑛𝑖=1[𝑦̅(𝑥𝑖 ) − 𝑦𝑖 ]2 = ∑𝑛𝑖=1(𝑏0 + 𝑏1 𝑥𝑖 −𝑦𝑖 )2 .
Теперь окончательно приходим к следующей задаче: отыскать такие значения неизвестных параметров b0, b1, чтобы функция
𝑄(𝑏0 , 𝑏1 ) = ∑𝑛𝑖=1(𝑏0 + 𝑏1 𝑥𝑖 −𝑦𝑖 )2 .
приняла наименьшее значение.
Метод решения этой задачи известен из курса высшей математики.
Находим частные производные функции Q и приравниваем их к нулю, в результате
чего приходим к системе линейных уравнений
𝑛
𝜕𝑄
= 2 ∑ (𝑏0 + 𝑏1 𝑥𝑖 −𝑦𝑖 ) = 0
𝜕𝑏0
𝑖=1
𝑛
𝜕𝑄
= 2 ∑ (𝑏0 + 𝑏1 𝑥𝑖 −𝑦𝑖 )𝑥𝑖 = 0.
{𝜕𝑏1
𝑖=1
После очевидных преобразований получаем систему
𝑛
𝑛𝑏0 + 𝑏1 ∑
𝑛
{
𝑏0 ∑
𝑖=1
𝑛
𝑥𝑖 = ∑
𝑖=1
𝑛
𝑥𝑖 + 𝑏1 ∑
𝑖=1
𝑦𝑖
𝑖=1
𝑛
𝑥𝑖2 + ∑
𝑥𝑖 𝑦𝑖
𝑖=1
Оценки параметров линейной регрессии имеют вид:
𝑄𝑥𝑦
𝑏̂1 =
, 𝑏̂ = 𝑦̅ − 𝑏̂1 𝑥̅
𝑄𝑥 0
1
1
где 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 , 𝑦̅ = 𝑛 ∑𝑛𝑖=1 𝑦𝑖 ,
Qxy=∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅), Qx=∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 .
то оценка функции регрессии примет вид
𝑦̂ = 𝑏̂0 + 𝑏̂1 𝑥=𝑦̅ + 𝑏̂1 (𝑥 − 𝑥̅ ).
Пример 1. Агент по продаже домов изучает зависимость между ценой дома у
(в $ 1000) и общей его площадью х (в сотнях квадратных футов). С этой целью он произвел выборку из 15 домов и зафиксировал такие результаты:
Таблица 1
Номер
Номер
xi
yi
xi
yi
опыта
опыта
20,0
89,5
24,3
119,9
1
9
14,8
79,9
20,2
87,6
2
10
20,5
83,1
22,0
112,6
3
11
12,5
56,9
19,0
12,8
4
12
18.0
66,6
12,3
78,5
5
13
14,3
82,5
14,0
74,3
6
14
27,5
126,3
16,7
74,8
7
15
16.5
79,3
8
Нанеся пары (xi, yi) на координатную плоскость, он получает так называемое корреляционное облако(корреляционное поле или диаграмма рассеяния), вид которого позволяет предположить, что линейная зависимость между переменными не лишена оснований.
Приняв эту гипотезу, вычисляем затем по полученным выше формулам оценки
𝑏̂1 =3.88; 𝑏̂0 = 𝑦̅ − 𝑏̂1 𝑥̅ =18,354.
Теперь уравнение регрессии имеет вид
𝑦̂ = 18.354 + 3.88𝑥.
Её график нанесем на корреляционное поле (рис. 2)
Литература
Download