Эконометрическое моделирование функции спроса (МАТЕРИАЛЫ К ЛЕКЦИИ) Подготовила старший преподаватель кафедры Прикладной математики Меньшова И.В. Текст лекции на тему «Эконометрическое моделирование функции спроса» по дисциплине «Эконометрика» План: 1. Общие положения 2. Отбор факторов для построения функции спроса 3. Определение формы связи между спросом на товар и доходом потребителя. Расчет параметров уравнения парной линейной регрессии 4. Расчет коэффициентов корреляции и детерминации. Проверка правильности выбранных факторов и формы связи 5. Оценка точности построенной модели. Статистическая проверка гипотез о значимости параметров уравнения регрессии и самого уравнения в целом 6. Определение и анализ эластичности потребления по доходу 7. Модели множественной регрессии. Построение функции спроса (потребления) от двух факторов Тесты контроля усвоенного материала Литература Приложение А. Варианты исходных данных для выполнения контрольной работы Приложение Б. Таблицы критических точек распределения Стьюдента и Фишера Приложение С. Применение ППП MS Excel при исследовании зависимости экономических 1 ОБЩИЕ ПОЛОЖЕНИЯ Проблема изучения взаимосвязей экономических показателей является одной из важнейших в экономическом анализе. Экономическая политика заключается в регулировании этих параметров (переменных). Она должна основываться на знании того, как эти переменные влияют на другие переменные, являющиеся ключевыми для лица, принимающего решение (ЛПР). Построение, проверка, улучшение экономических моделей невозможны без статистического анализа их переменных с использованием реальных статистических данных. В этом смысле вся сфера экономических исследований - есть изучение взаимосвязей экономических переменных. Инструментом их базового анализа является методы статистики и эконометрики. Эконометрика - наука, исследующая количественные закономерности и взаимосвязи в экономике при помощи методов математической статистики. Название «эконометрика» введено в 1926г. норвежским экономистом и статистиком Р. Фришем. Буквальный перевод этого понятия - «измерения в экономике». В настоящее время общепризнанно следующее определение: Эконометрика - это самостоятельная научная дисциплина, объединившая совокупность теоретических результатов, приемов, методов и моделей, предназначенных для того, чтобы на базе: а) экономической теории; б) экономической статистики; в) математико-статистического инструментария придавать конкретное количественное выражение общим (качественным) закономерностям, обусловленным экономической теорией. Можно сказать, что суть эконометрики - синтез экономики, экономической статистики и математики. Говоря об экономической теории в рамках эконометрики, интересуются не только выяснением объективно существующих 3 качественных экономических законов и связей, но и их формализацией, т.е. спецификацией соответствующих моделей с учетом их идентифицируемости. В экономической статистике в рамках эконометрики интересуются, в основном, лишь информационным обеспечением анализируемой модели. Под математико-статическим инструментарием эконометрики подразумевают не вся математическая статистика, а лишь такие ее разделы, как классическая и обобщенная линейные модели регрессионного анализа, анализ временных рядов, построение и анализ системы одновременных уравнений. «Приземление» экономической теории на базу конкретной экономической статистики и извлечение из этого с помощью математических методов определенных количественных взаимосвязей — сущность эконометрики и ее отличие от математической экономики, описательной экономической статистики и собственно математической статистики. Математическая экономика (т.е. математически сформулированная экономическая теория), изучает взаимосвязи между экономическими переменными на неколичественном, общем уровне. Она становится эконометрикой, когда коэффициенты, представленные в общем виде в этих взаимосвязях, заменяются конкретными численными значениями, полученными из соответствующих экономических данных. Отсюда - главное назначение эконометрики: экономические и социальноэкономические приложения, т.е. модельное описание конкретных количественных взаимосвязей, существующих между экономическими показателями. Классификацию задач, решаемых эконометрикой, удобно представить в виде схемы, представленной на рисунке 1. 4 Рисунок 1. Классификация задач, решаемых эконометрикой 5 Основные этапы эконометрического моделирования: 1 этап (постановочный): определение конечной цели моделирования, набора участвующих в модели факторов и показателей на основе качественного анализа исследуемого экономического процесса. 2 этап (априорный): предмодельный анализ экономической сущности изучаемого явления, формирование и формализация априорной информации. 3 этап (параметризация): моделирование, т.е. выбор общего вида математической модели процесса, состава и формы входящих в нее связей. Основная задача, решаемая на этом этапе, - спецификация модели, т.е. выражение в математической форме обнаруженных связей и соотношений; установление состава эндогенных и экзогенных переменных; формулировка исходных предпосылок и ограничений модели. От того, насколько удачно решена проблема спецификации модели, в значительной степени зависит успех всего эконометрического моделирования. 4 этап (информационный): формирование репрезентативной выборочной статистической совокупности, сбор необходимой статистической информации: регистрация значений участвующих в модели факторов и показателей на различных временных и пространственных интервалах функционирования явления. 5 этап (идентификация модели): статистический анализ модели, прежде всего, выбор методов оценивания неизвестных параметров модели в соответствии с особенностями объектов исследования и спецификой имеющихся данных наблюдений и статистическое оценивание этих параметров. 6 этап (верификация модели): сопоставление модельных и расчетных данных, проверка адекватности модели, оценка точности модельных данных. На этом этапе рассчитываются: а) коэффициенты корреляции (корреляционное отношение) и детерминации, используемые для проверки правильности произведенного отбора факторов 6 и принятой формы связи; б) эмпирические и теоретические коэффициенты эластичности зависимой переменной по факторам, сравнение которых между собой также применяется в качестве критерия проверки адекватности модели; в) статистические t – критерий и F – критерий, а также их доверительные интервалы, для проверки статистической значимости коэффициентов регрессии и детерминации соответственно. В результате интерпретации полученных результатов, установления их адекватности поставленным целям, принимается решение относительно следующего цикла эконометрического исследования. Целью данной контрольной работы является построение и анализ функции спроса на товар А. Эконометрические модели спроса строятся в виде уравнений парной и множественной регрессии, в которых в качестве зависимой переменной величины (функции) выступает спрос, а в качестве независимых переменных величин (аргументов) - формирующие его причинные факторы. Наиболее существенными факторами, оказывающими влияние на спрос, являются: цена на данный товар, цены на другие товары, доход, половозрастной состав семьи, размер семьи, вкусы и привычки и т.д. Как правило, анализ спроса начинают с построения функции одной переменной. Для этого все факторы, кроме одного, считают неизменными или закрепляют на каком-либо уровне. Если в качестве формирующего фактора выбрать цену на данный товар, то получим так называемую функцию спроса от цены. Если же в качестве аргумента выбрать доход, то получим функцию потребления (функцию спроса от дохода). В процессе выполнения работы необходимо выполнить три цикла эконометрического исследования, каждый из которых состоит из шести описанных выше этапов. Первый цикл включает обоснование и проверку адекватности линейной модели парной регрессии, независимым фактором в которой является денежный 7 доход потребителя. Исходные данные для выполнения этого цикла приведены в приложении (y обозначает спрос на товар А, х – средний доход в расчете на 1 человека). Во втором цикле для тех же исходных данных в соответствии со всеми шестью этапами анализируется степенная функция. В третьем цикле добавляется еще один фактор – размер семьи и анализируется линейная модель множественной регрессии. В результате проверки по всем необходимым критериям должен быть сделан выбор в пользу одной из трех исследованных моделей. 8 2. ОТБОР ФАКТОРОВ ДЛЯ ПОСТРОЕНИЯ ФУНКЦИИ СПРОСА Включение в эконометрическую модель того или иного набора факторов связано, прежде всего, с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые в модель, должны отвечать следующим требованиям: а) Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место нахождения недвижимости: районы могут быть проранжированы) б) Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи. Процесс формирования и развития спроса населения находится под воздействием множества самых различных факторов: темпов и пропорций производства, национального дохода и пропорций его распределения на фонды накопления и потребления, денежных доходов населения и их распределения между отдельными социальными и экономическими группами трудящихся, уровня и соотношения розничных цен товаров, социального и половозрастного состава населения, его численности, размера и состава семей, развития общественных фондов потребления, моды, потребительских привычек, национальных особенностей, природно-климатических условий и др. Очевидно, что все это многообразие факторов непосредственно включено в эконометрическую модель не может быть спроса. В модели учитываются лишь наиболее существенные факторы, то есть те, которые вызывают значительные изменения в спросе населения на данный товар, оказывают определяющее воздействие на процесс формирования и развития этого 9 спроса. Все факторы подразделяются на две самостоятельные группы: а) общие факторы, воздействующие на спрос по всем или по большинству товаров; б) специфические, или частные, факторы, оказывающие влияние на спрос лишь по отдельным товарам или их группам. К числу общих факторов можно отнести размеры денежных доходов населения, уровень и соотношение розничных цен, численность населения, его социальный состав. К числу специфических факторов относятся размеры натуральных поступлений продуктов питания из источников, не связанных с рынком, степень обеспеченности семей отдельными видами предметов длительного пользования, интенсивность жилищного строительства и некоторые другие. Эти факторы должны учитываться при анализе и прогнозировании спроса на продукты питания, на предметы длительного пользования и т.п. Эффективными методами отбора наиболее существенных факторов являются качественный анализ, корреляционный анализ, а также анализ результатов специально проводимых опросов мнений специалистов (экспертных оценок). С конца 19-го века, когда немецкий статистик Энгель сформулировал законы изменения спроса на различные товары в зависимости от изменения дохода потребителя, в качестве важнейшего фактора, влияющего на потребление товаров, рассматривается денежный душевой доход. Исходные данные, характеризующие изменение душевого дохода (Х) и расхода на потребление товара А (Y) приведены в таблице 1. 10 Таблица 1 Исходные данные Душевой доход Расходы на потребление (X) (ден.ед.) (Y) (ден. ед.) 200 250 300 350 400 450 500 550 600 650 700 X = 4950 Х = 450 товара А 13 (Y) (ден.ед.) 20 24 38 45 60 100 150 159 160 196 Y = 965 Y = 87,73 X² XY Y² 40000 62500 90000 122500 160000 202500 250000 302500 360000 422500 490000 2 X = X2 = 2502500 227500 2600 5000 7200 13300 18000 27000 50000 82500 95400 104000 137200 XY = 542200 XY = 49290,91 169 400 576 1444 2025 3600 10000 22500 25218 25600 38416 2 Y =130011 Y 2 = 11819,18 11 3. ОПРЕДЕЛЕНИЕ ФОРМЫ СВЯЗИ МЕЖДУ СПРОСОМ НА ТОВАР И ДОХОДОМ ПОТРЕБИТЕЛЯ. РАСЧЕТ ПАРАМЕТРОВ УРАВНЕНИЯ ПАРНОЙ РЕГРЕССИИ Задачу определения парной регрессии можно сформулировать следующим образом: по наблюденным значениям одной переменной (X) нужно оценить или предсказать ожидаемое значение другой переменной (Y). В модели линейной регрессии теоретически предполагается существование между переменными X и Y связи следующего вида: y xU , (1) где y - зависимая, объясняемая переменная, результирующий признак, регрессант; х - независимая, объясняющая переменная, регрессор, факторный признак; U – остаточная компонента, случайный член; , β - неизвестные параметры. Графически модель линейной регрессии можно представить в виде, изображенном на рисунке 2. Рисунок 2. Графическая интерпретация модели регрессии 12 Q1=(x1; ŷ1); ŷ1 = a + bx1; , (2) U1 = y1 - ŷ1. , (3) P1, P2, P3, P4 –фактические, наблюдаемые (реальные) значения переменных X, Y; Q1, Q2, Q3, Q4 – значения переменных в отсутствие случайного члена. Уравнение (1) называется регрессионным уравнением. Мы имеем некоторое число пар наблюдений, характеризующих значения переменных х и у или выборку. Задача регрессионного анализа состоит в получении оценок неизвестных параметров и β и в определении положения прямой по точкам Р (фактическим значениям). Зависимая переменная состоит из неслучайной и случайной составляющих. Предположим, что мы нашли эти оценки и можно записать уравнение: ŷ = a + bх, (4) где а - регрессионная постоянная, точка пересечения линии регрессии с осью OY; b - коэффициент регрессии, угол наклона линии регрессии, характеризующий отношение YX; ŷ - теоретическое значение объясняемой переменной. Используя полученное уравнение, можно рассчитать (как остатки) eiоценки конкретных значений ошибок u в нашей выборке. Наиболее популярным методом в начальном курсе эконометрики является метод наименьших квадратов (МНК). Он позволяет получить такие оценки параметров и β, при которых сумма квадратов оценок ошибки e2 принимает минимальное значение. Рассмотрим предполагаемую выборку, размер которой равен n, и предположим, что а и b - оценки параметров и β. В соответствии с МНК оценки 13 а и b можно получить из условия минимизации суммы квадратов ошибок e2: n S n e ( y a bx ) i 1 2 i i i (5) min 2 i 1 В общем случае, величину S можно рассчитать на основе выборочных наблюдений, когда уравнение регрессии описывается любой математической функцией. Для этого вычисляются алгебраические разности между наблюденными значениями Y и значениями выбранной нами функции от X, с помощью которой мы получаем оценки для Y. Это теоретические значения, обозначим их через Ŷ. Затем возводим полученные разности в квадрат и суммируем их по всем элементам выборки: S=(yi – ŷi)2, (6) Для выбора функции, наилучшим образом описывающей наблюденные значения, можно использовать графический метод. Исходные данные наносятся на координатную плоскость. На оси абсцисс откладывают значения факторного признака, а на оси ординат - значения результирующего признака. Расположение точек покажет примерную форму связи. Как правило, эта связь является криволинейной. Если кривизна этой линии невелика, то можно принять гипотезу о существовании прямолинейной связи. Функцию потребления можно изобразить в виде графика. Для этого в системе координат на оси абсцисс отложим значение дохода, а на оси ординат расходы на потребление условного товара. Расположение точек, соответствующих наборам значений "доход - расход на потребление", покажет примерную форму связи (рисунок 3 а, б). Можно рекомендовать использовать следующие функции: y= a +bx; , (7) y= axb, (8) y= abx ; , (9) 14 y a b , x (10) МНК применяется в тех случаях, когда избранное уравнение линейно относительно своих параметров. Нелинейное уравнение следует линеаризовать. Например: y =abx log y= log a + xlog , (11) y = axb log y= log a + blog x (12). Здесь надо заметить, что графический метод определения формы связи зависимой и независимой величин часто оказывается недостаточно надёжным, поскольку визуально, по графику, почти никогда не удаётся однозначно назвать наилучшую зависимость. 250 Расход на потребление товара А (Y) (ден.ед.) Расход на потребление товара А (Y) (ден.ед.) 250 200 150 100 50 0 200 250 300 350 400 450 500 550 600 650 700 200 150 100 50 0 -50 200 Душевой доход (X) (ден.ед.) 250 300 350 400 450 500 550 600 650 700 Душевой доход (X) (ден.ед.) Расход на потребление товара А (Y) (ден.ед.) Линейный (Расход на потребление товара А (Y) (ден.ед.)) Расход на потребление товара А (Y) (ден.ед.) Степенной (Расход на потребление товара А (Y) (ден.ед.)) б а Рисунок 3. График функции потребления 15 Существует более надёжный – алгебраический – метод определения типа кривой, особенно удобный при расчётах на ЭВМ. Он сводится к выявлению некоего постоянства приращений зависимой и независимой переменных, специфического для каждого типа зависимости. Например, для прямолинейной зависимости таким постоянством является y const , для квадратичной функции x – Δ2y=const, для степенной зависимости – log y const и т.д. Определив вид log x такого постоянства для своего эмпирического материала (на ЭВМ это несложно), исследователь может быть уверен в правильности выбора формы связи; графическая интерпретация такой уверенности не даёт. Однако включенная в схему логическая проверка полученных результатов при различных формах связи позволяет получить, как увидим далее, вполне обоснованные результаты. В прогнозах потребления наиболее применимы линейная и степенная формы связи. Мы исследуем обе эти формы связи. Вначале испытываем прямолинейную зависимость вида (4). Далее следует перейти к оценке параметров выбранной функции a и b способом наименьших квадратов. Проблема оценивания может быть сведена к "классической" задаче отыскания минимума. Переменными теперь оказываются оценки а и b неизвестных параметров предполагаемой связи у и х. Для отыскания наименьшего значения какой-либо функции сначала надо найти частные производные I порядка. Затем каждую из них приравнять нулю и разрешить полученную систему уравнений относительно переменных. В нашем случае такой функцией является сумма квадратов отклонений - S, а переменными - а и b. То есть мы должны найти Error!= 0 и Error!= 0 и разрешить полученную систему уравнений относительно а и b. 16 Выведем оценки параметров по методу наименьших квадратов, предполагая, что уравнение связи имеет вид (4). Тогда функция S имеет вид (5). Дифференцируя функцию S по а, мы получаем первое нормальное уравнение, дифференцируя по b - второе нормальное уравнение. n S 2 ( yi a bxi ) 0 , a i 1 (13) n S 2 xi ( yi a bxi ) 0 , b i 1 После соответствующих преобразований получим: n n y i = na + b å x i , å i= 1 n å i= 1 (14) i= 1 n n i= 1 i= 1 x i yi = a å x i + bå x i2. Существуют упрощенные правила построения системы нормальных уравнений. Применим их к линейной функции: а) Перемножим каждый член уравнения (4) на коэффициент при первом параметре (а), то есть на единицу. б) Перед каждой переменной поставим знак суммирования. в) Свободный член уравнения умножим на n. г) Получим первое нормальное уравнение n å n yi = na + b å x i . i= 1 i= 1 д) Перемножим каждый член исходного уравнения на коэффициент при втором параметре (b), то есть на х. е) Перед каждой переменной ставим знак суммирования. ж) Получаем второе нормальное уравнение n å i= 1 n n i= 1 i= 1 x i yi = a å x i + bå x i2. По этим правилам составляется система нормальных уравнений для любой линейной функции. Правила впервые были сформулированы английским 17 экономистом Р. Перлом. Параметры уравнений рассчитываются по следующим формулам: n n å a= i= 1 i= 1 n n å b= y i - bå x i = Y - b*X , n x i yi - y å x i i= 1 n å (15) i= 1 n = X Y - X *Y 2 (16) X - (X ) x i2 - x å x i i= 1 , 2 i= 1 Построим, используя исходные данные в таблице 1 , систему нормальных уравнений (14) и решим ее относительно неизвестных а и b: 965 = 11*a + 4950*b a = -88,895 542200 = 4950*a + 2502500*b b = 0,3925 Уравнение регрессии имеет вид: Yˆ = -88,895 + 0,3925X. (17) Сравним фактические и расчетные расходы на потребление товара А (таблица 2) и построим график полученной функции Yˆ (рисунок 4). Фактический (у) и расчетный (ŷ) расход на потребление товара А (ден.ед.) 250 200 150 100 50 0 200 250 300 350 400 450 500 550 600 650 700 -50 Душевой доход (X) (ден.ед.) Фактические значения (у) Расчетные значения (ŷ) Рисунок 4. Сравнение фактических и расчетных расходов на потребление товара 18 А для линейного уравнения регрессии Таблица 2 Сравнение фактических и расчетных значений расходов на потребление товара А при прямолинейной зависимости № Расходы на потребление Отклонение фактических группы товара А расходов от расчетных (Y – Yˆ ) фактические расчетные абсолютные относительные (Y) (Yˆ ) (в процентах) 1 13 -10 23 176,92 2 20 9 11 55 3 24 29 -5 -20,83 4 38 48 -10 -26,32 5 45 68 -23 -51,11 6 60 88 -28 -46,67 7 100 107 -7 -7 8 150 127 23 15,333 9 159 147 12 7,5472 10 160 166 -6 -3,75 11 196 186 10 5,102 всего - - 0 - 19 4. РАСЧЕТ КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ И ДЕТЕРМИНАЦИИ, ПРОВЕРКА ПРАВИЛЬНОСТИ ВЫБРАННЫХ ФАКТОРОВ И ФОРМЫ СВЯЗИ Мы выяснили возможность установления корреляционной связи между значениями х и соответствующими значениями у. Теперь необходимо выяснить, как изменение факторного признака влияет на изменение результативного признака. Если бы между x и y существовала строгая линейная функциональная зависимость, то расчетные значения ŷ были бы в точности равны фактическим у и разность между ними ŷ–y = 0. На самом деле расчетные значения отклоняются от фактических в силу того, что связь между признаками корреляционная. В качестве меры тесноты взаимосвязи используется коэффициент корреляции: r= 2 где Sx = X 2 - (X ) , Sy = Y 2 - (Y 2 ) cov( x, y ) x y = X Y - X ×Y , S x ×S y . (18) (19) Линейный коэффициент корреляции может принимать любые значения в пределах от минус 1 до плюс 1. Чем ближе коэффициент корреляции по абсолютной величине к 1, тем теснее связь между признаками. Знак при линейном коэффициенте корреляции указывает на направление связи - прямой зависимости соответствует знак плюс, а обратной зависимости – знак минус. В нашем примере r= 0,967. Кроме того, можно рассчитать коэффициент детерминации R2, который в случае парной линейной регрессии равен квадрату коэффициента корреляции. В нашем примере R2 = 0,935. Это значит, что изменение расходов на товар А можно на 93,5% объяснить 20 изменением дохода. Остальные 6,5% могут явиться следствием: а) недостаточно хорошо подобранной формы связи; б) влияния на зависимую переменную каких-либо других неучтенных факторов. Рассматриваемая нами зависимость описывалась слегка выпуклой кривой. Целесообразно проверить, не улучшится ли результат, если принять криволинейную форму связи. Воспользуемся степенной функцией вида: ŷ = axb Логарифмируем: lg ŷ = lga + blgx. Для нахождения параметров а и b всю процедуру МНК проделываем не с величинами у и х, а с их логарифмами. После решения системы нормальных уравнений (4) получаем: lg a = -4,525; b = 2,407. Уравнение регрессии: lg ŷ = -4,525 + 2,407 lg x. Потенцируем и получаем: ŷ = 2,985 * 10-5 * х2,407 Сравним фактические и расчетные расходы на потребление товара А (таблица 3) и построим график полученной функции ŷ (рисунок 5). Теснота криволинейной связи измеряется корреляционным отношением, обозначаемым через и имеющим тот же смысл, что и r. Теоретическое корреляционное отношение может быть рассчитано по формуле: =Error!, (20) где 2фактор–дисперсия для теоретических значений ŷ (объясненная вариация); 2общ – дисперсия для фактических значений у (необъясненная вариация). Теоретическое корреляционное отношение можно представить в виде индекса корреляции R. Преобразование основано на равенстве: 2общ =2фактор+2остаточ, , где 2остаточ – (21) остаточная дисперсия. 21 2фактор=2общ-2остаточ. , (22) 2 2 2 общ остаточ . остаточ. . R= = 1 2 2 общ общ. . (23) В нашем примере = 0,997, ² = 0,994. Как видим криволинейная форма связи точнее отражает зависимость потребления товара А от дохода. Оставшиеся 0, 6% можно объяснить влиянием других факторов. Фактический (у) и расчетный (ŷ) расход на потребление товара А (ден.ед.) 250 200 150 100 50 0 200 250 300 350 400 450 500 550 600 650 700 Душевой доход (X) (ден.ед.) Фактические значения (у) Расчетные значения (ŷ) Рисунок 5. Сравнение фактических и расчетных расходов на потребление товара А для степенного уравнения регрессии Таблица 3 22 Сравнение фактических и расчетных значений расходов на потребление товара А при степенной зависимости № Расходы на товар А Отклонение фактических группы значений от расчетных (у-ŷ) фактические расчетные абсолютные относительные (в (у) (ŷ) 1 13 10 +3 23,077 2 20 17 +3 15 3 24 27 -3 -12,5 4 38 39 -1 -2,632 5 45 55 -10 -22,22 6 60 73 -13 -21,67 7 100 94 +6 6 8 150 118 +32 21,333 9 159 145 +14 8,805 10 160 176 -16 -10 11 196 211 -15 -7,653 Всего - - 0 - процентах) 23 5. ОЦЕНКА ТОЧНОСТИ ПОСТРОЕННОЙ МОДЕЛИ. СТАТИСТИЧЕСКАЯ ПРОВЕРКА ГИПОТЕЗ О ЗНАЧИМОСТИ ПАРАМЕТРОВ УРАВНЕНИЯ РЕГРЕССИИ И САМОГО УРАВНЕНИЯ В ЦЕЛОМ При проведении статистических исследований возникает необходимость в формулировке и экспериментальной проверке некоторых предположительных утверждений (гипотез) относительно природы или величины неизвестных параметров анализируемого процесса. Если исходные данные носят случайный характер, то и ответить можно лишь с определенной степенью уверенности, если вероятность ошибки мала, то суждения можно считать практически достоверными. Статистическая гипотеза - это предположение о случайной величине, проверяемые по выборке (результатам наблюдений). Будем обозначать высказанные предположения (гипотезу) буквой Н. Наша цель - проверить, не противоречит ли высказанная нами гипотеза Н имеющимся выборочным данным. Процедура сопоставления высказанной гипотезы с имеющимися выборочными данными (x1,x2,…,xn) полученного вывода и количественная называется оценка статистической степени достоверности проверкой гипотез. Осуществляется такая проверка с помощью статистического критерия. Результат сопоставления может быть отрицательным или неотрицательным. Отрицательный результат означает, что данные противоречат высказанной гипотезе, следовательно, от нее надо отказаться. Неотрицательный - данные наблюдения не противоречат высказанной гипотезе, и ее можно принять в качестве одного из допустимых решений. Однако это не означает, что высказанная нами гипотеза является наилучшей, единственно подходящей. Она лишь не противоречит имеющимся выборочным данным, таким же свойством 24 могут обладать и другие гипотезы. Существует множество разнообразных статистических критериев, однако, они строятся по общей логической схеме, которую можно описать следующим образом: а) Выдвигается гипотеза Но, которую будем называть "основной" или "нулевой". б) Задаются величиной уровня значимости . Принятие статистического решения всегда сопровождается некоторой вероятностью ошибочного заключения как в одну, так и в другую сторону. В небольшой доле случаев гипотеза Но может быть отвергнута, в то время как на самом деле она является справедливой. Это так называемая ошибка I рода, ее вероятность равна . Или, наоборот, в какой-то небольшой доле случаев мы можем принять нашу гипотезу, в то время как на самом деле она ошибочна, а справедливым оказывается некоторое конкурирующее с ней предположение - альтернативная гипотеза Н1. Это ошибка II рода. При фиксированном объеме выборочных данных величина вероятности одной из этих ошибок выбирается произвольно. Обычно задаются величиной вероятности ошибочного отторжения проверяемой гипотезы Но. Эту вероятность называют уровнем значимости или размером критерия. Как правило, пользуются некоторыми стандартными значениями уровня значимости (= 0,1; 0,5; 0,025; 0,01; 0,005; 0,001). Наиболее распространенной =0,05. Она означает, что в среднем в пяти случаях из ста мы будем ошибочно отвергать гипотезу Но при многократном использовании данного статистического критерия. в) Задаются некоторой функцией от результатов наблюдений, которую называют критической статистикой. Она сама является случайной 25 величиной и в предположении справедливости гипотезы Н0 подчинена некоторому хорошо изученному закону распределения. г) Из соответствующих таблиц распределения находятся критические точки, разделяющие всю область мыслимых значений данной статистики на три части: область неправдоподобно малых, неправдоподобно больших и естественных или правдоподобных (в условиях справедливости гипотезы Но) значений. д) Подсчитывают численную величину критической статистики, подставляя в функцию выборочные данные. Если вычисленное значение принадлежит области правдоподобных значений, то гипотеза Но считается не противоречащей выборочным данным. В противном случае, если вычисленное значение слишком мало или слишком велико, то делается вывод, что высказанное предположение Но ошибочно и от него следует отказаться в пользу альтернативной гипотезы. В регрессионном анализе проверке статистической значимости подвергаются коэффициенты регрессии и корреляции. При этом соответственно используется t-статистика и F-статистика. Здесь можно использовать следующую процедуру. а) Выдвигаем ноль-гипотезу о том, что коэффициент регрессии b статистически незначим: Но: b=0 или что уравнение в целом статистически незначимо Но: r2=0 б) Определяется фактическое значение соответствующего критерия. в) Сравнивается полученное фактическое значение с табличным. г) Если фактическое значение используемого критерия превышает табличное, ноль-гипотеза отклоняется и с вероятностью (1-) принимается альтернативная гипотеза о статистической значимости коэффициента регрессии или уравнения в целом. Если фактическое 26 значение t-критерия меньше табличного, то говорят, что нет оснований отклонять ноль-гипотезу. Статистическая значимость коэффициента регрессии проверяется с помощью t-критерия Стьюдента. Для этого сначала необходимо определить остаточную сумму квадратов 2ост=(yi – ŷi)2 (24) и ее среднее квадратическое отклонение 2 ост . = (25) n2 Затем определяется стандартная ошибка коэффициента регрессии по формуле: se(b) xi x 2 (26) Фактическое значение t-критерия Стьюдента для коэффициента регрессии рассчитывается как tb b . se(b) (27) Значение |tb|>tкр (tкр2 для 95% уровня значимости) позволяет сделать вывод об отличии от нуля (на соответствующем уровне значимости) коэффициента регрессии и, следовательно, о наличии влияния (связи) х и у. Малые значения tстатистики соответствуют отсутствию достоверной статистической связи между х и у. Можно построить доверительный интервал для b. Из (27) имеем: [b – tкр*se(b), b + tкр*se(b)]- 95% доверительный интервал для b. Доверительный интервал накрывает истинное значение параметра b c заданной вероятностью (в данном случае 95%). Оценка статистической значимости построенной модели регрессии в целом производится с помощью F-критерия Фишера. Фактическое значение F-критерия 27 для уравнения парной регрессии, линейной по параметрам определяется как: 2 фактор r2 n 2 Fф n 2 2 ост 1 r2 (28) где 2фактор–дисперсия для теоретических значений ŷ (объясненная вариация); 2ост - остаточная сумма квадратов; r2- коэффициент детерминации. Соответственно, фактическое значение Fф сравнивается с табличным и на основании этого сравнения принимается или отвергается ноль-гипотеза. Вернемся к нашему примеру и сделаем соответствующие расчеты. Выдвигаем ноль-гипотезу о том, что коэффициент регрессии статистически незначим: H0: b = 0. Статистическая значимость коэффициента регрессии проверяется с помощью t – критерия Стьюдента. Найдем остаточную сумму квадратов и ее среднее квадратическое отклонение: 2ост = 2946; = 18,0924. Определим стандартную ошибку коэффициента регрессии и рассчитаем фактическое значение t-критерия Стьюдента для коэффициента регрессии: se(b) = 0,0345; tb = 11,3768. Выбираем уровень значимости равным 5%. По таблице находим значение t-критерия с n-2 степенями свободы t0,05(9) = 2,26 и сравниваем с ним фактическое значение (tb). Так как фактическое значение t-критерия Стьюдента превышает табличное, то ноль-гипотеза отклоняется и с вероятностью 95% принимается альтернативная гипотеза о статистической регрессии. 28 значимости коэффициента Далее построим 95% доверительный интервал для коэффициента регрессии b: 0,3145 < b < 0,4705. Перейдем к расчету коэффициентов корреляции и детерминации и проверке их статистической значимости: r = 0,9666; d = r2 = 0,9343. Выдвигаем ноль-гипотезу о том, что уравнение регрессии в целом статистически незначимо: H0: r2 = 0. Оценка статистической значимости производится с помощью F- критерия Фишера. Фактическое значение F-критерия Фишера: Fф = 127, 9863. По таблице находим значение F-критерия с (n-2) степенями свободы F0,05(1,9) = 5,12 и сравниваем фактическое значение с табличным. В результате, отклоняем ноль-гипотезу и с вероятностью 95% принимаем альтернативную гипотезу о статистической значимости уравнения регрессии. 29 6. ОПРЕДЕЛЕНИЕ И АНАЛИЗ ЭЛАСТИЧНОСТИ ПОТРЕБЛЕНИЯ ПО ДОХОДУ Для определения степени количественного воздействия на спрос отдельных факторов используются различные методы эконометрического анализа. Одним из них является исчисление коэффициентов эластичности потребления. С изменением дохода, цен и прочих факторов потребление товаров меняется в неодинаковой степени. То есть прирост дохода на единицу вызывает неодинаковый прирост потребления разных товаров. Отсюда – понятие эластичности. Коэффициент эластичности потребления показывает, на сколько процентов изменяется потребление данного товара при изменении на один процент значения влияющего на него фактора. Наибольшее распространение при эконометрическом анализе потребления получили коэффициенты эластичности потребления по доходу и цене. Потребности в тех или иных товарах различаются по степени их эластичности по доходу. Если расходы на удовлетворение какой-то потребности значительно изменяются при изменении дохода, то потребность эта обладает высокой степенью эластичности. Наиболее настоятельные потребности являются менее эластичными (например, хлеб, картофель, соль и т.д.). Менее настоятельные потребности обладают большой эластичностью, но степень их удовлетворения низка. Коэффициент эластичности потребления по доходу характеризует количественную степень влияния изменения дохода на величину потребления и рассчитывается по формуле: Э y y x y x * , x x y (29) где у– потребление; х – доход; 30 у – абсолютное изменение потребления; х – абсолютное изменение дохода. Эмпирические коэффициенты эластичности рассчитываются по рядам статистических данных по формуле: Ээм пир. yi 1 yi yi xi 1 xi , xi (30) i =1, 2, … n. Рассчитаем эмпирические коэффициенты эластичности потребления по доходу по данным таблицы 1: Э2 = 7/50 *250/20 = 1,75 Э7 = 4 Э3 = 4/50 * 300/24 = 1 Э8 = 3,67 Э4 = 2,58 Э9 = 0,68 Э5 = 1,24 Э10 = 0,08 Э6 = 2,25 Э11 = 2.57 Э эмпир.=1,65 Для целей анализа и прогнозирования лучше использовать теоретический коэффициент эластичности, полученный путем выравнивания и экстраполяции данных. Для больших совокупностей при небольших различиях в доходах семей отношение у/х можно рассматривать в пределе, заменив у и х их дифференциалами. y x dy x x y , x0 x y dx y y Э lim (31) Формулы эластичности, вычисленные для разных функций, не одинаковы. Для линейной зависимости (ŷ = а + bx) y'=b, следовательно Э b x y (32) Для степенной зависимости (у = а x b ) y'=abx b-1 Э abx b1 x b ax b (33) 31 Для линейной зависимости потребления от дохода Э различен для разных доходных групп. При степенной зависимости Э постоянен (одинаков для всех групп) и равен b, т.е. показателю степени. Теоретические и эмпирические коэффициенты эластичности могут существенно различаться в различных группах. Средние же их величины более или менее близки, что может служить свидетельством адекватности проверяемой формы связи исходным статистическим данным. Принято разделять товары на «нормальные» и «низкокачественные» в зависимости от величины коэффициента эластичности. Потребление «нормальных» товаров растет с ростом дохода, т.е. Э >0, если Э < 0, то с ростом дохода потребление данного товара снижается и такой товар считается «низкокачественным». 32 7. МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ ПОСТРОЕНИЕ ФУНКЦИИ СПРОСА (ПОТРЕБЛЕНИЯ) ОТ ДВУХ ФАКТОРОВ Если на потребление влияет не один, а несколько факторов, то взаимосвязь их выражают уравнением множественной регрессии, процедура построения которого аналогична построению уравнения простой регрессии. В большинстве случаев на потребление существенное влияние, кроме дохода, оказывает размер семьи. Считается, что расходы в целом на семью увеличиваются с ростом размера семьи, но расходы на каждого члена семьи уменьшаются. В качестве второго фактора X2, влияющего на потребление, будем рассматривать размер семьи (данные приведены в таблице 4). Множественный регрессионный анализ является развитием парного регрессионного анализа в том случае, когда зависимая переменная связана более чем с одной независимой переменной. Большая часть анализа является непосредственным расширением парного регрессионного анализа. Но существуют и новые проблемы. а) При оценке влияния данной независимой переменной на зависимую переменную необходимо разграничить ее воздействие и воздействие других независимых переменных. б) Проблема спецификации - какие переменные следует включить в модель, а какие - исключить из нее. Если первоначальной моделью была (1): Y = a + bX + e , где Y - общая величина расходов на товар; X - доход; - случайное отклонение (остаток); 33 то мы можем расширить эту модель, включив в нее новые объясняющие переменные. Таблица 4 Исходные данные по фактору Х2 - размер семьи № группы Размер семьи X2 1 1,5 2 2,1 3 2,7 4 3,0 5 3,2 6 3,4 7 3,6 8 3,7 9 4,0 10 3,8 11 3,7 Тогда истинную зависимость можно выразить следующим образом: Y = a + b1X 1 + b2X 2 + e , (34) где X2 – размер семьи. С целью подбора наилучшей функции потребления с точки зрения аппроксимации расположения точек в трехмерном пространстве исходных данных, соответствующих наборам значений "доход – размер семьи - расход на потребление" в ППП Statistica, используя модуль Descriptive statistics, построим трехмерный график (рисунок 6). 34 Рисунок 6. Трехмерный график функции потребления Как и в случае парной регрессии, мы выбираем значения коэффициентов регрессии так, чтобы обеспечить наилучшее соответствие наблюдениям. Оценка оптимальности соответствия определяется минимизацией суммы квадратов отклонений: n n S ei ( y i a b1 x1i b2 x 2i ) 2 . 2 i 1 Чтобы получить систему (35) i 1 нормальных уравнений, необходимо продифференцировать это уравнение по всем параметрам (a, b1, b2), приравнять к нулю частные производные и преобразовать. Получим систему из трех нормальных уравнений с тремя переменными: 35 na b1 x1 b2 x2 y a x1 b1 x1 b2 x1 x2 yx1 2 (36) a x2 b2 x2 b1 x1 x2 yx2 2 Преобразуя эти уравнения, можно получить формулы для расчета параметров а, b1 и b2. Коэффициенты регрессии b1 и b2 - это показатели силы связи, характеризующие абсолютное (в натуральных единицах измерения) изменение результативного признака при изменении факторного признака на единицу своего измерения при фиксированном влиянии второго фактора. Например, получено уравнение регрессии: Yµ=116,7+0,112X1 – 0,739X2. (37) Это уравнение можно интерпретировать следующим образом. При каждом увеличении дохода на 1 рубль (при сохранении постоянного размера семьи) расходы на питание возрастут на 0,112 рубля. На каждую единицу увеличения размера семьи (при постоянных доходах) эти расходы уменьшатся на 0,739 рубля. Используя коэффициенты регрессии можно рассчитать частные коэффициенты эластичности, как правило, их рассчитывают для средних значений факторов и результатов. Эi bi xi xi bi . yi a bi xi (38) Интерпретация частных коэффициентов эластичности такая же, как и обычных, при фиксированных значениях остальных факторов. Проверка значимости коэффициентов регрессии осуществляется, так же как и в парном регрессионном анализе с помощью t-критерия. Аналогично строятся и доверительные интервалы для каждого коэффициента регрессии. 36 В качестве показателей тесноты связи используются парные коэффициенты корреляции и частные коэффициенты корреляции. Во множественном регрессионном анализе частный коэффициент корреляции используется для выявления коллинеарности (мультиколлинеарности) факторов. Для этого составляется и анализируется матрица частных коэффициентов корреляции, та ее часть, которая относится к объясняющим переменным. Не существует точных рекомендаций по устранению мультиколлинеарности, но считается, что при значении частного коэффициента корреляции большем 0,85 из анализа должен исключаться один из тех факторов, которые сильно коррелируют друг с другом. Какой именно оставить фактор в модели, решается с помощью матрицы парных или частных корреляций. Предпочтение следует отдать тому фактору, который наиболее тесно связан с зависимой переменной, то есть имеет с ней наибольший коэффициент корреляции. Это сложная задача, так как достоверно неизвестно, какие именно факторы оказывают наиболее существенное влияние на зависимую переменную и, следовательно, должны быть включены в уравнение регрессии. Рассмотрим следующую модель: Y = a + b1X + b2Z + b 3T , (39) где y – общая величина расходов на питание X – заработная плата, Z – доход, получаемый вне работы, Т – совокупный доход. Очевидно, что T=X+Z, и, следовательно, Т будет сильно коррелировать как с X, так и с Z. В этом примере можно исключить из рассмотрения фактор Т. Частные коэффициенты корреляции характеризуют тесноту связи между результатом и фактором при фиксированном влиянии других факторов, включенных в уравнение регрессии. Их можно определить через парные коэффициенты корреляции по следующим рабочим формулам: 37 r x2 yx1 r x1 yx 2 ryx1 ryx2 rx1x2 (1 ryx2 2 )(1 rx21x2 ) ryx2 ryx1 rx1x2 (1 ryx1 )(1 rx21x2 ) , (40) , (41) где x ryx - коэффициент частной корреляции между результатом и фактором х1, при 2 1 фиксированном воздействии фактора X2; r x1 yx 2 - коэффициент частной корреляции между результатом и фактором x2 при фиксированном воздействии фактора X1; ryx1 , ryx2 , rx1x2 –коэффициенты парной корреляции. Тесноту связи между результатом и всеми факторами, включенными в уравнение регрессии, характеризует множественный коэффициент корреляции: Ryx1 x2 2 2 факт ост 1 2 2 общ общ (42) где 2фактор - факторная сумма квадратов, или объясненная моделью регрессия результата; 2общ - общая сумма квадратов, или общая вариация результата; 2остаточ = (y – ŷ)2 - остаточная сумма квадратов, или не объясненная моделью регрессии вариация результата. Далее может быть определен коэффициент детерминации R2 (квадрат множественного коэффициента корреляции). Он определяет долю дисперсии у, объясненную регрессией, то есть совместное влияние включенных в уравнение регрессии факторов на результат. Интерпретируется аналогично коэффициенту детерминации в парном регрессионном анализе. Для проверки статистической значимости уравнения регрессии в целом используется F-критерий. Выдвижение гипотез и их проверка осуществляется, так же как и в парном регрессионном анализе. Фактическое значение F-критерия для уравнения множественной регрессии определяется по формуле: 38 Fфакт 2 факт nk R2 nk 2 * * , 2 ост k 1 1 R k 1 (43) где k - общее число параметров в уравнении множественной регрессии (в случае двухфакторной линейной модели k = 3). 39 Тесты контроля усвоенного материала Регрессионный и корреляционный анализы Вариант 1 1. По характеру различают связи: а) функциональные и статистические; б) функциональные, криволинейные и прямые в) корреляционные и обратные; г) статистические и прямые. 2. При прямой (положительной) связи с увеличением факторного признака результативный признак: а) уменьшается; б) не изменяется; в) увеличивается. 3. Какой график лучше всего характеризует зависимость урожайности от количества внесённых минеральных удобрений (по линии абсцисс откладываются значения объёма внесённых удобрений, по оси ординат – урожайность). а) б) в) г) 4. Если ограниченность данных (см. тест 3) позволяет иллюстрировать зависимость урожайности от количества внесённых удобрений с помощью прямой линии, какой график предпочтительнее: а или б? 5. Отметьте правильную форму линейного уравнения регрессии: а) у х b0 b1 ; х б) ух=b0+b1х; в) ух=b0+b1х+b2х2; b г) у х b0 х 1 . 6. Связь между двумя признаками аналитически выражается параболой. Отметьте правильную формулу: а) у х b0 b1 ; х б) ух=b0+b1х; в) ух=b0+b1х+b2х2; г) у х b0 х b . 7. Отметьте правильные формулы коэффициента регрессии: 40 1 а) b1 Э у ; х ху х у ; х 2 х 2 б) b1 в) b1 r Sу sх . 8. Отметьте правильную формулу среднего коэффициента эластичности: х у а) Э b1 ; б) Э ху х у х (х ) 2 2 х у ; в) Э b0 ; г) Э rxy Sx . Sy 9. Отметьте правильные формулы линейного коэффициента корреляции: а) r д) r ху х у ; SxSy б) r х 2 х 2 x y xy x x 2 ху х у 2 n n ; 2 y 2 y n в) r b1 Sx ; Sy г) r x x y y nS x S y ; . 10. По следующим данным постройте линейное уравнение регрессии, вычислите линейный коэффициент корреляции: ху 106 ; x 11 ; y 9 ; x 2 137 ; y 2 85 ; b0=4,8. а) ух=5-0,2х; r=0,321; б) ух=4,182+0,438х; r=0,875; в) ух= -2+0,5х; r=0,181. 11. Коэффициент регрессии в однофакторной модели (параметр b1) показывает: а) на сколько единиц изменяется функция при изменении аргумента на 1 ед.; б) на сколько процентов изменяется функция при изменении аргумента на 1 ед. 12. Коэффициент эластичности показывает: а) на сколько процентов изменяется функция с изменением аргумента на 1 ед. своего измерения; б) на сколько процентов изменяется функция с изменением аргумента на 1%; в) на сколько единиц своего измерения изменяется функция с изменением аргумента на 1%. 13. Величина коэффициента корреляции, равная 1,587, свидетельствует: а) об отсутствии взаимосвязи между признаками; б) о слабой взаимосвязи; в) о заметной или сильной (тесной) взаимосвязи признаков; г) об ошибках в вычислениях. 14. Сделайте правильный вывод о направлении и характере связи между 41 прожиточным минимумом и средней заработной платой населения по 10 районам РФ. Номера района 1 2 3 4 5 6 7 8 9 10 Средняя заработная плата, тыс. руб. 0,52 0,57 0,69 0,77 0,90 0,97 1,04 1,08 1,49 1,63 Прожиточный минимум на душу населения, тыс. руб. 0,28 0,33 0,34 0,34 0,33 0,38 0,46 0,49 0,52 049 а) связь прямая статистическая; б) связь прямая функциональная; в) связь обратная статистическая; г) связь обратная функциональная. 15. Какие требования в модели регрессионного анализа предъявляются к распределению ошибок наблюдения i , а именно к их математическому ожиданию M ( i ) и дисперсией D( i ) : а) M ( i ) 1; D( i ) 2 ; в) M ( i ) 0; D( i ) 2 ; б) M ( i ) 0; D( i ) 1; г) M ( i ) 1; D( i ) 0 . 16. Что минимизируется согласно методу наименьших квадратов: а) n ( yi y i )2 ; в) n | y i 1 i y i |; (y i y i ); i y i |2 . i 1 i 1 б) n г) n | y i 1 17. При исследовании зависимости себестоимости продукции Y от объема выпуска Х1 и производительности труда Х2 по данным n=20 предприятий получено уравнение регрессии: и Yx 2,88 0,72 X1 1,51 X 2 среднеквадратическое отклонение коэффициентов регрессии: Sb 0,052 и Sb 0,5 . Можно ли при уровне значимости α =0,05 утверждать, что значимы коэффициенты регрессии: а) b1; в) оба значимы; 1 2 42 б) b2; г) оба незначимы. 18. По данным теста 3 определите с доверительной вероятностью γ=0,99 на какую величину максимально может измениться себестоимость продукции Y, если объем производства Х1 увеличить на единицу: а) –0,5692; б) –0,72; в) –1,583; г) –0,83. 19. Уравнению регрессии Yˆ 2,88 0,72 X 1 1,51 X 2 соответствует коэффициент детерминации R2=0,7056. Какая доля вариации результативного показателя Y(в %) объясняется входящими в уравнение регрессии переменными Х1 и Х2: а) 70,56; в) 84,0; б) 29,44; г) 16,0. 20. По n = 30 наблюдениям построено уравнение регрессии: Yˆ = 25,1 + 1,2Х1 +1,0Х2 – 0,5Х3 Стандартные ошибки (2,1) (1,5) (1,3) (0,06) t-значения (11,95) ( ) ( ) ( ) 95% довер. Границы (±4,33) ( ) ( ) ( ) Заполните пропуски. Вариант 2 1. Какие требования в модели регрессионного анализа предъявляются к объясняющим переменным: а) rxixj= ±1; в) rxixj = 0; б) rxixj≠ ±1; г) rxixj ≠ 0. 2. Какое значение может принимать коэффициент детерминации: а) -1; в) 0,5; б) -0,5 г) 1,2. 3. По характеру различают связи: а) функциональные и статистические; б) функциональные, криволинейные и прямые в) корреляционные и обратные; г) статистические и прямые. 43 4. При прямой (положительной) связи с увеличением факторного признака результативный признак: а) уменьшается; б) не изменяется; в) увеличивается. 5. Какой график лучше всего характеризует зависимость урожайности от количества внесённых минеральных удобрений (по линии абсцисс откладываются значения объёма внесённых удобрений, по оси ординат – урожайность). а) б) в) г) 6. Если ограниченность данных (см. тест 5) позволяет иллюстрировать зависимость урожайности от количества внесённых удобрений с помощью прямой линии, какой график предпочтительнее: а или б? 7. Связь между двумя признаками аналитически выражается гиперболой. Отметьте правильную формулу: а) у х b0 b1 ; х б) б) ух =b0+b1х; в) ух=b0+b1х+b2х2; г) у х b0 х b1 . 8. Отметьте правильную форму линейного уравнения регрессии: а) у х b0 b1 ; х б) б) ух=b0+b1х; в) ух=b0+b1х+b2х2; г) у х b0 х . 9. Отметьте правильные высказывания: а) коэффициент регрессии показывает, на сколько изменяется в среднем значение результативного признака при увеличении факторного на единицу; б) коэффициент эластичности показывает, на сколько процентов изменяется результативный признак при изменении факторного 1%; в) коэффициент регрессии показывает усреднённое влияние неучтённых факторов на результативный признак; b1 44 г) коэффициент эластичности показывает, на сколько изменяется в среднем значение результативного признака при увеличении факторного на единицу. 10. Отметьте правильные формулы коэффициента регрессии: у ; х ху х у б) b1 2 2 ; х х S в) b1 r у . sх а) b1 Э 11. Отметьте правильную формулу среднего коэффициента эластичности: х у а) Э b1 ; б) Э ху х у х 2 (х ) 2 х в) Э b0 ; у S г) Э rxy x . Sy ; 12. Отметьте правильные формулы линейного коэффициента корреляции: а) r б) r ху х у ; SxSy ху х у х 2 х 2 S в) r b1 x ; Sy г) r ; x x y y nS x S y . 13. По следующим данным определите параметры линейного уравнения регрессии, вычислите линейный коэффициент корреляции: ху 120 ; x 10 ; y 10 ; x 2 149 ; y 2 125 ; Э 0,6 . а) b0=4,0; b1=0,6; r=0,571; б) b0=8; b1=1,2; r=0,8. 14. По следующим данным постройте линейное уравнение регрессии: 2 2 b0=3,5; r =0,85; s х 36 ; s у 49 . 45 а) ух=3,5+0,6х; б) у х 3,5 0,729 ; х в) ух=3,5+0,729х. 15. По следующим данным рассчитайте коэффициент корреляции: Σх=70; Σу=50; Σху=320; Σх2=500; Σу2=500; n=10. а) 1,2; б) 0,5; в) -0,6. 16. Какие из приведённых чисел могут быть значениями коэффициента корреляции: 0,4; -1; 0; -2,7; 1; -0,7; 2; 5. 17. По данным таблицы найдите линейный коэффициент корреляции между переменными х и у. Номер наблюдений х 1 2 3 4 5 10 15 20 20 25 у 8 6 6 3 2 а) 0,85; б) -0,894; в) -0,56. 18. При исследовании зависимости себестоимости продукции Y от объема выпуска Х1 и производительности труда Х2 по данным n = 15 предприятий получена оценка уравнения регрессии: Yˆ = 3,2 – 0,80Х1 – 1,5Х2 и среднеквадратического отклонения Sb1= 0,2. Можно ли при α = 0,05 утверждать, что себестоимость продукции зависит от объема выпуска: а) да; б) нет. 19. По данным теста 3 с доверительной вероятностью =0,95 определите на какую величину минимально может измениться себестоимость единицы продукции Y, если объем производства Х1 увеличить на 1 единицу. а) -0,8; в) -1,5; б) -1,228; г) 0,421. 20. По данным n = 25 регионов получена регрессионная модель объема реализации медикаментов на одного жителя Y в зависимости от доли городского 46 населения Х1, числа фармацевтов Х2 на 10 тысяч жителей: Yˆ = 11,7 + 0,06Х1 + 0,42Х2. Определите на сколько процентов в среднем изменится объем реализации медикаментов Y, если доля городского населения Х1 увеличится на 1%, учитывая, что Y = 12,5; X 1= 0,8; X 2= 125; Sb1= 0,04; Sb2= 0,14. а) 4,2; в) 0,0038; б) -0,0038; г) 0,06. РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА 1 Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. – М.: ЮНИТИ, 2001. 2 Айвазян С.А., Енюков И.С., Мешалкин Л.Л. Прикладная статистика: исследование зависимостей. – М.: Финансы и статистика, 1995. 3 Боровиков В. Программа STATISTICA для студентов и инженеров. - М., Компьютер-пресс, 2001г. 4 Доугерти К. Введение в эконометрику / Пер. с англ. – М.: ИНФРА – М, 1997. 5 Кремер Н.Ш., Путко Б.А. Эконометрика: учебник для вузов / Под. ред. проф. Н.Ш. Кремера. – М.: ЮНИТИ – ДАНА, 2005. 6 Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. / АНХ при правительстве РФ. – М.- Дело, 2004. 7 Эконометрика: учебник для вузов / Под. ред. чл. – кор. РАН И.И. Елисеевой. – М.: Финансы и статистика, 2005. 47 Приложение А Задание 1. Парная регрессия. Статистические данные значений показателей X1-среднедушевой доход (ден. ед.) и Y –расходы на потребление (ден. ед.) внесены в таблицу 1. Требуется: 1) построить поле корреляции и выдвинуть предположение о форме связи между доходом и потреблением; 2) найти оценки коэффициентов уравнения линейной регрессии; 3) вычислить линейный коэффициент корреляции, сделать вывод; 4) вычислить коэффициент детерминации, сделать вывод; 5) проверить значимость уравнения регрессии в целом; 6) проверить значимость коэффициентов регрессии; 7) найти доверительные интервалы для коэффициентов регрессии; 8) определить эластичность потребления по доходу и сделать выводы; 9) построить линию регрессии на корреляционном поле. Примечание. Вычисления произвести с помощью аналитических формул и с помощью пакета «Анализа данных» MS EXCEL. При статистическом анализе результатов использовать доверительную вероятность γ = 0,95 (значимость α = 0,05). Задание 2. Многофакторная регрессия. Статистические данные значений показателей X1-среднедушевой доход (ден. ед.), X2-цена товара и Y –расходы на потребление (ден. ед.) внесены в таблицы 1 и 2. Предполагая, что между переменными Y, X1, X2 существует линейная зависимость, требуется: 1) построить функцию спроса; 2) определить частные коэффициенты корреляции и сделать выводы о направлении и силе связи между переменными, а также о присутствии мультиколлинеарности в модели регрессии; 48 возможном 3) оценить статистическую значимость коэффициентов регрессии, найти доверительные интервалы коэффициентов регрессии; 4) вычислить коэффициент детерминации; 5) проверить значимость модели регрессии; 6) дать экономическую интерпретацию коэффициентов регрессии, найти эластичность потребления по доходу и цене товара, сделать экономические выводы. Примечание: Вычисления произвести аналитически и полученные результаты проверить с помощью пакета «Анализа данных» MS EXCEL. Доверительная вероятность γ = 0,95 (значимость α = 0,05 ). 49 Таблица 1 Варианты исходных данных для выполнения задания 1 контрольной работы Вариант 1.1 Вариант 1.2 Вариант 1.3 Вариант 1.4 Вариант 1.5 Х1 Х1 Х1 Х1 Х1 Y Y Y Y Y 200 5 200 115 200 21 200 11 200 11 250 12 250 130 250 28 250 29 250 29 300 18 300 154 300 32 300 133 300 33 350 22 350 160 350 34 350 144 350 40 400 38 400 177 400 52 400 149 400 53 450 50 450 180 450 68 450 162 450 68 500 100 500 182 500 109 500 171 500 117 550 115 550 187 550 158 550 179 550 150 600 120 600 190 600 172 600 182 600 169 650 139 650 192 650 178 650 185 650 179 700 192 700 194 700 198 700 192 700 198 Вариант 1.6 Вариант 1.7 Вариант 1.8 Вариант 1.9 Х1 Y Х1 Х1 Х1 200 110 200 6 200 120 200 17 200 121 250 120 250 15 250 130 250 29 250 132 300 135 300 20 300 150 300 33 300 140 350 140 350 30 350 162 350 38 350 143 400 150 400 35 400 164 400 45 400 153 450 159 450 50 450 175 450 69 450 162 500 164 500 99 500 177 500 120 500 168 550 170 550 120 550 180 550 160 550 170 600 176 600 125 600 184 600 180 600 172 650 180 650 128 650 189 650 184 650 175 Y Y 50 Y Вариант 1.10 Х1 Y 700 190 700 199 700 194 700 204 700 189 Таблица 2 Варианты исходных данных для выполнения задания 2 контрольной работы Вариант 2.1 Вариант 2.2 Вариант 2.3 Вариант 2.4 Вариант 2.5 Х2 у Х2 у Х2 у Х2 у Х2 у 202 5 205 115 203 21 204 11 211 11 240 12 252 130 250 28 250 29 259 29 308 18 300 154 309 32 337 133 338 33 352 22 360 160 370 34 352 144 354 40 440 38 400 177 409 52 449 149 453 53 450 50 440 180 450 68 469 162 462 68 532 100 505 182 510 109 532 171 504 117 560 115 550 187 559 158 560 179 559 130 640 120 602 190 607 172 649 182 662 169 659 139 670 192 658 178 680 185 682 179 700 192 702 194 703 198 700 192 700 198 51 Вариант 2.6 Вариант 2.7 Вариант 2.8 Вариант 2.9 Вариант 2.10 Х2 у Х2 у Х2 у Х2 у Х2 у 200 110 210 6 211 111 215 17 200 121 260 120 264 15 250 127 250 29 254 132 302 135 310 20 312 147 344 33 328 140 350 140 335 30 349 151 407 38 404 143 412 150 430 35 417 158 480 45 475 153 451 159 455 50 460 163 580 69 507 162 520 164 528 99 517 170 602 120 580 168 552 170 563 120 560 174 620 160 600 170 607 176 612 125 640 180 652 180 659 172 653 180 670 128 680 182 704 184 710 175 690 197 720 198 704 200 708 198 790 197 52 Приложение Б Критические точки распределения Стьюдента k \ α 0,1 0,05 0,02 0,01 0,001 1 6,3138 12,7062 31,8205 63,6567 636,6192 2 2,9200 4,3027 6,9646 9,9248 31,5991 3 2,3534 3,1824 4,5407 5,8409 12,924 4 2,1318 2,7764 3,7469 4,6041 8,6103 5 2,0150 2,5706 3,3649 4,0321 6,8688 6 1,9432 2,4469 3,1427 3,7074 5,9588 7 1,8946 2,3646 2,9980 3,4995 5,4079 8 1,8595 2,3060 2,8965 3,3554 5,0413 9 1,8331 2,2622 2,8214 3,2498 4,7809 10 1,8125 2,2281 2,7638 3,1693 4,5869 11 1,7959 2,2010 2,7181 3,1058 4,4370 12 1,7823 2,1788 2,6810 3,0545 4,3178 13 1,7709 2,1604 2,6503 3,0123 4,2208 14 1,7613 2,1448 2,6245 2,9768 4,1405 15 1,7531 2,1314 2,6025 2,9467 4,0728 16 1,7459 2,1199 2,5835 2,9208 4,0150 17 1,7396 2,1098 2,5669 2,8982 3,9651 18 1,7341 2,1009 2,5524 2,8784 3,9216 19 1,7291 2,0930 2,5395 2,8609 3,8834 20 1,7247 2,0860 2,5280 2,8453 3,8495 21 1,7207 2,0796 2,5176 2,8314 3,8193 22 1,7171 2,0739 2,5083 2,8188 3,7921 23 1,7139 2,0687 2,4999 2,8073 3,7676 24 1,7109 2,0639 2,4922 2,7969 3,7454 25 1,7081 2,0595 2,4851 2,7874 3,7251 26 1,7056 2,0555 2,4786 2,7787 3,7066 27 1,7033 2,0518 2,4727 2,7707 3,6896 28 1,7011 2,0484 2,4671 2,7633 3,6739 29 1,6991 2,0452 2,4620 2,7564 3,6594 30 1,6973 2,0423 2,4573 2,7500 3,6460 53 35 1,6896 2,0301 2,4377 2,7238 3,5911 40 1,6839 2,0211 2,4233 2,7045 3,5510 45 1,6794 2,0141 2,4121 2,6896 3,5203 50 1,6759 2,0086 2,4033 2,6778 3,4960 55 1,6730 2,004 2,3961 2,6682 3,4764 60 1,6706 2,0003 2,3901 2,6603 3,4602 70 1,6669 1,9944 2,3808 2,6479 3,4350 80 1,6641 1,9901 2,3739 2,6387 3,4163 90 1,6620 1,9867 2,3685 2,6316 3,4019 100 1,6602 1,9840 2,3642 2,6259 3,3905 110 1,6588 1,9818 2,3607 2,6213 3,3812 120 1,6577 1,9799 2,3578 2,6174 3,3735 ∞ 1,6448 1,9600 2,3263 2,5758 3,2905 Критические точки распределения F Фишера–Снедекора (ν1–число степеней свободы большей дисперсии, ν2–число степеней свободы меньшей дисперсии) 54 55 Приложение С Применение ППП MS Excel при исследовании зависимости экономических переменных I. Проверьте доступ к пакету анализа. В главном меню выберите Сервис / Надстройки. Установите флажок Пакет анализа (рисунок 7). Рисунок 7. Подключение надстройки Пакет анализа II. Сводную таблицу основных статистических характеристик для одного или нескольких массивов данных можно получить с помощью инструмента анализа данных Описательная статистика. Для этого выполните следующие шаги: 1) введите исходные данные или откройте существующий файл, содержащий анализируемые данные; 2) в главном меню выберите последовательно пункты Сервис / Анализ данных / Описательная статистика, после чего щелкните по кнопке ОК. 56 Рисунок 8. Диалоговое окно ввода данных и параметров инструмента 3) заполните диалоговое окно ввода данных и параметров вывода (рис. 8): Входной интервал – диапазон, содержащий анализируемые данные, это может быть одна или несколько строк (столбцов); Группирование – по столбцам или по строкам – необходимо указать дополнительно; Метки – флажок, который указывает, содержит ли первая строка названия столбцов или нет; Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона; Новый рабочий лист – можно задать произвольное имя нового листа. Если необходимо получить новую информацию Итоговой статистики, Уровня надежности, k-го наибольшего и наименьшего значений, установите соответствующие флажки в диалоговом окне. Щелкните по кнопке ОК. Результаты вычисления соответствующих показателей для каждого признака представлены на рис. 9. 57 Рисунок 9. Результат применения инструмента Описательная статистика III. Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция. Для этого: 1) в главном меню последовательно выберите пункты Сервис / Анализ данных / Корреляция. Щелкните по кнопке ОК; 2) заполните диалоговое окно ввода данных и параметров вывода; 3) результаты вычислений – матрица коэффициентов парной корреляции – представлены на рис. 10. 58 Рисунок 10. Матрица коэффициентов парной корреляции IV.fffffffС помощью инструмента анализа данных Регрессия, помимо результатов регрессионной статистики, дисперсионного анализа и доверительных интервалов, можно получить остатки и графики подбора линии регрессии, остатков и нормальной вероятности. Порядок действия следующий: 1) в главном меню выберите Сервис / Анализ данных / Регрессия. Щелкните по кнопке ОК; 2) заполните диалоговое окно ввода данных и параметров вывода (рис. 11): Входной интервал Y – диапазон, содержащий данные результативного признака; Входной интервал Х – диапазон, содержащий данные факторов независимого признака; Метки – флажок, который указывает, содержит ли первая строка названия столбцов или нет; Константа – ноль – флажок, указывающий на наличие или отсутствие свободного члена в уравнении; Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона; Новый рабочий лист – можно задать произвольное имя нового листа. Если необходимо получить информацию и графики остатков, установите соответствующие флажки в диалоговом окне. Щелкните по кнопке ОК. 59 Рисунок 11. Диалоговое окно ввода параметров инструмента Регрессия Результаты регрессионного анализа представлены на рисунке 12. Рисунок 12. Результат применения инструмента Регрессия 60 61