Тема 1. Среда анализа и визуализации статистических данных: пакет EXCEL,... Задача темы: дать слушателям курса ... дальнейшем будут осуществляться анализ статистических ...

advertisement
Тема 1. Среда анализа и визуализации статистических данных: пакет EXCEL, пакет G7
Задача темы: дать слушателям курса представление о том языке, на котором в
дальнейшем будут осуществляться анализ статистических данных, построение моделей и
проводится прогнозно-аналитические расчеты. Для этого необходимо напомнить основные
возможности пакета EXCEL, а также дать первоначальные представления о возможностях
пакета G7, с тем, чтобы в дальнейшем иметь возможность проводить обработку
статистических данных, строить уравнения, собирать и компилировать модели,
осуществлять прогнозные расчеты в единой программной среде.
Приступая к изложению материала данной темы, рассмотрим вначале к основным
понятиям данного курса – прогноза.
a) Прогноз (понятие) – научно – обоснованное суждение о возможных состояниях
объекта в будущем и / или об альтернативных путях и сроках их достижения. Процесс
разработки прогнозов называется прогнозированием.
b) Принципы прогнозирования
Наиболее важными являются следующие требования, которые должны соблюдаться при
разработке прогнозов:
1) вариантность – разработка нескольких вариантов прогноза, исходя из
особенностей рабочей гипотезы, постановки цели (в нормативном
прогнозировании) и вариантов прогнозного фона;
2) верифицируемость – проверка достоверности, точности и обоснованности
прогнозов;
3) непрерывность – принцип прогнозирования, требующий корректировки методов
прогнозирования по мере необходимости при поступлении новых данных об
объекте прогнозирования;
4) рентабельность – превышение экономического эффекта от использования
прогноза над затратами на его разработку;
5) системность взаимная увязка всех прогнозируемых показателей, а также
параметров прогнозов;
6) согласованность – принцип прогнозирования, требующий согласования
нормативных и поисковых прогнозов различной природы и различного периода
упреждения.
c) Виды прогнозов (кратко-, средне-, долгосрочный, …).
Классификаци Вид прогноза
Комментарий
- онный
признак
1
2
3
Поисковый
Прогноз, содержанием которого является определение:
- возможных состояний объекта прогнозирования в
Содержание
будущем.
прогноза
Нормативный
- путей и сроков достижения возможных состояний
(принимаемых в качестве заданных).
Комплексный
Прогноз, содержащий элементы поискового и
нормативного прогноза.
Характер
Количествен
Прогноз, который базируется на:
отражаемых
ный
- количественных показателях
свойств
Качественный
Системный
Интервальный
Дискретность
Точечный
Период
упреждения
Количество
прогнозируемых характ.
Ареал
государства
(государств)
Структура
национальног
о хозяйства
Оперативный
Краткосрочны
й
Среднесрочны
й
Долгосрочный
Дальнесрочны
й
Одномерный
Многомерный
Локальный
Региональный
Межрегиональ
ный
Общегосударс
твенный
Межгосударст
венный
Глобальный
Отраслевой
Межотраслево
й
Террит.произв.
- качественных показателях
- системном представлении объекта прогнозирования
Прогноз, результат которого представлен в виде:
- доверительного интервала характеристики объекта
прогнозирования
- единственного значения характеристики объекта
прогнозирования без указания доверительного
интервала.
Прогноз с периодом упреждения для объектов
прогнозирования:
- до 1 месяца.
- от 1 месяца до 1 года.
- от 1 года до 5 лет.
- от 5 до 15 лет.
- свыше 15 лет.
Прогноз содержит:
-одну качественную или количественную
характеристику объекта прогнозирования.
- несколько качественных или количественных
характеристик объекта прогнозирования
Прогноз, относящийся к:
- части региона данного государства.
- региону данного государства
- нескольким регионам данного государства
- государству в целом
- нескольким государствам
Земле и человечеству в целом.
Прогноз, относящийся к:
- какой-либо отрасли
- нескольким отраслям
- териториально – производственным образованиям
d) Параметры прогнозов
1) Достоверность прогноза – оценка вероятности осуществления прогноза для
заданного доверительного интервала.
2) Источник ошибки прогноза – фактор, обуславливающий появление ошибки
прогноза;
3) Обоснованность прогноза – степень соответствия методов и исходной
информации объекту, целям и задачам прогнозирования;
4) Ошибка прогноза – апостериорная (из послеследующего) величина отклонения
прогноза от действительного состояния и объекта и путей и сроков его
осуществления;
5) Период упреждения – промежуток времени от настоящего в будущее, на который
разрабатывается прогноз.
6) Прогнозный горизонт – максимально возможный период упреждения прогноза.
7) Точность прогноза – оценка доверительного интервала прогноза для заданной
вероятности его осуществления.
После рассмотрения понятия прогноза, его параметров и видов, а также принципов
прогнозирования перейдем теперь к изложению основных возможностей пакета Excel,
которые Вам понадобятся в дальнейшем для построения Леонтьевской модели, ценовой
модели межотраслевого баланса, модели
оценки реального НДС и для работы с
эконометрическим пакетом G7. К таким основным возможностям отнесены нижеследующие
функции Excel:
1. Транспонирование данных (ТРАНСП () или TRANSPOSE() в англоязычной версии)
Возвращает вертикальный диапазон ячеек в виде горизонтального и наоборот. Функция
ТРАНСП должна быть введена как формула массива в интервал, который имеет столько
же строк и столбцов, соответственно, сколько столбцов и строк имеет аргумент массив.
Функция ТРАНСП используется для того, чтобы поменять ориентацию массива на
рабочем листе с вертикальной на горизонтальную и наоборот. Например, некоторые
функции, такие как ЛИНЕЙН, возвращают горизонтальные массивы. Функция ЛИНЕЙН
возвращает горизонтальный массив, содержащий данные о наклоне прямой и ее
пересечении с осью координат y. Следующая формула возвращает вертикальный массив,
получаемый из горизонтального массива, возвращаемого функцией ЛИНЕЙН:
ТРАНСП(ЛИНЕЙН(ЗначенияY;ЗначенияX))
Синтаксис
ТРАНСП(массив)
Массив — это транспонируемый массив или диапазон ячеек на рабочем листе.
Транспонирование массива заключается в том, что первая строка массива становится
первым столбцом нового массива, вторая строка массива становится вторым столбцом
нового массива и так далее.
2. Перемножение двух матриц (MУМНОЖ или MMULT). Возвращает произведение
матриц (матрицы хранятся в массивах). Результатом является массив с таким же числом
строк, как массив1 и с таким же числом столбцов, как массив2.
Синтаксис
МУМНОЖ(массив1;массив2)
Массив1, массив2 - это перемножаемые массивы.

Количество столбцов аргумента массив1 должно быть таким же, как количество
сток аргумента массив2, и оба массива должны содержать только числа.

Массив1 и массив2 могут быть заданы как интервалы, массивы констант или
ссылки.

Если хотя бы одна ячейка в аргументах пуста или содержит текст, или если число
столбцов в аргументе массив1 отличается от числа строк в аргументе массив2, то
функция МУМНОЖ возвращает значение ошибки #ЗНАЧ!.
3. Обращение матрицы (МОБР или MINVERSE) Возвращает обратную матрицу для
матрицы, хранящейся в массиве.
Синтаксис
МОБР(массив)
Массив - это числовой массив с равным количеством строк и столбцов.

Массив может быть задан как диапазон ячеек, например A1:C3; как массив констант,
например {1;2;3: 4;5;6: 7;8;9} или как имя диапазона или массива.

Если какая-либо из ячеек в массиве пуста или содержит текст, то функция МОБР
возвращает значение ошибки #ЗНАЧ!.

МОБР также возвращает значение ошибки #ЗНАЧ!, если массив имеет неравное
число строк и столбцов.
Замечания

Формулы, которые возвращают массивы, должны быть введены как формулы
массива.

Обратные матрицы, как и определители, обычно используются для решения систем
уравнений с несколькими неизвестными. Произведение матрицы на ее обратную —
это единичная матрица, то есть квадратный массив, у которого диагональные
элементы равны 1, а все остальные элементы равны 0.

В качестве примера того, как вычисляется обратная матрица, рассмотрим массив из
двух строк и двух столбцов A1:B2, который содержит буквы a, b, c и d,
представляющие любые четыре числа. В следующей таблице приведена обратная
матрица для A1:B2:
Столбец A Столбец B
Строка 1
d/(a*d-b*c) b/(b*c-a*d)
Строка 2
c/(b*c-a*d) a/(a*d-b*c)

МОБР производит вычисления с точностью до 16 значащих цифр, что может
привести к небольшим численным ошибкам округления.

Некоторые квадратные матрицы не могут быть обращены, в таких случаях функция
МОБР возвращает значение ошибки #ЧИСЛО!. Определитель такой матрицы равен 0.
4. ( Линейн или LINEST) Рассчитывает статистику для ряда с применением метода
наименьших квадратов, чтобы вычислить прямую линию, которая наилучшим образом
аппроксимирует имеющиеся данные. Функция возвращает массив, который описывает
полученную прямую. Поскольку возвращается массив значений, функция должна
задаваться в виде формулы массива.
Уравнение для прямой линии имеет следующий вид:
y = mx + b или y = m1x1 + m2x2 + ... + b (в случае нескольких диапазонов значений x)
где зависимое значение y является функцией независимого значения x. Значения m — это
коэффициенты, соответствующие каждой независимой переменной x, а b — это
постоянная. Заметим, что y, x и m могут быть векторами. Функция ЛИНЕЙН возвращает
массив {mn;mn-1;...;m1;b}. ЛИНЕЙН может также возвращать дополнительную
регрессионную статистику.
Синтаксис
ЛИНЕЙН(известные_значения_y;известные_значения_x;конст;статистика)
Известные_значения_y — это множество значений y, которые уже известны в
соотношении y = mx + b.

Если массив известные_значения_y имеет один столбец, то каждый столбец массива
известные_значения_x интерпретируется как отдельная переменная.

Если массив известные_значения_y имеет одну строку, то каждая строка массива
известные_значения_x интерпретируется как отдельная переменная.
Известные_значения_x — это необязательное множество значений x, которые уже
известны в соотношении y = mx + b.

Массив известные_значения_x может содержать одно или несколько множеств
переменных. Если используется только одна переменная, то известные_значения_y и
известные_значения_x могут иметь любую форму, при условии, что они имеют
одинаковую размерность. Если используется более одной переменной, то
известные_значения_y должны быть вектором (то есть диапазоном высотой в одну
строку или шириной в один столбец).

Если известные_значения_x опущены, то предполагается, что это массив {1;2;3;...}
такого же размера, как и известные_значения_y.
Конст — это логическое значение, которое указывает, требуется ли, чтобы константа b
была равна 0.

Если аргумент конст имеет значение ИСТИНА или опущено, то b вычисляется
обычным образом.

Если аргумент конст имеет значение ЛОЖЬ, то b полагается равным 0 и значения m
подбираются так, чтобы выполнялось соотношение y = mx.
Статистика — это логическое значение, которое указывает, требуется ли вернуть
дополнительную статистику по регрессии.

Если аргумент статистика имеет значение ИСТИНА, то функция ЛИНЕЙН
возвращает дополнительную регрессионную статистику, так что возвращаемый
массив будет иметь вид: {mn;mn-1;...;m1;b:sen;sen1;...;se1;seb:r2;sey:F;df:ssreg;ssresid}.

Если аргумент статистика имеет значение ЛОЖЬ или опущена, то функция ЛИНЕЙН
возвращает только коэффициенты m и постоянную b.
Дополнительная регрессионная статистика
Величина
Описание
se1,se2,...,sen
Стандартные значения ошибок для коэффициентов m1,m2,...,mn.
seb
Стандартное значение ошибки для постоянной b (seb = #Н/Д, если
конст имеет значение ЛОЖЬ).
r2
Коэффициент детерминированности. Сравниваются фактические
значения y и значения, получаемые из уравнения прямой; по
результатам сравнения вычисляется коэффициент
детерминированности, нормированный от 0 до 1. Если он равен 1,
то имеет место полная корреляция с моделью, т.е. нет различия
между фактическим и оценочным значениями y. В
противоположном случае, если коэффициент
детерминированности равен 0, то уравнение регрессии неудачно
для предсказания значений y. Для получения информации о том,
как вычисляется r2, см. "Замечания" в конце данного раздела.
sey
Стандартная ошибка для оценки y.
F
F-статистика, или F-наблюдаемое значение. F-статистика
используется для определения того, является ли наблюдаемая
взаимосвязь между зависимой и независимой переменными
случайной или нет.
df
Степени свободы. Степени свободы полезны для нахождения Fкритических значений в статистической таблице. Для определения
уровня надежности модели нужно сравнить значения в таблице с
F-статистикой, возвращаемой функцией ЛИНЕЙН.
ssreg
Регрессионая сумма квадратов.
ssresid
Остаточная сумма квадратов.
Замечания

Любую прямую можно описать ее наклоном и пересечением с осью y:
Наклон (m):
Для того, чтобы определить наклон прямой, обычно обозначаемый через m, нужно
взять две точки прямой (x1,y1) и (x2,y2); тогда наклон равен (y2 - y1)/(x2 - x1).
Y-пересечение (b):
Y-пересечением прямой, обычно обозначаемым через b, является значение y для
точки, в которой прямая пересекает ось y.
Уравнение прямой имеет вид y = mx + b. Если известны значения m и b, то можно
вычислить любyю точку на прямой, подставляя значения y или x в уравнение. Можно
также использовать функцию ТЕНДЕНЦИЯ. Для получения более подробной
информации см. справку по функции ТЕНДЕНЦИЯ.

Если имеется только одна независимая переменная x, можно получить наклон и yпересечение непосредственно, используя следующие формулы:
Наклон:
ИНДЕКС(ЛИНЕЙН(известные_значения_y;известные_значения_x);1)
Y-пересечение:
ИНДЕКС(ЛИНЕЙН(известные_значения_y;известные_значения_x);2)

Точность аппроксимации с помощью прямой, вычисленной функцией ЛИНЕЙН,
зависит от степени разброса данных. Чем ближе данные к прямой, тем более точной
является модель, используемая функцией ЛИНЕЙН. Функция ЛИНЕЙН использует
метод наименьших квадратов для определения наилучшей аппроксимации данных.

Функции аппроксимации ЛИНЕЙН и ЛГРФПРИБЛ могут вычислить прямую или
экспоненциальную кривую, наилучшим образом описывающую данные. Однако они
не дают ответа на вопрос, какой из двух результатов в наибольшей степени подходит
для решения поставленной задачи. Можно также вычислить функцию
ТЕНДЕНЦИЯ(известные_значения_y; известные_значения_x) для прямой или
функцию РОСТ(известные_значения_y; известные_значения_x) для
экспоненциальной кривой. Эти функции, если не задавать аргумент
новые_значения_x, возвращают массив вычисленных значений y для фактических
значений x в соответствии с прямой или кривой. Теперь можно сравнить
вычисленные значения с фактическими значениями. Можно также построить
диаграммы для визуального сравнения.

Проводя регрессионный анализ, Microsoft Excel вычисляет для каждой точки квадрат
разности между прогнозируемым значением y и фактическим значением y. Сумма
этих квадратов разностей называется остаточной суммой квадратов. Затем Microsoft
Excel подсчитывает сумму квадратов разностей между фактическими значениями y и
средним значением y, которая называется общей суммой квадратов (регрессионая
сумма квадратов + остаточная сумма квадратов). Чем меньше остаточная сумма
квадратов по сравнению с общей суммой квадратов, тем больше значение
коэффициента детерминированности r2, который показывает, насколько хорошо
уравнение, полученное с помощью регрессионного анализа, объясняет взаимосвязи
между переменными.

Формулы, которые возвращают массивы, должны быть введены как формулы
массивов. При вводе массива констант в качестве, например, аргумента
известные_значения_x, следует использовать точку с запятой для разделения
значений в одной строке и двоеточие для разделения строк. Знаки-разделители могут
быть различными и зависят от установок для разных стран.

Значения y, предсказанные с помощью уравнения регрессии, возможно не будут
правильными, если они располагаются вне интервала значений y, которые
использовались для определения уравнения.
Практические задания и упражнения:
-
дайте понятия прогноза;
назовите основные принципы прогнозирования;
какие виды прогнозов Вы знаете;
постройте в пакете EXCEL графики с использованием 2-х осей;
постройте в пакете EXCEL график зависимости y = f(x);
скопируйте формулу с фиксированием адреса строки;
скопируйте формулу с фиксированием адреса столбца;
скопируйте строку переменных в столбец, сохранив ссылки;
объясните назначение следующих функций пакета EXCEL: TRANSPOSE,
MMULT, MINVERSE, LINEST.
постройте в пакете EXCEL файл, в котором приведены примеры
использования следующих функций TRANSPOSE, MMULT, MINVERSE,
LINEST.
После разбора основных функций пакета Excel перейдем к рассмотрению основ
эконометрического пакета G7. Для знакомства с основами пакета G7 активизируйте
гиперссылку показать.
Практические задания и упражнения:



















Какие параметры настройки есть в конфигурационном файле “G.cfg”?
Какие функции выполняют параметры настройки конфигурационного файла?
Какие компоненты входят в состав интегрированного пакета G7?
Назовите меню входящие в состав главного меню;
Опишите функции, входящие в состав меню File, Edit, Bank, Graph, Regression, Editor,
Model, Help;
Какие функции представлены на панели инструментов?
С помощью какой функции строится уравнение регрессии?
Что означают показатели уравнения регрессии SEE, RSQ, RHO, DW, Mexval, Elast,
NorRes, Beta?
Как построить в G7 график функции?
В чем различие между командами mgr, gr, gr*, gr resid, gr lever?
Каким образом сохраняется график в G7 (опишите два подхода)?
Опишите способы написания комментариев в G7;
С помощью какой функции осуществляется просмотр банка данных?
Как в G7 подключить несколько банков данных?
Какая команда позволяет подключить файл с данными?
Опишите основные этапы формирования файла с данными для подключения?
Перечислите основные ошибки, допускаемые при подключении файла с данными и
способы их устранения.
Какую функцию выполняет команда update?
Как осуществляется ввод новых переменных в банк данных?
Download