Сравнение статистической и нестатистической оценок

advertisement
МАТЕМАТИКА
УДК 519.8
Н.М. Оскорбин, С.И. Жилин, С.В. Дронов
Сравнение статистической и
нестатистической оценок параметров
эмпирической зависимости
Введение
формируется совокупность пар значений
Рассматривается проблема оценивания параметров
функциональной зависимости у = /(ж) по
экспериментальным данным. Для решения этой
задачи наиболее широко применяются статистические процедуры. Под статистическими процедурами здесь понимаются методы оценивания,
явным образом использующие информацию о виде
распределения ошибки. Известно, что среди таких
процедур лучшую оценку дает метод максимального
правдоподобия. В последнее время при решении
указанной
задачи
используются
методы
интервальной математики. Предметом настоящей
работы является задача сравнения описательных
способностей
эмпирических
зависимостей,
полученных статистическим и нестатистическим
методами. Сравнение производится на основе
вычислительного эксперимента. Основной результат
сводится к тому, что описательная способность
нестатистического метода для всех исследуемых
объектов при равномерно распределенной ошибке
оказалась
выше,
чем
для
более
точных
статистических процедур, что, по мнению авторов,
противоречит принципу «больше информации —
точнее оценки».
Причем
и N выбираются таким образом, чтобы
значения аргумента повторялись в совокупности Е
от трех до пяти раз. Далее, в каждом к-м
испытании
'енерируется совокупность исходных экспериментальных данных
где
— случайная величина с задан
ным распределением.
В каждом к-м испытании для сгенерированного
ра параметров
х*.
*векто-
По результатам К испытаний для каждого
метода вычисляется стандартное среднеквадратичное отклонение прогнозных и истинного значения
Сравнение значений dj позволяет выяснить «качество» прогнозных значений, обеспечиваемое
различными методами.
Таким образом, определены все элементы
схемы статистических испытаний за исключением
вида распределения ошибки. Выбор распределения
ошибки сопряжен с некоторыми трудностями
методологического характера. Проблема состоит в
том, что метод центра неопределенности является
нестатистическим по своей сути, и информация о
распределении ошибки при использовании этого
метода не учитывается. Тем не менее, базовое в
данном методе предположение о равнозначности
всех элементов множества неопределенности
можно реализовать наиболее адекватно, если
распределение ошибки положить
по экспе-
риментальным данным
и оценки прогнозного значения этой зависимости
в точке х*. Предполагается, что ошибка
измерения величины является случайной величиной, принимающей значения из интервала
сизвестным
распределением.Таким
об-
разом, представимо в виде
где
•у® — точное значение функции. Используя метод статистических испытаний, выясним соотношение оценок прогнозных значений, получаемых методом максимального правдоподобия и
методом центра неопределенности (МЦН).
Схема статистических испытаний состоит в
следующем. Для заданной функции
с известными параметрами
предварительно
параметров
ности,
обозначим
соответственно
и
На
основе этих оценок параметров функции вычисляются прогнозные значения функциональных
зависимостейв
точке
линейной по параметрам функ-
циональной зависимости
оценивание
функциональной зависимости двумя методами.
Оценки,
полученные
методом
максимума
правдоподобия и методом центра неопределен-
Постановка задачи и метод исследования
Рассмотрим задачу построения оценок
производится
22
I
Сравнение статистической и нестатистической оценок
вывод об их соотношении и в «предельном» случае,
т.е. при равномерном распределении ошибки.
Предлагается рассмотреть три варианта семейства Р с плотностями
равномерным на отрезке [—е, е] . Однако этот
выбор, в свою очередь, создает сложности при
построении оценок методом максимального правдоподобия. Дело в том, что в отличие от традиционной для этого метода гипотезы о нормальности
ошибки при равномерно распределенной ошибке
получаемые оценки однозначно не определены.
Это обусловлено неединственностью максимума
функции правдоподобия в этом случае.
Выход из данной ситуации видится в следующем. Рассмотрим параметрическое семейство
функций плотности распределения ошибки Р =
{ р а ( х ) I а е [0, а т а х ] } такое, что р 0 ( х ) —
плотность, доставляющая единственный максимум функции правдоподобия, р а т а х ( х ) — совпадающая с плотностью равномерного распределения на отрезке [—е , е] , а остальные элементы
этого семейства имеют некоторый промежуточный вид в зависимости от значения параметра а .
Вычислительный эксперимент по изложенной
схеме с равномерно распределенной ошибкой заменяется серией из М экспериментов, в каждом
из которых распределение ошибки имеет плотность Ра го (#), ГДе Qfm = " j r f C X r n a x i Т П — 0, . .
. , М . Тогда, проследив тенденцию изменения
соотношения прогнозных значений, полученных
двумя
методами,
по
мере
приближения
распределения ошибки к равномерному, можно
будет сделать
где а € [0, ].
При £ — 1 графики функций р Р а { х ) , j = 1,2,3
для граничных и двух внутренних значений параметра а приведены на рисунках 1-3.
.1
/
1
\
-1
а
б
Рис. 1. Графики функции плотности
1
в
г
-1 0
а
б
Рис. 2. Графики функции плотности
в
23
1
МАТЕМАТИКА
1
.1
Г
-1 (
1 -]
(
1
Рис. 3. Графики функции плотности
Метод получения статистических оценок
Метод получения нестатистических оце нок
Построение статистических оценок проводится с
использованием метода максимального правдоподобия [1], который в качестве оценки для
рекомендует принять статистику
определяемую
соотношением
где В — множество всех значений /?;
—
функция правдоподобия. Для заданной совокупности наблюдений Е и известной плотности распределения ошибки р(х) функция правдоподобия
задается формулой
Поиск максимума функции правдоподобия
осуществляется методом полного перебора значений
функции на регулярной сетке с заданным шагом sp.
Выбор столь сложного в вычислительном смысле
метода обусловлен тем, что традиционный способ,
основанный на решении уравнений правдоподобия,
не работоспособен в случае неединственности
максимума. Метод полного перебора способен
обнаружить все точки максимума с заданной
точностью, однако вопрос выбора из нескольких
обнаруженных точек единственного значения в этом
случае все равно остается открытым. Один из
вариантов решения этой проблемы состоит в
регуляризации задачи поиска максимума функции
правдоподобия. С этой целью предлагается к
максимизируемой
функции
добавить
стабилизирующее слагаемое
видг
— постоянный
весовой коэффициент;, —
известные значения
оцениваемых параметров. В этом случае не вносится
дополнительных искажений в задачу сравнения двух
методов.
24
Используемый метод построения нестатистических
оценок носит название метода центра неопределенности [2]. Метод разработан в рамка;
подхода, предложенного JI.B. Канторовичем [3],и
использует возможности математического программирования для записи условий обработки
экспериментальных данных с учетом всех соотношений между значениями наблюдаемых переменных.
Пусть В — множество всех значений /?, удовлетворяющих системе двусторонних неравенств
Основным принципом обработки наблюдении в
данном методе является равнозначность всех
элементов множества В, что подчеркиваете)
термином, используемым для этого множества. —
«множество неопределенности значений /3»,
Пустота множества неопределенности означаех
наличие противоречий в совокупности исходных
экспериментальных данных Е. Отдельные точки
множества В, в частности, каким-либо образом
задаваемый «центр неопределенности», могут
выступать в виде характеристик части или всего
множества, удобных для анализа или практического использования.
Способ выбора центра неопределенности,
примененный в настоящей работе, состоит в следующем. Множество неопределенности подвергается сжатию путем пошагового уменьшен™
ошибки е до тех пор, пока множество остаета
непустым. Процесс уменьшения ошибки можех
представлять собой, например, процесс дихото
мии, т.е. на каждом j-м шаге
где
j = 1 , 2 . . . и е0 = е. Непустота множества
на каждом шаге процесса сжатия может бьть
проверена методами математического программирования. В качестве центра исходного множества неопределенности выбирается геометри
Сравнение статистической и нестатистической оценок
ческий центр множества Bj 0 , где jo такое, что
на основе Е добавлением к каждому значению
функции
погрешн
— случайной величины из
Численные результаты
интервала
с
одной из функций
плотности
Датчики случайных чисел с заданными плотностями были реализованы на основе следующего
известного факта. Случайные числа с произвольной
функцией распределения F ( x ) могут быть построены
по последовательности равномерно распределенных
Описанная схема статистических испытаний была
реализована в виде программы на языке С++
(компилятор IBM С Set++ for AIX 4.2) на рабочей
станции IBM RS/6000 Model 43Р-140. В качестве
исследуемой
зависимости
рассматривалась
функция у = х + 1 с вектором истинных значений
параметров= (1,1). Совокупность Е для данной
случайных чисел
функции была
сформирована
путем
пятидесятикратного
случайного
выбора
целочисленных значений из интервала [0,10] и вычисления функции для сгенерированных значений
аргумента.
Совокупность
экспериментальных
данных ЕW в к-м испытании строилась
как , т.е. найдены из уравнения
£„ =
п — 1,2,.... Источником
равномерно распределенных псевдослучайных чисел
служила стандартная функция rand().
Результаты экспериментов для каждого из
семейств
, j — 1,2,3 при = 0.005,
М = 20 и К = 10000 приведены в таблице и в виде
графиков на рисунке 4.
Среднеквадратичные отклонения прогнозных и истинных значений, К — 10000
Р1
т
0
1
13
14
15
16
17
18
19
di
0.000242
0.000235
0.000242
0.000239
0.000239
0.000241
0.000239
0.000232
0.000232
0.000227
0.000227
0.000213
0.000207
0.000204
0.000185
0.000178
0.000156
0.000144
0.000118
0.000081
20
0.000000
2
3
4
5
6
7
8
9
10
11
12
.......... ...
(x)
(x)
(x)
d-2.
di
0.000572
0.000576
0.000573
0.000552
0.000568
0.000536
0.000523
0.000514
0.000482
0.000458
0.000437
0.000407
0.000378
0.000349
0.000313
0.000278
0.000247
0.000228
0.000208
0.000191
0.000206
0.000241
0.000253
0.000254
0.000269
0.000269
0.000289
0.000296
0.000308
0.000313
0.000313
0.000319
0.000326
0.000320
0.000323
0.000325
0.000333
0.000328
0.000327
0.000318
0.000309
C?2
0.000572
0.000598
0.000594
0.000588
0.000560
0.000548
0.000517
0.000507
0.000473
0.000448
0.000423
0.000389
0.000374
0.000347
0.000312
0.000295
0.000269
0.000254
0.000228
0.000219
0.000000
0.000212
25
di
0.000227
0.000238
0.000262
0.000261
0.000273
0.000275
0.000275
0.000283
0.000286
0.000284
0.000268
0.000278
0.000269
0.000251
0.000226
0.000220
0.000197
0.000173
0.000137
0.000095
0.000000
d2
0.000596
0.000593
0.000586
0.000576
0.000560
0.000521
0.000475
0.000451
0.000438
0.000397
0.000380
0.000351
0.000304
0.000293
0.000261
0.000257
0.000226
0.000210
0.000209
0.000212
0.000215
МАТЕМАТИКА
Рис. 4. Среднеквадратичные отклонения прогнозных значений от истинных для статистического о (of2)
методов при ошибке с плотностями распределения Р а ( х ) (а), р 2 а (х) (б) и
Заключение
Анализ результатов проведенного исследования
показывает, что при распределениях погрешности,
близких к «треугольным», характер поведения
ошибки
прогноза
соответствует
известным
соотношениям и закономерностям, свойственным
использованным
методам
оценивания.
Действительно, МЦН как нестатистическая процедура не учитывает дополнительную информацию,
связанную
с
характером
распределения,
и,
соответственно, имеет большую ошибку прогноза.
Кроме того, ошибка прогноза, обеспечиваемая
МЦН, снижается по мере приближения распределения погрешности к равномерному. Это
объясняется тем, что в такой ситуации становится
выполненным базовое для МЦН предположение о
равноценности
всех
элементов
множества
неопределенности
и
устойчивость
оценок
повышается. Одинаковое поведение оценок МЦН
для
всех
семейств
распределений
служит
подтверждением достоверности результатов.
Рассматривая оценки метода максимально го
правдоподобия, следует отметить, что среднеквадратичное отклонение прогнозного и истинного значений при совпадении распределе
ний с треугольным практически совпадает во
всех трех случаях (d 2 € [0.000227, 0.000242]).
Существенным представляется также заметить, что
при распределениях погрешности, удаляющихся от
треугольного, эта величина не убывает. Рост
погрешности объясняется тем, что по мере
приближения к равномерному распределению
количество
используемой
для
оценивания
информации уменьшается. Дальнейшее нарушение
этой тенденции объясняется «притяжением» оценок
к истинным значениям искомых коэффициентов
уравнения регрессии, вызванным возрастающим
весом стабилизирующего слагаемого.
Проведем сравнение МЦН и статистических
процедур по точности оценок в предельном случае
равномерного распределения. Исходя из выше
сказанного и анализируя результаты эксперимента,
мы можем предполагать, что ошибка прогноза МЦН
будет меньше соответствующих ошибок для
статистических
процедур.
Действительно,
среднеквадратичное отклонение ошибки МЦН для
равномерного распределения оценена в пределах d 2
€ [0.000206, 0.000215], что меньше указанной выше
величины d\ для статисти-
Сравнение статистической и нестатистической оценок
ческих процедур в случае треугольного распределения. При этом rfi возрастает по мере приближения распределения к равномерному. Данный
результат, вообще говоря, противоречит известным
закономерностям
соотношения
точности
статистических и нестатистических процедур
оценивания.
Полученный вывод о том, что нестатистическая
процедура при равномерно распределенной ошибке
имеет лучшую описательную способность, чем
статистическая процедура, выносится авторами в
качестве научной гипотезы.
При условии подтверждения высказанной гипотезы
практическая
значимость
полученных
результатов состоит в том, что при распределениях
ошибок, близких к равномерному, МЦН может
оказаться
более
эффективной
процедурой
оценивания параметров эмпирических зависимостей,
чем
статистические
процедуры.
Проведенные
исследования качества описательной способности
МЦН и статистических процедур для других
распределений (усеченное нормальное, М-образное
распределение) также подтверждают данный вывод.
Литература
1.Боровков А.А. Математическая статистика.
Новосибирск, 1984.
2.Оскорбин Н.М., Максимов А.В., Жилин С.И.
Построение и анализ эмпирических зависимостей методом центра неопределенности //
Известия Алтайского государственного уни
верситета. 1998. №1.
3. Канторович JI.B. О некоторых новых подходах к
вычислительным
методам
и
обработке
наблюдений // Сиб. мат. журнал. 1962. Т. 3. №5.
Download