УДК 519.21

advertisement
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ
Нижегородский государственный университет им.Н.И.Лобачевского
Национальный исследовательский университет
М.В. Ярощук
Математическое моделирование
и статистическое оценивание распределений
на примере зависимости доза-эффект
Учебно-методическое пособие
Рекомендовано методической комиссией факультета
вычислительной математики и кибернетики для студентов ННГУ,
обучающихся по направлению подготовки
010500 «Прикладная математика и информатика».
Нижний Новгород
2012
УДК 519.21
ББК В171
Я 76
Я 76
Ярощук М.В. МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ И
СТАТИСТЧЕСКОЕ ОЦЕНИВАНИЕ РАСПРЕДЕЛНИЙ НА ПРИМЕРЕ
ЗАВИСИМОСТИ ДОЗА-ЭФФЕКТ: Учебно-методическое пособие. –
Нижний Новгород: Нижегородский госуниверситет, 2012. – 48 с.
Рецензент:
кандидат физ.-мат. наук, доцент С.Ю. Галкина
Учебно-методическое пособие предназначено для студентов 4 курса
факультета вычислительной математики и кибернетики, обучающихся по
направлению 010500 «Прикладная математика и информатика».
Учебно-методическое пособие составлено в соответствии с программой
специального курса «Математическое моделирование и статистическое
оценивание распределений на примере зависимости доза-эффект».
Ответственный за выпуск:
зам. председателя методической комиссии факультета ВМК ННГУ
к.т.н., доцент В.М. Сморкалова
УДК 519.21
ББК В171
© Нижегородский государственный
Университет им. Н.И. Лобачевского, 2012
2
Содержание
Введение. Основные понятия………………………………………………...........4
1. Построение модели зависимости доза-эффект………..…..………………...…7
2. Непараметрическое оценивание распределений в зависимости
доза-эффект……………………….....…………………………..………………….9
3. Условия и предположения……………………………………………………..15
4. Состоятельность и асимптотическая нормальность kNN  оценок в
схеме прямых наблюдений…………………………..………………………..…..19
5. Оценивание эффективных доз………………………………………………….21
6. Оценки Пристли–Чао для случайных планов эксперимента………………...24
7. kNN  оценки в схеме непрямых наблюдений и их
асимптотический анализ..........................................................................................26
8. Оценки Надарая–Ватсона при постоянном шаге деления в схеме прямых
и непрямых наблюдений……………………………………………………….....29
9. Устранение погрешности наблюдений………………………………………..32
10. Оценки Пристли–Чао при переменном шаге деления в схеме
прямых наблюдений………………………………….……………………...……38
11. Выбор ширины окна просмотра данных с помощью процедуры
кросс-проверки и метода штрафных функций……………………………….....39
Литература………………………………………………………………………....48
3
Введение. Основные понятия.
Анализ связи между дозой и эффектом и их количественное определение
имеет большое значение при разработке новых лекарственных средств (т.е.
веществ, обладающих фармакологической активностью, прошедших
клинические испытания и предназначенных для изготовления лекарственных
форм). Под дозой мы понимаем некоторое значение агента (фактора), которое
может изменить состояние исследуемого объекта, а под эффектом –
наблюдаемый качественный (альтернативный) отклик объекта на введенную
дозу. Основу решения проблемы количественного оценивания связи между
наблюдаемым эффектом и введенной дозой составляет функция
эффективности, под которой мы понимаем зависимость вероятности
наблюдения эффекта от введенной дозы. Задача оценивания функции
эффективности по экспериментальным данным: введенной дозе и наличию или
отсутствию эффекта является важнейшей задачей зависимости доза-эффект.
Решение отмеченной задачи представляет большой теоретический интерес и
имеет обширные практические приложения во многих областях медицины и
биологии.
Функция эффективности имеет очень важное, а иногда и принципиальное
значение в фармакологии – при оценке эффективности лекарственных
препаратов, в токсикологии и радиологии – при исследовании количественной
токсичности ядов и поражающих свойств ионизирующих излучений, в гигиене
– при нормировании критических уровней вредных факторов. Построение
функции эффективности является статистической задачей, способ решения
которой предъявляет соответствующие требования к планированию
эксперимента и виду получаемых исходных данных. Биологический
эксперимент на завершающем этапе требует методологически обоснованных
точных статистических оценок результатов, учитывающих погрешности
получения исходных данных и их влияние на конечные результаты.
Наиболее часто оценивают дозы LD50 и ED50 : LD50 – это доза, при которой
50% от количества объектов, получивших дозу, погибает (средняя летальная
доза), ED50 – это средне-эффективная доза (для 50% объектов наблюдается
эффект). На современном этапе в токсикометрии востребованными являются
величины доз, которые вызывают появление эффекта, учитываемого в
экспериментальной группе тест-объектов с заданной вероятностью 0,01 – 0,1;
0,9 – 0,99. Такие дозы получили название доз ED1  ED10 , ED90  ED99 .
Потребности практики обуславливают необходимость одновременного
определения как полного перечня категорий эффективных доз от ED1 до ED99 ,
так и вида самой функции эффективности. Нас интересует проблема
нахождения функции эффективности и оценка доз ED100 , в широком
диапазоне значений 0    1 , по результатам наблюдений: введенным дозам и
наличию или отсутствию эффекта. Мы строим математическую модель
4
зависимости доза-эффект, в которой рассматриваем минимальную границу, с
которой начинается реакция организма, как латентную случайную величину.
Если нижняя граница чувствительности X и введенная доза U  независимы
как случайные величины, то функция эффективности является функцией
распределения, однако даже в этом случае для оценки функции эффективности
и категорий эффективных доз мы не можем воспользоваться классическими
методами математической статистики, поскольку исследуемая величина
ненаблюдаема, а вместо нее наблюдаются менее информативные величины:
индикаторы эффекта Wi  I Ui  X i  и введенные дозы U i , i  1,..., n . Для
оценки функции эффективности мы используем непараметрические методы
математической статистики, а именно, ядерные оценки регрессии.
На практике для оценивания зависимости доза-эффект и среднеэффективных доз (называемых еще медианными средне-эффективными дозами)
используются модели бинарного выбора – пробит и логит, основанные на
использовании нормальной и логистической функций распределения. Модели
бинарного выбора хорошо работают в окрестности медианных среднеэффективных доз. Эти методы реализованы в большинстве современных
эконометрических компьютерных программных пакетов (ЭКПП): SPSS, XL
STAT–Dose, BioStat 2007, Probit Analysis, StatPlus (Статистика+). С помощью
этих ЭКПП можно произвести обработку кривой зависимости доза–эффект,
вычислить эффективную дозу, а также соответствующие доверительные
интервалы. Существуют различные модификации пробит- и логит-анализа,
которые, имея в своей основе главную идею – преобразование процентов
встречаемости эффекта в пробиты, – различаются алгоритмами линеаризации и
статистической обработки. Большая часть этих программ основывается на
алгоритме метода максимального правдоподобия для регрессионной схемы в
модели бинарного выбора (D.J. Finney), некоторые авторы (L.S. Miller, M.L.
Tainter, J.T. Litchfield, F.W. Wilcoxon) используют для этой цели метод
наименьших квадратов. Однако применение пробит- и логит-моделей дает
большие погрешности в определении доз на краях распределения. Кроме того,
при практической реализации пробит-анализа или его модификаций отсутствует
возможность проведения единичных испытаний, согласно официальной
методики, испытания должны носить групповой характер.
Основной недостаток официально применяемых методов состоит в том, что
указанные методы ориентируются, в основном, на оценку средне-эффективной
дозы ED50 или близких к ней и не позволяют состоятельно оценивать малые или
большие дозы, тогда как малые и большие дозы являются востребованными для
практических нужд. Доверительные интервалы для крайних доз ED1  ED10 ,
ED90  ED99 , имеющие важное практическое значение в медико-биологической
практике, при помощи этих же методов получаются либо довольно широкими,
либо ненадежными. Наряду с тем, что методы пробит-анализа плохо оценивают
категории доз, близких к границам интервала распределения, они также не
учитывают, что значения воздействовавшей дозы измеряются с погрешностью.
5
Реально же в экспериментальной практике возникает необходимость строить
оценки по исходным данным, содержащим ошибки, распределение которых
неизвестно. Кроме того, нормальное распределение, распределение Вейбулла,
распределение экстремальных значений, логистическое являются унимодальными
и традиционно используемые методы пробит-анализа плохо работают, например,
для смесей распределений, бимодальных и полимодальных распределений.
Недостатком параметрических методов является то, что они эффективны, если
реальная модель близка к гипотетической, и сильно теряют в эффективности при
отклонении от предполагаемой модели.
В работах Тихова М.С. и Криштопенко С.В. [2-4] был предложен
непараметрический метод оценки функции эффективности, который задачу
оценки функции эффективности сводит к задаче оценивания функции регрессии
и использования для этой цели непараметрических (ядерных) оценок регрессии с
шириной окна просмотра данных h  параметра сглаживания. Такой подход
позволяет по результатам единичных испытаний оценивать среднеэффективную дозу ED50 не хуже, чем методы пробит-анализа, а малые и
большие дозы, близкие к 0% или к 100%, оценивать эффективнее, чем пробитанализом, строить доверительные интервалы, достаточно узкие как в середине,
так и на краях распределения. Более того, математическую модель зависимости
доза-эффект мы рассматриваем как задачу статистического анализа для случая
прямых и непрямых наблюдений, т.е. когда вводимая в организм доза измеряется
с некоторой ошибкой, а реакция организма (эффект) идет на «чистую» вводимую
дозу. Таким образом, рассмотренные постановки охватывают широкий спектр
разнообразных практических ситуаций в проблеме доза-эффект. Математическая
модель зависимости доза-эффект в предложенной постановке дает возможность
использовать для решения проблем дозозависимых эффектов широкий набор
мощных средств математической статистики.
При изучении вопросов, связанных с конкретным применением
рассматриваемых процедур для конечных выборок, возникает проблема выбора
оптимального значения параметра сглаживания h , который присутствует в
рассматриваемых оценках функции эффективности. Как показывает практика,
качество оценок в большей степени зависит от параметра сглаживания, нежели
от вида ядерной функции, поэтому так важно выбирать оптимальное значение h .
Мы строим комбинированный алгоритм метода подстановки и кросс-проверки в
зависимости доза-эффект. Показано, что в условиях непрямых наблюдений этот
алгоритм приводит к состоятельным асимптотически нормальным оценкам
оптимального значения параметра сглаживания. Причем указанный метод
приводит к меньшему риску оценивания, чем метод кросс-проверки или метод
подстановки.
6
Построение модели зависимости доза-эффект
1.
В данном параграфе мы строим статистическую модель зависимости дозаэффект, то есть математическую конструкцию, формализующую исходные
объекты статистической задачи. Основой модели будет следующее
представление: в организм вводится доза U . Пусть X есть латентная
переменная – порог чувствительности. Если U  X , то эффект от введенной
дозы присутствует, в противном случае, если U  X , то отсутствует. Введем
случайную величину (с.в.) W  I U  X   индикатор события U  X  , где
X  это минимальный уровень дозы, с которого начинается реакция
организма, U  введенная доза. Если U  X , то W  1 , если U  X , то W  0 .
Заметим, что величина X может принимать различные значения даже при
одинаковых условиях эксперимента, что объясняется индивидуальной
чувствительностью организма к вводимому препарату, состоянием организма
в целом и отдельных органов на момент эксперимента. Однако, для
однородных групп объектов наблюдения, будем считать X случайной
величиной. Мы рассматриваем модель, в которой распределение с.в. X ,
заданное функцией распределения F ( x)  P  X  x  , неизвестно. Такая модель
впервые предложена в работе М.С. Тихова и С.В. Криштопенко [1] и описана в
монографиях [2-4]. Мы рассматриваем эту модель для фиксированного и
случайного планов эксперимента, как для прямых, так и непрямых
наблюдений.
Задачей исследования является: по наблюдаемой последовательности пар
U ,W 
n
i
i
i 1
оценить неизвестную функцию распределения F ( x) . При этом нас
интересуют оценки, состоятельные, асимптотически нормальные и, по
возможности, эффективные. В нашем случае наблюдаются экспериментально
испытанные дозы U i и зарегистрированные эффекты Wi , а сама с.в.
X  ненаблюдаема, поэтому методы классической математической статистики
здесь трудно применить, нужен иной подход. Такой подход основан на
U и X независимы, то условное
следующем замечании. Если с.в.
математическое ожидание с.в. W при фиксированном значении дозы U (то
есть при U  x ) оказывается равным функции распределения с.в. X :
E W | U  x  = P W  1| U  x   P  X  U | U  x   P  X  x   F ( x) .
В общем же случае, условное математическое ожидание с.в. W
E W | U  x   P  X  x | U  x   F ( x | x) есть функция, которая называется
функцией эффективности. Таким образом, F ( x) является регрессией, и
поэтому для нее мы можем рассматривать непараметрические (в частности,
ядерные) оценки регрессии по наблюдениям
U ,W 
n
i
i
i 1
.
Пусть X1, X 2 ,..., X n – независимые и одинаково распределенные
случайные величины (н. о. р. с. в.) с неизвестной функцией распределения
7
F ( x) и плотностью распределения f ( x)  0 ; U1,U 2 ,...,U n – н. о. р. с. в.,
X i , i  1,..., n с неизвестным распределением G( x) и
независимые от
плотностью g ( x)  0 . Мы наблюдаем
последовательность одинаково
распределенных пар
U (n)  U i ,Wi  , i  1,2,..., n , где
Wi  I Ui  X i 
–
индикатор события Ui  X i  . Рассматривается задача оценивания функции
распределения F ( x) или ее квантиля x порядка 0    1 по выборке U (n) .
Квантиль порядка 1 2 , т.е. медиана распределения F ( x) , называется среднеэффективной (медианной) дозой и обозначается как ED50 .
Рассматриваемую модель будем интерпретировать как зависимость дозаэффект в схеме прямых наблюдений.
В большинстве случаев в экспериментальной практике определение
вводимых доз проводится, как правило, с погрешностями, иногда весьма
значительными. Такие наблюдения мы будем называть непрямыми. В задаче
доза-эффект для случайных планов эксперимента математическая модель в
схеме непрямых наблюдений имеет следующий вид.
Пусть измерения вводимой дозы U осуществляются с погрешностью  ,
имеющей плотность g ( x) , то есть вместо с.в. U наблюдается с.в. Y . Эта
ошибка может накладываться аддитивно, тогда Y  U   , при фиксированном
значении U  u распределение величины Y имеет плотность q( y  u ) . В
общем случае распределение ошибки описывается условной плотностью
q( y | u ) .
Имеем: X 1 , X 2 , ... , X n  н. о. р. с. в. с функцией распределения F ( x) ,
U1 , U 2 , ... , U n  независимые между собой и одинаково распределенные с.в.,
независимые от { X i ,1  i  n }, с неизвестной ф.р. G( x) , Y1 , Y2 ,...Yn  н.о.р.с.в. с
Q( y ) .
неизвестной
ф.р.
Мы
наблюдаем
повторную
выборку
Y( n )  {(Yi , Wi ),1  i  n} , где Wi  I (U i  X i ) есть индикатор события
U i  X i  , т.е. Yi  наблюдаемое значение, а реакция организма осуществляется
на величину U i .
Мы рассматриваем также фиксированные планы эксперимента, где будем
предполагать, что вводимые дозы ui известны заранее, т.е. являются
неслучайными величинами. Здесь также возможны ошибки измерений  i . В
Y ,W 
n
, где Y  u   , ошибки  i имеют
i
i i
плотность распределения g ( x) , величины доз ui фиксированы заранее, а
Wi  I  ui  X i   индикатор события ui  X i  .
таком случае мы имеем выборку
i
i
8
i 1
2. Непараметрическое оценивание распределений в зависимости
доза-эффект
Ведущую роль в формировании и развитии непараметрической теории
ядерного оценивания, в модели yt  m  xt    t , t  1,2,..., n , где наблюдаются
пары  xt , yt  , а  t  н.о.р. с.в., независимые от xt , сыграли исследования Э.А.
Надарая и Г.С. Ватсона (G.S. Watson), В.А. Епанечникова и многих других.
Методы непараметрического ядерного оценивания, которые мы будем
изучать, отличаются от методов, предложенных данными авторами, так как
они ориентированы на специфичность задачи, в которой изучаемая модель
имеет иной вид. Именно, модель наблюдений  ui , wi  , i  1,2,..., n мы не можем
представить в виде: wt  F  xt    t , поскольку слева стоит дискретная
случайная величина, а справа – непрерывная. Поэтому для установления
предельных распределений мы не можем использовать напрямую методы
вышеперечисленных работ, а используем моментные характеристики
рассматриваемых статистик.
Для зависимости доза-эффект в качестве оценки функции распределения
будем рассматривать ядерные оценки регрессии типа Надарая–Ватсона,
которые в схеме прямых наблюдений имеют вид:
S ( x)
,
(2.1)
Fn ( x)  2 n
S1n ( x)
при S1n ( x)  0 и Fn ( x)  0 , при S1n ( x)  0 .
Здесь
1 n
1 n
S1n ( x)   K h U i  x  , S2 n ( x)  Wi K h U i  x  .
(2.2)
n i 1
n i 1
Мы будем называть их NW  оценками.
Функция K ( x) есть, так называемая, ядерная функция (ядро),

1  x
K h ( x)  K   , h  ширина окна просмотра, K ( x)  0,  K ( x)dx  1.
h h

Для задачи оценивания плотности Епанечников показал, что оптимальное
(с точки зрения минимальности интегральной среднеквадратической ошибки)
ядро есть функция
3
K0 ( x)  1  x 2  I  x  1 ,
4
которая называется ядром Епанечникова.
Асимптотическое поведение NW  оценок для зависимости доза-эффект
изучено в работе [2]. В ней показано, что если h  cn1 5 и выполнены
некоторые условия регулярности, то NW  оценка является асимптотически
нормальной
d
nh  Fn ( x)  F ( x)  
 N  2a1 ( x), 12 ( x) 
n
9
с асимптотическим смещением
a1 ( x) 
f ( x) g ( x)  2 g ( x) f ( x)
,
g ( x)
и асимптотической дисперсией
F ( x) 1  F ( x)  K
 ( x) 
g ( x)
2
2
1
Можно также показать, что

 22 ( x)
g ( x)
.
d
nh  Fn ( x)   F * K h  ( x)  
 N  0, 12 ( x)  ,
n
т.е. оценка сближается со сверткой
 F * K h  ( x)
и
 Fn ( x) .
 F * Kh  ( x) 
n
Однако восстановление функции распределения F ( x) по оценке Fn ( x) для
конечных n в виде deconvolution представляет большие трудности.
Таким образом, если a1 ( x)  0 , то оценка Fn ( x) имеет ненулевое
асимптотическое смещение a1 ( x) , то есть не является
nh  состоятельной, а
предельная дисперсия оценки  12 ( x) зависит от значения плотности g ( x) в
точке x . Поэтому, если значение g ( x) близко к нулю, то предельная
дисперсия оценки Fn ( x) может оказаться довольно большой. Причина этого
состоит в том, что интервал ( x  h, x  h) имеет фиксированную длину 2h , и
если в него попадает мало значений с.в. U , то оценка имеет большую
дисперсию. Возникает вопрос: нельзя ли так модифицировать способ
оценивания, чтобы: 1) предельная дисперсия не зависела бы от плотности
распределения g ( x) , то есть сходилась бы к истинному распределению
равномерно; 2) устранить смещение a1 ( x ) .
Выход из этой ситуации состоит в том, что надо либо использовать такой
интервал, чтобы в него попало заданное количество наблюдений
( kNN  оценки), либо (что эквивалентно) фиксированную длину интервала
необходимо выбирать не на оси абсцисс, а на оси ординат (оценки Янга).
Оценки k ближайших соседей ( kNN  оценки) можно получить из оценок
Надарая–Ватсона, если взять ширину окна просмотра данных h специальным
образом, именно, чтобы в интервал ( x  h, x  h) попадало k выборочных
значений случайной величины U . Тогда величина h является случайной
величиной.
Будем рассматривать симметризованные оценки k ближайших соседей.
Именно, пусть x такое значение, что: F ( x)   (0    1) и {U n(i ) ,1  i  n} –
вариационный ряд, построенный по выборке U1,U 2 ,...,U n , а {Wn[i ] ,1  i  n} –
индуцированные порядковые статистики, т.е. если U n(i )  U j , то Wn(i )  W j , где
U n(i ) есть i  ая порядковая статистика. Кроме того, пусть h  h(n)  0 , nh  
при n   .
10
Рассмотрим последовательность ранговых номеров m  m(n) , такую что
m
 1 
   o
 , при n   . Пусть m1  m   k 2 , m2  m   k 2 , где  a  –
n
n


целая часть числа a . Положим h  U n( m2 )  U n( m1 ) и определим статистику
Fn ( x) 
S2 n ( x)
,
S1n ( x)
(2.3)
где
1 n
1 n [i ]
(i )
(2.4)
S1n ( x)   K h U n  x  , S2 n ( x)  Wn K h U n(i )  x  .
n i 1
n i 1
В работе Янга [14] для оценивания неизвестной функции распределения
по случайным планам наблюдений было предложено применять следующие
оценки
1 n [ j]
Fn ( x)  Wn K h  j n  Qn ( x)  ,
n j 1
где Qn ( x)  эмпирическая функция распределения, построенная по выборке
U1,U 2 ,...,U n , эти оценки называются оценками Янга, они были исследованы в
работах S.Yang [14] и W.Stute [13].
Для зависимости доза-эффект в работе М.С. Тихова [6] было показано
также, что оценки Fn ( x) сходятся по вероятности к функции распределения
F ( x) при n   для каждого фиксированного x . Однако результаты
имитационного моделирования показали наличие большого смещения на краях
распределения для выборок конечного объема. Поэтому лучше рассматривать
модифицированный вариант оценки Янга:
n
Tn ( x) 
W
[ j]
n
j 1
K h  j n  Qn ( x ) 
n
K  j
j 1
h
n  Qn ( x ) 
,
(2.5)
который исправляет указанный недостаток.
При случайном плане эксперимента в схеме непрямых наблюдений мы
используем аналог оценки Надарая–Ватсона, который имеет вид:
S ( x)
Fn ( x)  2 n
,
(2.6)
S1n ( x)
где
1 n
1 n
S1n ( x)   K hn Yi  x  , S2 n ( x)  Wi K hn Yi  x  .
(2.7)
n i 1
n i 1
Асимптотическое поведение оценок Надарая–Ватсона в схеме непрямых
наблюдений в зависимости доза-эффект также изучено в работе [2], где
11
показано, что если q( x) и m( x) дважды непрерывно дифференцируемы, то
оценка Fn ( x) при n   асимптотически нормальна



d
nh Fn ( x)  R( x) 
 N A( x), B 2 ( x) K
n
с асимптотическим смещением
A( x) 
2

m( x)q( x)  m( x)q( x)
 0,
q 2 ( x)
и асимптотической дисперсией
R ( x) 1  R( x)   2 ( x)
B ( x) 

.
q( x)
q( x)
Таким образом, предельная дисперсия оценки Fn ( x) зависит от плотности
q( x) , и при малых значениях q( x) она достаточно велика. Поэтому в схеме
непрямых наблюдений мы также будем применять kNN  оценки, чтобы
избавиться от плотности q( x) в знаменателе.
Пусть величины U i являются неслучайными, т.е. u1  u2  ...  un  выборка
с фиксированными упорядоченными значениями. Будем считать, что
a  ui  b , и, не умаляя общности, рассмотрим случай, когда a  0, b  1 .
Введем статистики
1 n
1 n
S1n ( x)   K h  ui  x  , S2 n ( x)  Wi K h  ui  x  .
n i 1
n i 1
i
В случае постоянного шага ui  они определяются по формулам
n
n
1
1 n
i

i

S1n ( x)   K h   x  , S2 n ( x)  Wi K h   x  ,
n i 1  n
n i 1

n

(2.8)
i

i

где Wi  I   X i   индикатор события   X i  .
n

n

Для неслучайного плана эксперимента NW  оценка определяется
следующим образом:
S ( x)
.
(2.9)
Fn ( x)  2 n
S1n ( x)
Для непостоянного шага ui  ui 1  ui в схеме прямых наблюдений в
качестве оценки функции распределения рассматриваются также оценки типа
оценок Пристли–Чао  PC  :
2
n 1
FPC ( x)    ui 1  ui Wi K h  ui  x  .
(2.10)
i 1
Данные оценки мы рассматриваем для случайных планов эксперимента в
схеме прямых наблюдений. Оценки PC для случайных планов ранее в
12
литературе не изучались. Определим оценку типа Пристли–Чао следующим
образом:
n 1
FPC ( x)   U n(i 1)  U n( i ) Wn[ i ] K h U n( i)  x  ,
(2.11)
i 1
где U  i  ая порядковая статистика, а Wn[i ]  i  ая индуцированная
порядковая статистика. Далее будет показано, что PC  оценки являются
состоятельными и асимптотически нормальными.
Для устранения асимптотического смещения оценок NW  , PC  и
kNN  оценок можно использовать двухшаговую процедуру, которая была
описана N.W. Hengartner в работе [10] для оценки плотности. Именно, при
случайных планах эксперимента в схеме прямых наблюдений:
1) зададим h0  C1n  , где 1 10    1 5 и вычислим ядерные оценки для
плотности g ( x) и произведения  ( x)  F ( x) g ( x) соответственно в виде:
1 n
1 n
*
*
(2.12)
g ( x)   K h0 (U j  x) ,  ( x)  W j K h0 (U j  x) .
n j 1
n j 1
g ( x)
 ( x)
2) возьмем h1  C2 n 1 5 и оценим отношения  ( x)  *
и  ( x)  *
с
g ( x)
 ( x)
помощью статистик
1 n
1
1 n
1
 ( x)   K h1 (U j  x) *
 ( x)  W j K h1 (U j  x) *
и
.
n j 1
g (U j )
n j 1
 (U j )
(i )
n
 ( x) 
1 n
1
W j K h1 (U j  x) *
. g ( x) , получим

n j 1
 (U j )
1 n
g * ( x)
g ( x)   ( x) g ( x)   K h1 (U j  x) *
,
n j 1
g (U j )
*
(2.14)
и соответственно,
1 n
 * ( x)
 ( x)   ( x) ( x)  W j K h1 (U j  x) *
.
n j 1
 (U j )
*
(2.15)
Пусть
n


1 n
V ( x)   K h1 U j  x  H j ( x) , где H j ( x) 
n j 1
*
1n
 K U
i 1
n
h0
 K U
i 1
h0
i
i
 x
U j

n


1 n
V ( x)  W j K h1 U j  x  M j ( x) , где M j ( x) 
n j 1
*
2n
W K U
i
i 1
n
h0
W K U
i 1
i
h0
Оценку для F ( x) определим следующим образом:
13
i
i
,
(2.16)
 x
U j

.
(2.17)
V2*n ( x)
.
(2.18)
F ( x)  *
V1n ( x)
При случайных планах эксперимента в схеме непрямых наблюдений,
*
n
когда наблюдается выборка
Y , W 
n
i
i
i 1
, kNN  оценки строятся аналогично
тому, как это сделано в схеме прямых наблюдений. А именно, пусть
l1  l  [k / 2], l2  l  [k / 2] . Тогда положим ширину окна просмотра данных
равной h  Yn(l2 )  Yn(l1 ) , где Yn(i )  i-я порядковая статистика.
Определим статистику
S ( x)
,
Fn ( x)  2 n
S1n ( x)
где
1 n
1 n
S1n ( x)   K h (Yi  x) , S2 n ( x)  Wn[i ] K h (Yi  x) .
n i 1
n i 1
Двухшаговая оценка для F ( x) определяется следующим образом:
Fn ( x) 
V2 n ( x)
,
V1n ( x)
(2.19)
(2.20)
(2.21)
где
n
1 n
V1n ( x)   K h1 Y j  x 
n j 1
 K Y  x 
h0
i 1
n
i
 K Y  Y 
h0
i 1
n
1 n
V2 n ( x)  W j K h1 Y j  x 
n j 1
i
,
(2.22)
j
W K  Y  x 
i
i 1
n
h0
i
W K  Y  Y 
i
i 1
h0
i
.
(2.23)
j
При фиксированных планах эксперимента в схеме прямых наблюдений
двухшаговая оценка функции распределения будет иметь вид:
n
1 n
 ( x)  W j K h1  j n  x 
n j 1
W K  i n  x 
i
i 1
n
h0
W K  i n  j n 
i
i 1
,
(2.24)
h0
а в схеме непрямых наблюдений:
n

1 n
 ( x)  W j K h1 Y j  x
n j i

W K  Y  x 
i 1
n
i
h0
i
W K  Y  Y 
i 1
i
h0
i
14
j
.
(2.25)
Условия и предположения
3.
В этом параграфе приведем условия на ядерную функцию (условия  K  ),
ширину окна просмотра данных (условия  H  ), функцию распределения и
плотность при случайном и фиксированном планах эксперимента (условия
 S  ,  N  ,  F  ).
Пусть K ( x)  ядерная функция.
Условия  K  .
 K1 Функция K ( x) неотрицательна, т.е. K ( x)  0, для любого x  R .
 K 2  Функция

K ( x) нормирована, т.е.
 K ( x) dx  1.

 K 3 K ( x)  четная функция, т.е. K ( x)  K ( x) .
 K 4  K ( x)  ограниченная функция, т.е. для любого
x  R имеет место
неравенство K ( x)  C1 .
 K 5  K ( x)  финитная функция, т.е. K ( x)  0 для x   B, B .
Из условий  K1 и  K 2  следует, что K ( x) является плотностью
распределения.
Для ядерной функции K ( x) определим следующие характеристики:
 
2

 x K ( x)dx ,
2


K
2

K
2
( x) dx .

В силу условий  K1   K 5 они существуют, т.е.  2   и K   .
Примерами ядерных функций, удовлетворяющих условиям  K1   K 5 ,
являются
3
2
 ядро Епанечникова K0 ( x)  1  x 2  I  x  1 , K  3 / 5,  2  1/ 5.
4
2
15
2
 квартическое ядро K1 ( x)  1  x 2  I  x  1 , K  5 / 7,  2  1 / 7.
16
Мы будем также использовать
2
K  1 / 2,  2  1 / 3.
 Равномерное ядро K 2 ( x)  1 / 2,  1  x  1,
2
K
 Треугольное ядро K3 ( x)  1 | x |,  1  x  1 ,
 Косинус-ядро K 4 ( x)  ( / 4)cos( x / 2),  1  x  1 ,
K
2
2
 2 / 3,  2  1 / 6.
  2 / 16,  2  ( 2  8) /  2 .
 Лапласа ядро K5 ( x)  (1 / 2)exp( | x |),    x   ,
K
 Гауссово ядро K 6 ( x)  (1 / 2 )exp( x 2 / 2),    x   ,
K
2
 1 / (2  ),  2  1.
15
2
 1 / 4,  2  2.
Пусть h  h(n)  ширина окна просмотра данных.
Условия  H  .
 H1 Ширина окна h стремится к нулю, а произведение nh стремится к
бесконечности, при больших значениях n , т.е. h  h(n)  0 , nh   при
n .
Примером числовой последовательности, удовлетворяющей условию
 H1 , является h  cn1 5 , c  некоторая положительная константа, поэтому
далее всюду мы будем предполагать, что выполняется следующее условие
 H 2 Ширина окна h сходится к нулю со скоростью n 1 5 , т.е. h  cn1 5
при n   .
 H 3 При n   мы берем k  [n4 5 ] .
 H 4
h0  C1n  ,
где
 1 1
, ,
 10 5 
 
h1  C2 n 1 5 ,
C1, C2 
некоторые
константы ( n   )
Ясно, что при выполнении условия  H 4  выполняется условие
h
 H 5 h1  0 , h0  0 , nh1   , nh 0   , 1  0 при n   .
h0
1
 o(1) .
 H 6
nh1h20
Условие  H1 означает, что по мере получения большего количества
информации из выборки, т.е. при n   , усреднение данных происходит по
более узкой области ( h  0 ), но в то же время количество «локальной
информации» ( nh ) должно увеличиваться.
При построении kNN  оценки мы выбираем ширину окна так, чтобы в
интервал ( x  h, x  h) попало k элементов выборки, где k имеет порядок n4 5 ,
т.е. удовлетворяет условию  H 3 .
При построении двухшаговой оценки функции распределения нам
понадобится вспомогательная величина ширины окна просмотра h0 , скорость
сходимости к нулю у которой ниже, чем у h1 , а именно выполняется условие
 H 4 .
При доказательстве асимптотической нормальности оценки квантиля нам
понадобится, чтобы h0 и h1 удовлетворяли условию  H 6  .
Для случайных планов экспериментов в схеме прямых наблюдений, где
 X i ,Ui  , i  1,2,..., n – н.о.р.с.в. с совместной абсолютно непрерывной
функцией распределения F ( x)G(u ), ( x, u ) R 2 и плотностью
выполняются следующие предположения.
16
f ( x) g (u )  0
Условия  S  .
 S1 Плотность с.в. U  функция g ( x)  0 непрерывна, ограничена и
имеет ограниченные производные до третьего порядка включительно.
 S 2  Функция F ( x) g ( x) непрерывна и ограничена, имеет ограниченные
производные до третьего порядка включительно.
Примерами функций, удовлетворяющих условиям  S1 ,  S 2  являются
функции распределения и плотности нормального, логистического и
логнормального распределений.
В схеме непрямых наблюдений, где  X i ,Yi ,Ui  , i  1,2,..., n – н.о.р.с.в. с
совместной
абсолютно
непрерывной
функцией
распределения
3
и
совместной плотностью распределения
F ( x)G( y, u), ( x, y, u) R
f ( x) g ( y , u)  0 . Предположим, что пары ( Yi , U i ) имеют совместную и
маргинальные
плотности
g (u )   g ( y, u ) dy  0
распределения
соответственно.
g ( y, u ) ,
Определим
q ( y )   g ( y, u ) du  0 ,
условную
плотность
распределения q ( y | u)  g ( y , u ) / g (u) , и пусть g (u | y)  g ( y , u ) / q( y) 
условная плотность распределения величины U при условии, что Y  y .
Обозначим m( x) 




m( x )
 F (u ) g ( x, u )du и R( x)   F (u ) g (u | x)du  q( x) .
Условия  N  .
 N1 Функция q( y ) непрерывна и ограничена, имеет ограниченные
производные до третьего порядка включительно;
 N 2  Функция m( x) непрерывна, ограничена и имеет ограниченные
производные до третьего порядка включительно.
g ( x, u )  плотность двумерного нормального
Например, если
распределения, а F ( x)  функция распределения нормального закона, то
условия  N1 ,  N 2  будут выполнены.
Для фиксированных планов эксперимента нам понадобятся условия
f ( x)  плотности распределения с.в. X и
конечной вариации функции
ядерной функции K ( x) .
Пусть
n 1
V ( f )  sup  f i 1   f i   вариация
P
функции
f ( x) ,
где
i 0
всевозможных
P  множество
a  0  1  ...   n  b .
разбиений
17
отрезка
[a, b]
точками
 F1
Условия  F  .
K ( x) имеют
Функции f ( x) и
конечные вариации, т.е.
V ( f )  , V  K    .
непрерывно дифференцируема и имеет
 F 2  Функция f ( x)  0
ограниченные производные до второго порядка включительно.
Заметим, что если производная функции f ( x) ограничена, то вариация
V ( f ) конечна. Кроме того, V ( f )   f ( x) dx .
Условия  G  .
 G1 Функция g ( y) четырежды непрерывно дифференцируема и имеет
ограниченные производные до четвертого порядка включительно;
 G 2  Функция m( x) трижды непрерывно дифференцируема и имеет
ограниченные производные до третьего порядка включительно.
18
4.
Состоятельность и асимптотическая
kNN  оценок в схеме прямых наблюдений
нормальность
Будем рассматривать симметризованные оценки k ближайших соседей
(2.3), (2.4).
В следующей теореме утверждается состоятельность kNN  оценок.
Теорема 4.1. Пусть выполняются предположения  K  ,  S  ,  H 3 .
Тогда для каждого фиксированного x Fn ( x) есть состоятельная оценка
функции распределения F ( x) , т.е.
S2 n ( x)
p

 F ( x) .
(4.1)
n
S1n ( x)
Подробное доказательство этой и других теорем приведено в [15].
В следующих двух теоремах устанавливается асимптотическую
нормальность статистик S1n ( x) и S2 n ( x) и оценки Fn ( x) функции
распределения F ( x) .
Теорема 4.2. Пусть выполнены условия  K  ,  S  ,  H 3 .
Тогда
 g ( x) 2 2
2
d
k S1n ( x)  g ( x) 

N
,
g
(
x
)
K
(4.2)

,
n
2
2
g
(
x
)


Fn ( x) 


  F ( x) g ( x)  2

2
2

k S2 n ( x)  F ( x) g ( x) 
N
, g ( x) F ( x) K  .
(4.3)


2 g 2 ( x)


Теорема 4.3. Пусть выполнены  K  ,  S  ,  H 3 .
Тогда
 2 f ( x) g ( x)  f ( x) g ( x) 2
2
d
k Fn ( x)  F ( x) 
N 
 , F ( x) 1  F ( x)  K .
n
3
2 g ( x)


Для доказательства аналогичных свойств двухшаговых оценок нам
потребуется асимптотическое представлении статистик V1*n ( x), V2*n ( x) .


Используя

d
n

определение
g ( x )  E  g * ( x )  ,  ( x )  E  * ( x )  .
функций
g * ( x)
и
 * ( x) ,
обозначим
Теорема 4.4. Пусть выполнены условия  K  ,  S  ,  H  . Если h0 , h1
nhi
 , i  0,1 при n   , то
удовлетворяют условию hi  0,
ln n
 ln n 
1 n
g ( x)
V1*n ( x)   K h1 U j  x
 Op 
 nh 
n j 1
g (U j )
0 

и


19
 ln n 
1 n
 ( x)
.
W j K h1 U j  x
 Op 

 nh 
n j 1
 (U j )
0 

В
следующих
теоремах
устанавливается
состоятельность,
асимптотическая нормальность и nh  состоятельность оценки Fn* ( x) .
Теорема 4.5. Пусть выполняются предположения  K  ,  S  ,  H 4  .
Тогда
V2*n ( x)
p
*
Fn ( x)  *

 F ( x) .
n
V1n ( x)
Теорема 4.6. Пусть выполнены предположения  K  ,  S  ,  H 4  .
V2*n ( x) 
Тогда


k  Fn* ( x)  F ( x)  сходится по распределению в точке x к
нормальной случайной величине с ожиданием, равным нулю, и дисперсией
2
F ( x) 1  F ( x)  K , т.е.

d
k  Fn* ( x)  F ( x)  
 N 0, F ( x) 1  F ( x)  K
n
20
2
.
Оценивание эффективных доз
5.
Оценку доз
U ,W  , 1  i  n
i
i
в диапазоне значений 0    1 по выборке
будем производить, оценивая
квантили функции
ED100 
распределения F ( x) . Именно, пусть x  F 1 ( )  квантиль порядка 0    1
функции распределения F ( x) , где плотность распределения f ( x)  0 . В силу
строгого возрастания F ( x) квантиль x определяется однозначно.
Построим оценку для квантиля порядка  строго монотонной функции
распределения F ( x) , т.е. для квантильной функции F 1 ( ), 0    1 , считая,
1
1
что F (0)  0, F (1)  1. Проведем сначала эвристические рассуждения,
заменяя для достаточно малого h   функцию Дирака функцией K h ( x) .
Имеем:



dy
 (u  y )
1
1
1
1
F ( )  F ( )  F (0)   d  F ( y )   

dy
du 


1
1
f
F
(
y
)
f
F
(
y
)

 0


0
0



K h (u  y )
1 n
  dy 
du   dx  K h  F ( x)  u  du    K h  F (i / n)  u  du .
n 0 i 1
f  F 1 (u ) 
0
0
Подставив теперь в последнем выражении вместо F ( x) ее оценку Fn ( x) , а
вместо i n равномерно распределенные на [0, 1] величины, получим оценку
для F 1 ( ) . Именно, рассмотрим для F (0)    F (1) оценку
*1
n
F

n
где U i  R [0,1] , Fn ( x) 
W K U
i 1
n
i
h1
 K U
i 1


1 n
( )    K h0 Fn U i   u du ,
n  i 1
(5.1)
h1
i
i
 x
 x
.
Тогда
 1 
1

.
Fn*1 ( )  x   2h02  F 1 ( )   o  h20   O 
 nh 
2
 0
(5.2)
В следующей теореме мы утверждаем, что оценка квантиля Fn*1 ( )
асимптотически нормальна при n   .
Теорема 5.1. Пусть для всех F (0)    F (1)
плотность f  x 
положительна и выполнены условия  H 5 ,  H 6  .
Тогда
21
  1    22 ( ) 
nh 0  F ( )  b  
 N  0,
,
g
(
x
)
f
(
x
)




2
  1    K 
h
d

N
(ii) если lim 0  0 , то nh 0  Fn*1 ( )  b  
 0,
,
n 
2
n h


g
(
x
)
f
(
x
)
1

 

1
f ( x) g ( x)  2 f ( x) g ( x)
 1
где b  x   2 h12  F 1 ( )    2 h02
,
2
2
g  x
h
(i) если lim 0  c , то
n h
1
*1
n
d
n
 22 ( )   K  w  cf ( x )(v  u )  K ( w) K (u ) K (v)dwdu dv .
Оценивание эффективных доз с помощью пакета SPSS, программ Probit
Analysis и Dose-Effect происходит следующим образом.
В основу пробит-анализа положено априорное предположение о
соответствии функции эффективности закону нормального распределения.
Уравнение, при помощи которого можно любое значение эффективной дозы x
выразить через нормированное отклонение t имеет вид:
x  ED50
.
t
Sx
Следовательно, любому значению t , выраженному через интегральную
t
1 z2 2
e dz соответствует
функцию нормального распределения, F (t )  
2

значение вероятности эффекта, выраженное через ту же функцию. Значения
пробитов определяют как y  t  5 . Таким образом, по своей сути пробитанализ есть линейная регрессионная модель. Поэтому когда функция
эффективности имеет нелинейный вид, использование пробит-методов в
различных модификациях не дает надежных результатов.
Одна из первых модификаций пробит-анализа принадлежит Литчфилду и
Вилкоксону. Расчет средне-эффективной дозы проводился следующим
образом. На логарифмически-пробитную сетку наносят экспериментальные
точки, соответствующие логарифмам доз и пробитам эффектов. Между этими
экспериментальными точками проводят прямую. Адекватность построенной
линейной модели проверяется с помощью критерия хи-квадрат. После чего из
графика определяются логарифмы эффективных доз ED50 , ED16 , ED84 .
Величина среднеквадратического отклонения в случае нормального
распределения X находится по формуле
 ED84  ED50    ED50  ED16  ,
S
2
а доверительный интервал имеет вид ED50  f ED50 , где f ED50 рассчитывается как
, и n  число наблюдений, для которых ожидаемый эффект от
испытанных доз находится между пробитами 4 и 6.
f ED50  S 2.77
n
22
Другая модификация пробит-анализа, получившая
широкое
распространение, была дана Д. Финни (см. [8]), и была включена в 1987 году в
государственную фармакопею СССР. В методе Финни реализовано построение
линейной регрессионной модели по взвешенным значениям независимой
переменной. Доверительные интервалы рассчитываются по формуле
Драйпера–Смитта:
t
S 1  g  ED50  x 
g  ED50  x 
.
ED50 
 1 2

1 g
Skxx
b1 (1  g ) Skw
Линейная регрессионная модель строится обычно по методу наименьших
квадратов и определяет зависимость между дозами xi и «весами» эффектов zi :
zi  b0  b1 xi .
Значение zi определено числом наблюдений в группе ki и весовым
коэффициентом wi , который рассчитывается как
2
fi 2
,
wi 
Fi 1  Fi 
1  12  yi 52
e
, Fi  F  yi  5 .
2
Для вычисления доверительных интервалов используются следующие
величины:
где f i 
n
x
k w x
i 1
n
i
i i
k w
i 1
i
n
n
i 1
i 1
, Skw   ki wi , Skxx   ki wi  xi  x  , g 
i
2
t12 2 s 2
b1Skxx
,
где S  стандартная ошибка линейной регрессионной модели, t p  квантиль
порядка p распределения Стьюдента с n  1 степенью свободы.
Таким образом, доверительный интервал вычисляется на основе линейной
модели регрессии, причем функция эффективности искажается за счет
использования весовых коэффициентов. Поэтому даже если предположить
наличие линейной зависимости доза-эффект, применение пробит-анализа
может быть оправдано только для значений средне-эффективной дозы. Кроме
того, если исходные данные измерены с ошибкой, то после «взвешивания»
ошибка конечного результата становится непредсказуемой.
Из вышесказанного следует, что традиционные параметрические методы,
применяемые для оценивания функции эффективности и определения
категорий эффективных доз, приводят в большинстве случаев к неточным
результатам. Поэтому мы используем непараметрические ядерные оценки в
зависимости доза-эффект.
23
6. Оценки Пристли–Чао для случайных планов эксперимента
Рассмотрим следующие оценки
FPC ( x)  S2 n ( x) ,
n 1
где S2 n ( x)  Wn[i ] U n(i 1)  U n(i )  K h U n(i )  x  .
i 1
Подобные оценки были введены Пристли и Чао в работе [12] для оценки
регрессии временного ряда неслучайного плана эксперимента. Мы используем
их для оценки функции распределения в зависимости доза-эффект при
случайном плане эксперимента и устанавливаем ее состоятельность и
асимптотическую нормальность.
Обозначим U (i )  U n(i ) , W [i ]  Wn[i ] ,
F ( x) 1  F ( x)  K
 
,  F * K h  ( x)   F (u ) K h ( x  u )du .
g ( x)
Идея построения оценок PC основана на следующем замечании. Пусть
x  точка, расположенная между U (i ) и U (i 1) . Тогда
1
1
U (i 1)  U (i )
U (i 1)  U (i )
1 1
 dG ( x) 


и U (i 1)  U (i )  
.
 
( i 1)
(i )
g ( x)  dx 
1n
n g ( x)
G U   G U 
2
2
1
n
n
 U (i )  x 
U j  x 
1
1
[i ]
W
K

W
K
Поэтому FPC ( x) 


j



.
nhg ( x) i 1
h
nhg
(
x
)
h
j

1




Теорема 6.1 устанавливает асимптотическую нормальность оценки
FPC ( x) .
Теорема 6.1. Пусть выполнены предположения  K  ,  S  .
Тогда
d
nh FPC ( x)   F * K h  ( x) 
 N  0,2 12 ( x)  ,
n


где  F * Kh  ( x) есть свертка функций F ( x) и K h ( x) .
1 n1 [i 1]
 W [i ] U (i 1)  U ( i )  K h U ( i )  x  .
Рассмотрим статистику  n ( x)   W
2 i 1
Из Теоремы 6.1 получаем следствие:
 3

d
nh  n ( x)   F * K h  ( x) 
 N  0,  12 ( x)  .
n
 2

2
Для оценивания дисперсии  1 ( x) мы используем статистику
2
2
n n1 [i 1]
2
 1 ( x)   W  W [i ]  U (i 1)  U (i )  K h U (i 1)  x  K h U (i )  x  .
4 i 1
В следующей теореме утверждается, что оценка  12 ( x) является
состоятельной оценкой дисперсии  12 ( x) .


24
Теорема 6.2. Пусть выполнены предположения
n 
p
 12 ( x)  12 ( x) .
25
 K ,  S  .
Тогда при
7. kNN  оценки в схеме непрямых наблюдений и их асимптотический
анализ
Следующая теорема утверждает состоятельность оценок (2.19), (2.20).
Теорема 7.1. Пусть выполняются условия  K  ,  H  ,  N  .
Тогда
S ( x)
p
Fn* ( x)  2 n

 R( x) .
n
S1n ( x)
(7.1)
p
p
 0 и S2 n ( x)  m( x) 
 0 , то
Если мы покажем, что S1n ( x)  q ( x) 
n
n
S ( x)
получим, что разность 2 n
 R( x) сходится по вероятности к нулю при
S1n ( x)
p
 0 для каждого фиксированного x .
n   , т.е. Fn* ( x)  R( x) 
n
Доказательство этих фактов производим разлагая в ряд логарифм
характеристических функций
статистик S1n ( x) и S 2 n ( x ) , и
оценивая
слагаемые, используя условия  K  ,  H  ,  N  .
В следующей теореме устанавливается асимптотическая нормальность
статистик S1n ( x) и S 2 n ( x ) .
Теорема 7.2. Пусть выполняются условия  K  ,  H  ,  N  .
Тогда
 q( x) 2 2
2
d
k  S1n ( x)  q ( x)  
N  2
, q ( x) K  ,
(7.2)
n
 2q ( x )

 m( x) 2
2
k  S2 n ( x)  m( x)  
N 
,
m
(
x
)
q
(
x
)
K
(7.3)
.
2
 2q ( x )

Теорема 7.3. Пусть выполняются условия  K  ,  H  ,  N  .
Тогда
 m( x)q( x)  m( x)q( x) 2
2
d
k  Fn* ( x)  R( x)  

N

,
R
(
x
)
1

R
(
x
)
K




n
2q 4 ( x )


(7.4).
Из этой теоремы мы делаем вывод об асимптотической нормальности
оценки Fn* ( x) функции распределения F ( x) .
Таким образом, kNN  оценка является асимптотически нормальной, и
m( x)q( x)  m( x)q( x)
если
 0 , то имеет не равное нулю асимптотическое
2q 4 ( x )
 2 не зависит от плотности
смещение, а ее предельная дисперсия
распределения q( x) , хотя и несколько больше, чем дисперсия kNN  оценок в
схеме прямых наблюдений.
d
n
26
Двухшаговые kNN  оценки функции распределения в схеме непрямых
наблюдений определены посредством равенств (2.21)-(2.23).
Обозначим
n
1 n
~ ( x)  1 W K (Y  x) ,
q~( x)   K h0 (Y j  x) и m

j
h0
j
n j 1
n j 1
q ( x)   ( x)q( x) 
1 n
q ( x)
K h1 (Y j  x)
,

n j 1
q Y j 
1 n
m( x )
m( x)   ( x)m( x)  W j K h1 (Y j  x)
,
n j 1
m Y j 
q ( x)  E  q ( x)  и m( x)  E  m( x)  .
Теорема 7.4. Пусть выполнены условия  K  ,  N  ,  H  . Если h0 , h1
nh
удовлетворяют условию hi  0, i  , i  0,1 , то
ln n
 ln n 
1 n
q ( x)
V1n ( x)   K h1 U j  x
 Op 
 nh 
n j 1
q (U j )
0 

и
 ln n 
1 n
m( x)
.
V2 n ( x)  W j K h1 U j  x
 Op 
 nh 
n j 1
m(U j )
0 

Теорема 7.5. Пусть справедливы предположения  K  ,  N  ,  H  .
Тогда
V ( x)
p
Fn ( x)  2 n

 R( x) .
n
V1n ( x)
(7.5)
В следующей теореме установлено, что при n   статистики V1n ( x) и
V2 n ( x) асимптотически нормальны с нулевым математическим ожиданием.
Теорема 7.6. Пусть выполнены условия  K  ,  N  ,  H  . Кроме того,
q( x)
существует такое L3 , что третья производная от
удовлетворяет
q ( x)




 q( x) 
неравенству 
  L3 , где q ( x)  E  q ( x)  .
 q ( x) 
Тогда:

k V


,
( x)  m( x)  
 N  0, m( x)q( x) K  .
d
k V1n ( x)  q( x) 
 N 0, q 2 ( x) K
n
2n
2
2
d
n
27
(7.6)
(7.7)
Покажем теперь,
что при n   оценка Fn ( x)
нормальна.
Теорема 7.7. Пусть выполнены условия  K  ,  N  ,  H  .
Тогда

k Fn ( x)  R( x)

асимптотически
сходится по распределению в точке
x к
нормальной случайной величине с математическим ожиданием, равным нулю,
2
и дисперсией равной R( x) 1  R( x)  K :



d
k Fn ( x)  R( x) 
 N 0, R( x) 1  R( x)  K
n
2
.
(7.8)
Таким образом, предельное распределение построенных оценок является
нормальным, а двухшаговая процедура для схемы непрямых наблюдений
приводит к получению асимптотически несмещенных равномерно сходящихся
к распределению оценок (2.21) с такой же, как у оценки (2.19) предельной
дисперсией. Однако, эта дисперсия несколько больше, чем у 4 kNN  оценок в
схеме прямых наблюдений.
28
8. Оценки Надарая–Ватсона при постоянном шаге деления в схеме
прямых и непрямых наблюдений
Рассмотрим случай, когда X 1 , X 2 , ... , X n  независимые и одинаково
распределенные случайные величины с функцией распределения F ( x) ,
u1  u2  ...  un .
u1 , u2 , ... , un  фиксированные
величины доз, причем
Наблюдается выборка
u ,W 
n
i
i
i 1
, где Wi  I  ui  X i   индикатор события
ui  X i  . В этом случае E W   F ui  .
Оценка типа Надарая–Ватсона (2.8) для постоянного шага деления, т.е.
i
ui  , была построена в параграфе 2.
n
Пусть
1 n
Pn  u1, u2 ,..., un  , D*  Pn   sup  I J ( x)dx   I J ( xi ) .
n i 1
J [0, a )  A A
n 1 
1
1 2
,1 имеем: D*  Pn  
Для последовательности Pn   , ,...,
.
n 
2n
n n
Нам понадобится неравенство Коксмы–Хлавки [11]:
1
1 n
f
(
u
)
du

f (ui )  V ( f ) D*  Pn  ,

0
n i 1
(8.1)
где V ( f )  вариация функции f .
Тогда
1
1 n
1
f
(
u
)
du

f (i n)  V ( f ) .

0
n i 1
2n
(8.2)
В следующей теореме утверждается состоятельность оценки (2.8).
Теорема 8.1. Пусть выполняются условия  K  ,  F  ,  H  .
Тогда
S ( x)
p
Fn ( x)  2 n

 F ( x) .
n
S1n ( x)
Следующая теорема устанавливает асимптотическую нормальность
оценки Fn ( x) функции распределения F ( x) . Поскольку S1n 
1, то в
n
качестве оценки F ( x) можно взять S 2 n ( x ) , т.е. положим Fn ( x)  S2 n ( x) .
29
Теорема 8.2. Пусть выполнены условия  K  ,  F  ,  H  . Пусть, кроме
f ( x) f ( x) f ( x)
того,
интегрируемые
функции
и
,
 ограниченные
F ( x)
F ( x)
  f ( x)  dx   .
4
Тогда
d
nh Fn ( x)  F ( x) 
 N  a( x), 2 ( x)  ,
n


(8.3)
где
f ( x) 2
a( x) 
2
и  2 ( x)  F ( x) 1  F ( x)  K .
2
(8.4)
1 n
Пусть  ( x)  E  ( x)  , где  ( x)  W j K h0  j n  x  .
n j 1
Следующая теорема устанавливает асимптотическую нормальность
двухшаговой оценки  ( x) (2.24) функции распределения F ( x) .
F ( x)
Теорема 8.3. Пусть функции  ( x) и
непрерывно дифференцируемы
 ( x)
и имеют ограниченные производные до второго порядка включительно и
выполняются условия  K  ,  F  ,  H  .
Тогда
d
nh1  ( x)  F ( x)  
 N  0, 2 ( x)  .
n
В схеме непрямых наблюдений мы будем иметь дело с наблюдениями
Yi  ui   i с ошибкой  i , которая имеет плотность распределения g ( y ) . Мы
наблюдаем повторную выборку Y( n )  {(Yi , Wi ),1  i  n} , где Wi  I ( ui  X i )
есть индикатор события ui  X i  .
Пусть m( x)   F ( y ) g ( x  y ) dy .
Определим статистики
1 n
1 n
S1*n ( x)   K h Yi  x  , S2*n ( x)  Wi K h Yi  x  ,
n i 1
n i 1
где h  cn1 5 , c  некоторая заданная положительная константа.
По выборке
Y ,W 
n
i
i
i 1
построим оценку для F ( x) как отношение
статистики S2*n ( x) к S1*n ( x) , т.е.:
S2*n ( x)
F ( x)  *
,
S1n ( x)
*
n
полагая Fn* ( x)  0 , если S1*n ( x)  0 .
30
(8.5).
В следующих теоремах утверждается, что оценка Fn* ( x)
состоятельная и асимптотически нормальная оценка функции m( x) .
Теорема 8.4. Пусть выполняются условия  K  ,  H  ,  G1 ,  G 2  .
Тогда
S2*n ( x)
p
*
Fn ( x)  *

 m( x ) .
n
S1n ( x)
есть
Теорема 8.5. Пусть выполняются условия  K  ,  H  ,  G1 ,  G 2  .
Тогда

d
nh  S1*n ( x)  1 
 N 0, K
n
2
,
(8.6)
 2

2
d

nh  S2*n ( x)  m( x)  

N
m
(
x
),
K
m
(
x
)

.
n 
2


Теорема 8.6. Пусть справедливы  K  ,  H  ,  G1 ,  G 2  .
Тогда
 2

2
d
2

nh  Fn* ( x)  m( x)  

N
m
(
x
),
K

(
x
)

.
n
2


(8.7)
(8.8)
где  2 ( x)  m( x) 1  m( x)  .
В следующей теореме мы устанавливаем асимптотическую нормальность
двухшаговой оценки  ( x) (2.25) неизвестной функции распределения F ( x) .
Теорема 8.7. Пусть выполняются условия  K  ,  G  ,  H  . Пусть функция
g ( x)
непрерывно
дифференцируема
и
ее
вторая
производная
g ( x )  ограниченная функция и 1 10    1 5 .
Тогда


d
nh1  ( x)  F ( x)  
 N 0, K m( x) 1  m( x)  .
n
2
31
(8.9)
9. Устранение погрешности наблюдений
В данном параграфе мы рассмотрим задачу устранения погрешности
измерений когда:
1) план случайный, погрешность  имеет известное нормальное
распределение N  0,  02  , распределение случайной величины X  нормальное
N  a ,  2  , параметры  a ,  2  – неизвестны;
2) погрешность  имеет известное нормальное распределение N  0,  02  ,
функция распределения F ( x) случайной величины X  неизвестна;
3) погрешность  имеет известное нормальное распределение N  0,  02  ,
распределение случайной величины U – нормальное N  a ,  2  , параметры
 a ,   – неизвестны, распределение случайной величины X  неизвестно.
2
9.1. Если ошибка  i имеет нормальное распределение N  0, 02  , то из
nh  S1*n ( x)  1 и
теоремы 8.5 заключаем, что нормированные разности
nh  S 2*n ( x )  F ( x ) 

имеют
асимптотически
нормальные

 2
2
f ( x), F ( x) K  соответственно.
и N
N 0, K
 2

Пусть распределение случайной величины U
распределения
 x2 
1
g ( x) 
exp   2  .
2
 2 0 
2
распределения
Пусть
1
Ô ( x) 
2
с.в.
x
e

t2
2
X  N  a, 2  ,
имеет
плотность
 xa
F (t )  P( X  t )  Ô 
,
  
т.е.
dt .

Тогда m( x)   F (t ) g ( x  t )dt  свертка двух нормальных распределений.
Применяя теорему Фубини, заключаем, что
m( x) 



f (t ) g ( x  t )dt 



1
e
2

( t  a )2
2 2
1
e
2 0


( x t ) 2
2 02
dt 
1
2  02   2 
.
x
Следовательно, m( x) 



1
2  02   2 
32
e
( t  a )2

2  02  2

 xa
dt   
  2  2
0


и



e
( x  a )2

2  02  2

 2
2
nh  S ( x)  F ( x)  
 N  m( x), m( x) K  .
 2

Теперь из Теоремы 8.6 заключаем, что
 2
2
d

nh  m( x)  F ( x)  

N
m
(
x
),
m
(
x
)
1

m
(
x
)
K



,
n 
 2

*
S ( x)
где m( x)  Fn* ( x)  2*n
.
S1n ( x)
Таким образом, установлено, что при нормальном распределении с.в. X
N  a, 2  и известной дисперсии  02 с.в.  i  N  0, 02  , предельное
d
n
*
2n
распределение оценок получилось аналогичным тому, что и в схеме прямых
наблюдений. Отличие состоит в том, что дисперсии распределений m( x) и
F ( x) различны.
Чтобы найти оценку m( x) , вычислим первый и второй начальные
моменты 1 и  2 :

0
 
  x dm( x)   (1  m( x)) dx   m( x) dx  1 ,
 
0

 
 x 2 dm( x)   .
2
 
 
Положим  2  2  12 . Тогда неизвестные параметры a и  2 найдем из
системы уравнений


2
2

 a   m ( x)  1 ,
 a  1  m( x),

2
2


 2   2   2,
  2   2   2.
0
0


Функцию  n ( x) определим соотношением
m( x  h )  2 m ( x )  m ( x  h )
 n ( x)  m( x) 
.
h2
Заметим, что если с.в. X имеет функцию распределения F ( x) и функцию


0
0
времени жизни S ( x)  1  F ( x) , то  x dF ( x)   S ( x ) dx .
Далее,
2
2
2
 

 dF ( x)

 dS ( x)   
  1 
S
(
u
)
du


S
(
u
)
du

S
(
u
)
du





 d

2
2
0  x
0  x
 
 S ( x)
 S ( x) 0  x
  S ( x) 

2








1
2
2
   S (u ) du  

 S (u) du  S ( x) dx    2 x x S (u ) du  20 xS ( x) dx 
x
 S ( x) 0 0 S ( x) x
0
33


     S ( x) d ( x )      x 2 dF ( x) .
2
2
2
0
0
Поэтому эмпирические моменты можно считать, используя приведенные
соотношения и подставляя вместо теоретической функции распределения
эмпирическую.
Найденные значения a и  2 подставим в функцию распределения с.в. X
и получим оценку этой функции распределения.
Отметим, что такой подход мы использовали в том случае, когда функция
распределения случайной величины X имеет нормальное распределение.
9.2. Пусть Y  U    сумма независимых случайных величин U и  ,
причем распределение  – нормально с нулевым математическим ожиданием
и известной дисперсией  02 , а случайная величина U имеет неизвестную
плотность g (u )  0 . Для устранения погрешности  мы воспользуемся
следующей идеей работы Э. Надарая [5]. Кривая регрессии U по Y имеет вид:
 ( x)
,
u ( x)  E (U | Y  x) 
q ( x)
( x u )2

( x u )2



2
2
1
1
где  ( x)   u g (u )
e 2 0 du , q( x)   g (u )
e 2 0 du .
2 0
2 0


Найдем условное распределение Y при условии U  u . Имеем
P (Y  y |U  u )  P (U    y |U  u )  P (u    y |U  u )  P (  y  u ) ,
поэтому условная плотность Y на U равна

1
e
2 0
Совместная плотность пары (Y ,U ) будет равна
qY |U ( y | u )  q ( y | u ) 
( y u )2
2 02
.
( y u )2

2
1
g ( y, u )  q ( y | u )  g (u ) 
e 2 0  g (u ) ,
2 0
а маргинальная плотность распределения величины Y будет равна

q( y ) 

 g ( y, u) du  



1
e
2 0
( y u )2
2 02
g (u ) du .
Кривая регрессии U по Y имеет вид:


( y u ) 2
2 02
1
e
g (u ) du
2

 ( x)
0
.
u ( x)  E (U | Y  x)  

q( x)
q( x)
С помощью этой кривой регрессии мы будет «исправлять» выборочные
данные и использовать их для оценки распределения величины X «без
ошибки».

34
Представим последнее соотношение в другом виде. Для этого рассмотрим
производную q( x) . Она равна
q( x) 



Отсюда
значит,
1  x u  
  2 e
2 0   0 
( x u )2
2 02
g (u ) du   x q( x)   ( x) .
q( x)
x
 ( x)
,
 2  2
q ( x)
 0  0 q( x)
q( x)
 x.
q ( x)
q ( x)
Пример 9.2.1. Пусть случайная величина Y имеет нормальное
распределение с неизвестным математическим ожиданием a и неизвестной
дисперсией  2 , ее плотность равна
 ( x)
  02

1
q( x) 
e
2
( x  a )2
2 2
.
Тогда
 2   02
 02
q( x)
xa
2 q( x )

x
xa 2 .
и 0
  ln q( x)    2
q( x)
2

q ( x)

Поскольку a и  2 неизвестны, то мы оценим их по выборке y1 , y2 , ... , yn с
помощью следующих статистик:
1 n
1 n
2
2
a  y   yi и   s   ( yi  y )2 .
n i 1
n i 1
В качестве приближения по выборочным данным мы рассмотрим
статистику
 ( x)
un ( x)   02 n
 x,
qn ( x)
1 n
q ( x  h)  qn ( x  h)
qn ( x)   K h ( yi  x) и n ( x)  n
где
.
n i 1
2h
Имеет место следующий результат.
Теорема 9.2.1. Пусть I  произвольный конечный интервал [a , b] на
прямой и выполнены условия  K  на ядро, nh2   , при n   , K ( x) 
функция с ограниченной вариацией   V ( K ) , плотность q( x) имеет до
третьего порядка непрерывные и ограниченные производные.
Тогда
p
sup | un ( x)  u ( x)|  0.
n 
xI
35
9.3. Рассмотрим случай, когда имеются наблюдения за Y  U   ; U ,  
независимы и имеют нормальные распределения соответственно N (a, 2 ) и
N (0, 02 ) ,  02  известна. Здесь условная плотность распределения q (u | y )
имеет нормальное распределение N ( 1 ( y ), 12 ) , где
a 02
y 2
 2 02
2
, 1  2
,
1 ( y)  2

 0   2  02   2
0  2
т.е.
 u  1 ( y ) 
1  x2
q (u | y )   
e .
 , где  ( x) 
1 
1
2

1 n
1 n
Пусть y   yi , s 2   ( yi  y )2 .
n i 1
n i 1
Предположим, что случайная величина Z имеет нормальное
N (  ,  2 ) с функцией распределения Ô (( x   ) /  ) ,
распределение
2
1
x
Ô ( x) 
  (t ) dt .

При n   последовательность {Fn (v), n  1} сходится к среднему
  (v )  
 u    1  u  1 (v) 
1
R (v )   Ô 

 du  Ô 

2
2
1 
   1 

   1
v
 02
Если 2


.


 02
1, то заменим 1  2 на 1 и потребуем, чтобы

2
 a 0

v 2
  2  2   2  2  a 
0
  Ô  x  a  .
Ô 0



  




2
2
a 0
v
 02   2
Отсюда 2

 x , значит, v  x 
a.
 0   2  02   2
2
Поскольку a и  2  неизвестны, то возьмем их оценки: a  y ,  2  s 2 .
Поэтому
s2
 02

.
v x 2
 y  x  (x  y) 2
s   02
s   02
 xa
Значение Fn (v ) будем использовать в качестве оценки Ô 
 в точке
  
x.
 02
Если условие 2

1 не выполнено, то v  найдем из уравнения
36
3

2 
v   1  2 0 2  ( x  y )  y ,

s   0 

где x  заданная точка функции распределения F ( x) .
37
10. Оценки Пристли–Чао при переменном шаге деления в
прямых наблюдений
схеме
Для переменного шага деления ui , 1  i  n в схеме прямых наблюдений в
качестве оценки функции распределения, в отличие от работы [12] можно
взять нормированную оценку типа Пристли–Чао
S ( x)
,
(10.1)
FPC ( x)  2 n
S1n ( x)
n
n
i 1
i 1
где S1n ( x)    ui  ui 1  K h  ui  x  , S2 n ( x)  Wi  ui  ui 1  K h  x  ui  .
Будем считать, что значения u1 , u2 ,...un упорядочены, т.е. u1  u2  ...  un ,
причем 0  ui  1 . Пусть  n  max ui , где ui  ui  ui 1 , u0  0, un1  1 и
1i n1
 n  0 при n   . В таком случае сумма S1n ( x) есть интегральная сумма, т.е.
1
S1n ( x)  S1n ( x) 1  o(1)  , где S1n ( x)   K h (u  x) du и
0
S1n ( x)  1  o(1), n   .
1
Так как  K h (u  x) du  1 , то S1n ( x) 
1. Поскольку S1n ( x) 
n
0
неслучайна, то в качестве оценки FPC ( x ) будем брать S 2 n ( x ) , т.е. положим
FPC ( x)  S 2 n ( x) .
(10.2)
В следующих теоремах доказывается состоятельность и асимптотическая
нормальность оценки Пристли–Чао.
Теорема 10.1. Пусть выполняются условия  K  ,  F  ,  H  и
h  0,
n
h

0 .
n 
Тогда
p
S2n ( x) 
 F ( x) .
n
Теорема 10.2. Пусть выполняются условия  K  ,  F  ,  H  . Кроме того, при
h
h
n   :  n  0 , h  0,  , Bn2  M 2 .
n
n
Тогда
h
d
 N  a ( x), 2 ( x)  ,
 S2 n ( x)  F ( x)  
n 
n
f ( x) 2
где a ( x) 
2
и  2 ( x)  F ( x) 1  F ( x)  K .
2
38
11. Выбор ширины окна просмотра данных с помощью процедуры
кросс-проверки и метода штрафных функций
При построении непараметрических ядерных оценок возникают
проблемы, связанные с выбором параметра h – ширины окна просмотра. Этот
параметр определяет величину окрестности точки, в которой производится
оценивание. При выборе достаточно больших значений параметра h
происходит «чрезмерное сглаживание» кривой, что может привести к
смещению оценки. С другой стороны, взяв ширину окна достаточно малой,
мы воспроизведем исходные данные. В этом случае лишь небольшое
количество наблюдений будет давать вклад в оценку, делая ее грубой, а
дисперсия оценки будет слишком большой.
Асимптотически оптимальными являются значения параметра h
пропорциональные n1 5 , т.е. h  cn1 5 . Однако, мы не затрагивали вопроса, как
выбирать константу c , т.е. как выбирать h при конечном объеме выборки.
Существует несколько общих подходов к выбору ширины окна. К ним
относятся: методы кросс-проверки, штрафных функций, подстановки.
Автоматическому выбору оптимальной ширины окна в задачах оценивания
классической нелинейной регрессии посвящены работы W.Hardle, P. Hall and
J.S. Marron, M. Neumann, R.Eubank and W.Schucany, J.Beran, Y.Feng and S.
Heiler, H.-G. Muller and U. Stadtmuller, J.S. Wu and C.K. Chu, J.Rice and
M.Rosenblatt,
B.W. Silverman и др., в них предлагается использовать
процедуру кросс-проверки, штрафные функции и метод подстановки. Здесь
для модели доза-эффект мы предлагаем комбинированный адаптивный
алгоритм для автоматического выбора ширины окна.
Кросс-проверка – это автоматический метод выбора параметра таким
образом, чтобы минимизировать математическое ожидание эмпирической
среднеквадратичной ошибки получающейся оценки, причем получаемые
оценки являются асимптотически несмещенными. Для классической
регрессии, т.е yt  F  ut    t , t  1,2,..., n , проведение процедуры кросспроверки при фиксированном плане эксперимента для задачи оценивания
параметра h осуществляется следующим образом.
Пусть
2
1 n
(11.1)
d A ( h)   y j  F  u j  .
n j 1
Значение h , при котором она достигает минимума, обозначим hA ,
т.е. min d A (h)  d A (hA ) ,

h

 

d A ( h) содержит квадрат смещения S 2  E F ( x)  F ( x)


и дисперсию D (h)  D F ( x)  
ошибки  t .
n
2
0
1
n h
i 1
39
2 2

2
K h2  x  ui  , где  02  дисперсия
Выбор ширины окна желательно осуществить таким образом, чтобы
квадрат смещения и дисперсия были функциями одного порядка по n .
Для оценки смещения можно использовать статистику
1 n
(11.2)
S (h)  Wi K h*  x  ui  ,
n i 1
где Kh* ( z )  K ( z )  K 4 ( z ) , здесь K 4 ( z )  ядро четвертого порядка.
В частности, для ядра Епанечникова Schucany предложил использовать
K ( z )  c3 K (cz )
, положив c  0,671 .
K4 ( z) 
1  c2
Рассмотрим математическое ожидание среднеквадратичной ошибки
d M (h)
2
1 n
d M ( h)  E   F  u j   F  u j   ,
(11.3)
 n j 1

которое еще называют интегральной среднеквадратической ошибкой.
Лемма 11.1. Пусть функция F ( x) имеет непрерывную вторую
производную на интервале (0,1) , а ошибки  t  н.о.р. с.в., имеющие нормальное


распределение с нулевым математическим ожиданием, дисперсией  02 и
конечными моментами до третьего порядка включительно. Тогда для d M ( h)
справедливо следующее асимптотическое представление
2
2
 02 K
1
2
 1

d M ( h) 
 h 4  2    f ( x)  dx  o   h 4  .
(11.4)
nh
4
 nh

Ширину окна, при которой достигается минимум интегральной
среднеквадратичной ошибки d M ( h) , обозначим hM .
Минимизируя d M ( h) по h , получаем оптимальное значение
K  02
2
hM  5
    m( x) 
2 2
2
 n 1 5  cn 1 5 ,
dx
(11.5)
где константу в общем случае вычислить трудно.
При использовании hM получается оценка, имеющая интегральную
среднеквадратичную ошибку порядка n 4 5 :
F ( x)  F ( x)  O p  n 2 5  .
В общем случае hM вычислить также затруднительно, однако существует
подход для выбора оптимальной ширины окна просмотра данных h , который
использует предположение о стандартности (в частности, нормальной
распределенности) семейства распределений для присвоения значения
2
константе   f ( x)  dx .
В случае семейства нормальных распределений легко видеть, что
40
  f ( x) 
2
dx 
3
8 5 
.
Если использовать гауссово ядро, то K
так
2
1

,  2  1,
2 
ширина
что
оптимальная
1 5
1 10  3 
h   4     1 10 02 5n1 5  1,06 02 5 n1 5 .
8
Для
ядра
окна
Епанечникова
K
2
равна
 0.6,  2  0.2 ,
h  5 40 1 10 02 5 n 1 5  2.34 02 5 n 1 5 .
При использовании квартического ядра K
2
5
1
 , 2  ,
7
7
280 1 10 2 5 1 5
  0 n  2.77 02 5 n 1 5 .
3
На практике вместо  применяется выборочное стандартное отклонение,
а оценку  02 можно определить, например, по формуле (11.2).
h
5
В общем же случае оптимальную ширину окна h0 находят минимизируя
2
1 n
функцию CV0 (h)   W j  F  u j  , которая является смещенной оценкой
n j 1




2
1 n
Wi  F  ui  представляет

n i 1
собой функцию возрастающую и, следовательно, наилучшая ширина окна
должна быть сколь угодно малой величиной. Причина смещенности
заключается в том, что наблюдения W j используются в оценке F ( x) для
предсказания самой оценки, чтобы устранить это смещение, применяют
методы пропуска, штрафных функций и подстановки.
Идея метода пропуска состоит в использовании в функции кросспроверки статистики F j  u j  , которая строится по данным, где j  ое
функции d A ( h) . График зависимости CV0 (h) 
наблюдение пропущено. Именно, определим
1
Wi K h  u j  ui 
n i j
.
Fj  u j  
1
 K h  u j  ui 
n i j
Сформируем функцию кросс-проверки
2
1 n
CV (h)   W j  Fj  u j  ,
n j 1


и рассмотрим такие h , при которых CV (h) достигает минимума.
41
(11.6)
Для функции CV ( h ) можно получить разложение
1 n 2
2 n
(11.7)
CV (h)    j  d A (h)    j F  u j   F  u j 
n j 1
n j 1
и записать его последний член в виде


2 n 1 n
C (h)     j Wi K h  x  ui   F  u j   .
(11.8)

n j 1  n i  j
 i 1

Здесь C (h) имеет нулевое математическое ожидание при n   , откуда и
следует асимптотическая несмещенность оценки CV (h) .
С целью асимптотического устранения смещения с помощью штрафной
функции введем ее следующим образом:
2 1
1 n

(11.9)
G ( h)   W j  F  u j    K h  u j   .
n j 1
n

Штрафные функции подбираются так, чтобы их тейлоровское разложение
с точностью до линейных членов имело вид:
(u )  1  2u  O  u 2  , u  0 ,




что при подстановке в (11.7) приводит к асимптотическому равенству G(h) и
d A (h) .
Простейшая из штрафных функций имеет вид (u)  1  2u .
В работе [9] показано, что значения ширины окна, получаемые с
помощью методов кросс-проверки и штрафования являются асимптотически
оптимальными.
Метод подстановки состоятельных оценок неизвестных величин в
выражение для оптимальной ширины окна использовался в работах по
ядерному оцениванию плотности (см., например, [7] ). Данный метод основан
на асимптотическом разложении среднеквадратической ошибки. Оптимальная
ширина окна как видно из (11.5), должна быть пропорциональна n1 5 с
константами, зависящими от неизвестных  02 , f ( x) . Значения этих констант
надо в свою очередь также оценивать по выборке, что опять связано с
проблемой выбора оптимальной ширины окна. Поэтому в литературе метод
подстановки не получил широкого распространения. Ввиду соотношения




 min E F ( x)  F ( x) dx  min  E F ( x)  F ( x) dx ,
h
2
h
2
получается, что оценки, построенные с помощью метода подстановки лучше в
смысле интегрального риска.
Кроме того, для компьютерного моделирования эти оценки проще, чем
оценки, полученные с помощью процедуры кросс-проверки, где для выбора h
приходится решать экстремальную задачу.
42
При разложении левой части последнего неравенства, мы получаем
интеграл  F ( x) 1  F ( x)  dx , который необходимо оценить. Для оценки
b 2   F ( x) 1  F ( x)  dx
величины
статистикой
можно
n
b 2  n 1 
W
j
воспользоваться
 W j 1 
следующей
2
.
2
Асимптотически эквивалентна ей статистика
(11.10)
j 2
b n
2
1
W 1  W  , поскольку b
n
j 2
2
j 1
j
 b 2  O  n 1  .
Для математического ожидания статистики b 2 получаем:
 1 n

 1 n

 1 n

E  n W j 1  W j 1    E  n W j   E  n W jW j 1  
j 2
j 1
j 1






 n1  F (u j ) n1  F (u j ) F (u j 1 )  O  n1    F ( x) 1  F ( x)  dx  O  n 1  .
n
n
j 1
j 1
Найдем дисперсию оценки b 2 . Имеем:
n
n


2
2 
2 
D b = n D  W j 1  W j 1    n  DW j 1  W j 1   +
 j 2

 j 1



n2   COV Wi 1  Wi 1  ,W j 1  W j 1   .
 i j

 

Вычислим

 COV W 1  W  ,W 1  W   .
i j
i 1
i
j 1
j
Будем
рассматривать
случай, когда i  j . Возможны случаи: 1) i  j  1  j; 2) i  j  1. В первом
случае Wi 1  Wi 1 W j 1  W j 1   W j 1 1  W j 1 1  W j 2 W j  0 , поэтому






COV W j 1 1  Wi 2  ,W j 1  W j 1    F  u j 1  1  F  u j 2  F  u j  1  F  u j 1  .
Во втором случае  i  j  1 величины Wi 1  Wi  , W j 1  W j 1  независимы,
поэтому
COV Wi 1  Wi 1  ,W j 1  W j 1   0 .


 




Так как D W j 1  W j 1   E W j 1  W j 1   E2 W j 1  W j 1  
 F (u j ) 1  F (u j )  1  F (u j )  F 2 (u j )  , то при n   ,
 
D b2
n1  F ( x) 1  F ( x)  1  2 F ( x)  2 F 2 ( x)  dx 
0 .
n
Из неравенства Чебышева следует состоятельность оценок b 2 и b 2 .
Заметим, однако, что выбор оптимального значения параметра h
производится на компьютере из дискретного множества с конечным числом
43
значений, поэтому в этой главе мы будем считать, что имеется множество Qn
значений параметра h и примем, что мощность этого множества Qn конечна и
не превосходит некоторой степени n .
Для каждого значения параметра h  Qn пусть Fn( h ) ( x) и Fnj( h) ( x) есть
оценки
распределения

по
выборкам

U ( nj1)  U ( n) \  u j ,W j  соответственно.
U ( n)   u1,W1  ,..., un ,Wn 
и
В дальнейшем мы будем рассматривать оценки Надарая–Ватсона по
n
выборке U ( n ) , где ui i 1  неслучайны (фиксированный план, прямые
наблюдения).
Кросс-проверочное значение параметра h определим из равенства
H  H n  arg min n
hQn
1
 F
n
j 1
( h)
nj
(u j )  W j  .
2
(11.11)
Определим кросс-проверочную оценку функции распределения FnCV ( x) ,
полагая
FnCV ( x)  Fn( H ) ( x) .
В дальнейшем мы будем использовать обозначение
 1 n
2
(h)
 n  E n   Fnj( h ) (u j )  F (u j )  
 j 1

и определим h следующим образом:
n

2
h  arg min E n 1   Fnj( h ) (u j )  F (u j )   .
hQn
 j 1

Величина H является случайной величиной и поэтому, если мы ее
подставим в  (nH ) , мы будем также иметь случайную величину  (nH ) .
Заметим, что
 1 n
2
 1 n
2
2
(h)
(h)
 n  E n   Fnj (u j )  F (u j )    E n   Fnj( h ) (u j )  W j   W j  F (u j )  
 j 1

 j 1

.
Из определения величины H имеем  (nh )   (nH ) , откуда  (nh )  E   (nH ) 
(величина  (nh ) является неслучайной).
Имеет место следующий результат.
Теорема 11.2. Пусть выполнены условия  K  .
Тогда
(nH )  (nh ) 
 0 и  (nh )  E   (nH )    n(h )  c
n
p
44
ln Qn
.
n
Таким образом, из теоремы 11.2 следует, что при n   квадратичное
уклонение при CV  значении параметра h ведет себя также как и
оптимальное значение h . Аналогичный вывод будет иметь место и для
фиксированного плана – непрямые наблюдения.
Теперь мы можем сформулировать алгоритм выбора оптимального
параметра сглаживания h .
Алгоритм.
1. По результатам наблюдений U ( nj1) вычислим оценку:
(h)
nj
F
1 n

Wi K h  ui  x  .
n  1 i 1,
i j
2.
3.
Построим функцию кросс проверки:
2
1 n
CV (h)    Fnj( h ) (u j )  W j  .
n j 1
Определим оптимальное значение параметра h :
H  arg min  CV (h)  .
h
Из полученного результата Теоремы 5.1.4 следует, что данный алгоритм
является состоятельным и приводит к асимптотически оптимальным
значениям параметра сглаживания.
Можно использовать также метод подстановки для определения ширины
окна h в схеме прямых наблюдений. В основе метода лежит положение о том,
что оптимальная ширина окна пропорциональна n1 5 . А именно для каждой
точки x значение hopt определяется так:
hopt ( x) 

F ( x) 1  F ( x)
5
,
 4  f ( x) 
где в качестве оценки производной для плотности бралось значение
2
F ( x  )  2 F ( x)  F ( x  )
.
2
Метод подстановки характеризуется неопределенностью
в вопросе
выбора ширины окна на первом этапе. Мы предлагаем применить для этого
метод пропуска (или штрафных функций).
Эмпирическое исследование можно проводить на основании модельных
данных. Для соответствия рассматриваемой модели необходимо так подбирать
параметры модельных распределений, чтобы в среднем при увеличении дозы
U большая часть значений W была равна 1. В случае, когда оба
распределения нормальные, эта спецификация будет учтена, если aU
несколько больше, чем a X , а их дисперсии одинаковы. В случае же
несимметричного распределения с.в. U , математические ожидания с.в. U и X
должны быть достаточно близкими, а дисперсия с.в. X значительно меньше
дисперсии с.в. U .
f ( x) 
45
Заметим, что смещение и дисперсия оценок Надарая–Ватсона (2.2) и
kNN  оценок (2.4) зависят от ширины окна просмотра: смещение падает, а
дисперсия растет по мере уменьшения ширины окна. Смещение также
возрастает по f ( x) в схеме прямых наблюдений, и по f ( x)  в схеме
непрямых наблюдений, то есть является наибольшим в пиках распределений.
Но, если выполнены условия состоятельности, а именно h  0 при n  
(смещение стремится к нулю) и nh   при n   (дисперсия стремится к
нулю), то смещение, связанное с производными, уменьшается при увеличении
выборки и в пределе исчезает.
Пусть массив значений U является уже упорядоченным по возрастанию.
Обозначим через U i элемент этого массива, ближайший к точке x . Для
построения kNN  оценок в ситуациях конкретных примеров можно
использовать следующие конструктивные способы.
Способ 1.
kNN  оценку для точек, являющихся ближайшими к элементам массива с
k 
k 
номерами    1 и n    , производим, полагая h  U  k   U  k  .
i 
i 
2
2
2
2
k 
Для точек, к которым ближайшим является элемент с номером   и
2
меньшие его элементы, будем брать h  U  k   U1 .
i 
2
Для точек, ближайшими к которым является элемент с номером
k 
n     1 и большие его элементы, возьмем h  U n  U  k  .
i 
2
2
Способ 2.
Положим h  U  k   U  k  для таких точек x , для которых одновременно
i 
2
i 
2
k 
k 
i     n и i    1.
2
2
k 
Если i     n , то возьмем h  U n  U  k  .
i 
2
2
k 
Если i     1, то возьмем h  U  k   U1 .
i 
2
2
Способ 3.
Для элемента U i найдем k ближайших элементов.
Отберем из них минимальный U min и максимальный U max .
U  U min
Ширину окна h в точке x возьмем равной h  max
.
2
46
Способ 4.
Найдем k ближайших элементов к элементу U i .
Выберем из них минимальный U min и максимальный U max .
U  U min
Ширину окна h в точке x положим равной h  max
.
2
U  U max
Точку x заменим на точку x0 , где x0  min
.
2
47
Литература
1. Криштопенко, С.В. Статистическое оценивание эффективной дозы
зависимости «доза–эффект» с использованием как прямых, так и непрямых
наблюдений / С.В. Криштопенко, М.С. Тихов // Вторая Всероссийская школаколлоквиум по стохастическим методам. – М. – 1995. – С.81-82.
2. Криштопенко, С.В. Токсикометрия эффективных доз/ С.В.
Криштопенко, М.С. Тихов – Нижний Новгород: Изд-во ННГУ, 1997. – 156 с.
3. Криштопенко, С.В. Парадоксальная токсичность/ С.В. Криштопенко,
М.С. Тихов, Е.Б. Попова – Нижний Новгород: Изд-во НГМА, 2001. – 164 с.
4. Криштопенко, С.В. Доза–эффект / С.В. Криштопенко, М.С. Тихов, Е.Б.
Попова – М.: Медицина, 2008. – 288 с.
5. Надарая, Э.А. О непараметрических оценках плотности вероятности и
регрессии / Э.А. Надарая // Теория вероятн. и ее примен. – 1965. Т. 10, в.1. –
С.199 – 203.
6. Тихов, М.С. Линейные функции индуцированных порядковых
статистик и непараметрическое оценивание распределений в зависимости
доза-эффект / М.С. Тихов // Обозрение Прикл. и Пром. Математики – М.: Издво ТВП – 1999. – Т.6, в.1. –С. 244.
7. Цыбаков, А.Б. О выборе ширины окна в ядерной непараметрической
регрессии / А.Б. Цыбаков // ТВП – М.: Изд-во ТВП –1987. –Т. 32, в. 1. – С.
153-159.
8. Finney, D.J. Probit Analysis / D.J. Finney, 3 ed. – Cambridge: University
Press, 1980. – 333 p.
9. Hardle, W. Applied nonparametric Methods, in Handbook of Econometrics /
W. Hardle, O. Linton // North Holland Elsevier Science, 1994. –V.4. – P. 44-88.
10. Hengartner, N.W. Asymptotic unbiased density estimators / N.W.
Hengartner // E. Matzner-Lober // ESAIM. – 2009. – V. 13. – P. 1-14.
11. Hlawka, E. Losung von Integralgleichungen mittels zahlentheoretisher
Methoden I / E. Hlawka // Siztzungsber., Abt. II. Osterr. Akad. Wiss., Math. –
Naturwiss. Kl. – 1962. – V. 171, № 1 – P. 103 -123.
12. Priestley, M.B. Nonparametric function fitting / M.B. Priestley and M.T.
Chao // Journal of the Royal Statistical Society. –1972. –Ser. B. –V. 34. –P. 385392.
13. Stute, W. Asymptotic normality of nearest neighbor regression function
estimates / W. Stute // Annals of Statistics. – 1984. – №12. – P. 917– 926.
14. Yang, S. Linear functions of concomitants of order statistics with
application to nonparametric estimation of a regression function / S. Yang // Journal
of the American statistical association. – 1981. – V.76. – P. 658–662.
15. Ярощук, М.В. Математическое моделирование и статистическое
оценивание распределений в зависимости доза-эффект: Дис. .. канд. физ.-мат.
наук. Н.Новгород, 2011. – 217 с.
48
Марина Владимировна Ярощук
МАТЕМАТИЧЕСОКОЕ МОДЕЛИРОВАНИЕ И
ОЦЕНИВАНИЕ РАСПРЕДЕЛЕНИЙ НА ПРИМЕРЕ
ЗАВИСИМОСТИ ДОЗА-ЭФФЕКТ
Учебно-методическое пособие
. Формат 60  84 1/16.
Подписано в печать
Бумага офсетная. Печать офсетная. Гарнитура Таймс.
Усл. печ. л. 3. Тираж 100 экз. Заказ №
.
Редакционно-издательское управление (РИУ)
Нижегородского госуниверситета им. Н.И.Лобачевского.
603600, Нижний Новгород, пр.Гагарина, 23.
49
Download