Часть 5.

advertisement
ДИСПЕРСИОННЫЙ
АНАЛИЗ
Постановка проблемы
Дисперсионный анализ является статистическим
методом
анализа
результатов
наблюдений,
зависящих от различных одновременно действующих
факторов, с целью выбора наиболее значимых
факторов и оценки их влияния на исследуемый
процесс.
Методами дисперсионного анализа устанавливается
наличие влияния заданного фактора на изучаемый
процесс (на выходную переменную процесса) за счёт
статистической
обработки
наблюдаемой
совокупности выборочных данных.
Однофакторный дисперсионный анализ
Предположим, что анализируется влияние на
случайную величину X фактора A, изучаемого на k
уровнях (A1, A2,…, Ak). На каждом уровне Ai
проведены n наблюдений (xi1, xi2,…,xin) случайной
величины X.
Расположим
экспериментальные
данные в
виде таблицы
Номер
наблюдения
Уровни фактора A
A1
A2
…
Ai
…
Ak
1
x11
x21
…
xi1
…
xk1
2
x12
x22
…
xi2
…
xk2
….
…
…
…
…
…
…
j
x1j
x2j
…
xij
…
xkj
…
…
…
…
…
…
…
n
x1n
X2n
…
xin
…
xkn
Σ
X1
X2
…
Xi
…
Xn
Однофакторный дисперсионный анализ
Рассмотрим оценки различных дисперсий, возникающие при анализе
таблицы
результатов
наблюдений.
Для
оценки
дисперсии,
характеризующей изменение данных на уровне Ai (по строкам таблицы),
имеем:
2

n
n
 
1
1
1
2
2
2
  xij    xij  .
Si 
 ( xij  xi ) 
n  1 j 1
n  1  j 1
n  j 1  


n
Из предпосылок дисперсионного анализа следует, что должно иметь место
равенство всех дисперсий. При выполнении этого условия находим оценку
дисперсии, характеризующей рассеяние значений xij вне влияния фактора
A, по формуле:
2

k n
k  n
 
1
1
1
1
2
2
2
2
 xij     xij  
S 0   Si 
( xij  xi ) 

k i 1
k (n  1) i 1 j 1
k (n  1)  i 1 j 1
n i 1  j 1  


k
k
n
Однофакторный дисперсионный анализ
Для упрощения вычислений приведем
Вычисляем последовательно суммы:
k
n
Q1   
i 1 j 1
2
S0
2
xij
Q1  Q2

k (n  1)
k
1
2
Q2   X i
n i 1
2
SA
алгоритм
их
выполнения.
1

Q3    X i 
kn  i 1 
k
2
Q2  Q3

k 1
Сравниваем S A2 и S02 устанавливаем наличие влияния фактора A.
k (n  1) Q2  Q3
 F [k  1; k (n  1)] , то влияние A – значимо.
Если
k  1 Q1  Q2
Двухфакторный дисперсионный анализ
Рассмотренный ранее однофакторный дисперсионный анализ обладает информативностью, не
большей, чем методы множественного сравнения
средних. Информативность дисперсионного анализа
возрастает при одновременном изучении влияния
нескольких факторов.
Рассмотрим случай, когда анализируется влияние
одновременно двух факторов A и B.
Двухфакторный дисперсионный анализ
Пусть результаты
таблицей:
B
эксперимента
Уровни фактора A
…
Ai
…
представлены
Ak
Σ
A1
A2
B1
x11
x21
…
xi1
…
xk1
X1’
B2
x12
x22
…
xi2
…
xk2
X2’
….
…
…
…
…
…
…
…
Bj
x1j
x2j
…
xij
…
xkj
Xj’
…
…
…
…
…
…
…
…
Bm
x1n
X2n
…
xin
…
xkn
Xm’
Σ
X1
X2
…
Xi
…
Xn
Двухфакторный дисперсионный анализ
Дисперсионный анализ для двухфакторных таблиц
проводится в следующей последовательности.
Вычисляются суммы:
k
m
Q1   
i 1 j 1
2
xij
1 k 2
Q2   X i
m i 1
1 m 2
Q3   X j
k j 1

1 
1  k

  X / 
Q4 
  Xi  
mk  i 1 
mk  j 1 j 
k
2
Далее находятся оценки дисперсий:
S0 
2
Q1  Q4  Q2  Q3
(k  1)(m  1)
SA 
2
Q2  Q4
k 1
SB 
2
Q3  Q4
m 1
2
Если
SA
Если
S B2
 F ( f1 , f 2 ) , то влияние фактора B признается значимым.
2
S0
2
S0
 F ( f1, f 2 ) , то влияние фактора A признается значимым.
2
Двухфакторный дисперсионный анализ
Приведенный анализ предполагает независимость факторов A и B. Если они
зависимы, то взаимодействие факторов C=AB также является фактором,
которому соответствует своя дисперсия. Для того чтобы выделить такое
взаимодействие, необходимы параллельные наблюдения в каждой клетке
таблицы, т.е. при каждом сочетании факторов A и B на уровнях Ai и Bj
соответственно необходимо не одно наблюдение, а серия наблюдений.
Для оценки влияния взаимодействия факторов AB вычисляем
дополнительную сумму:
k
m
n
2
Q5   xijv
i 1 j 1 v 1
Далее анализ проводится, как и ранее, с той лишь разницей, что в клетках
таблицы вместо отдельных значений используется их средние значения.
Вычисляется оценка дисперсии и проверяется значимость взаимодействия
факторов:
2
Q5  nQ1
2
nS0
S AB 
 F ( f1 , f 2 )
f1  (k  1)(m  1)
f 2  mk (n  1)
2
mk (n  1)
S AB
Планирование эксперимента при дисперсионном
анализе
Дисперсионный
анализ
тесно
связан
с
соответствующим
планированием эксперимента. Удачно спланированный эксперимент,
выявляя все необходимые эффекты, оказывается всегда либо более
точным, либо менее трудоемким по сравнению с непродуманным
экспериментом.
Если на результат эксперимента действуют одновременно несколько
факторов, то наилучший эффект дает одновременный дисперсионный
анализ всех этих факторов (многофакторный анализ).
Методы дисперсионного анализа позволяют исследовать и такой
случай, когда некоторые сочетания уровней пропущены. Такой
эксперимент называется дробным факторным экспериментом (ДФЭ).
Планирование при ДФЭ приобретает особо важную роль, ибо
пропущенные сочетания уровней не так-то просто нейтрализовать.
Планирование эксперимента при
дисперсионном анализе
Такие способы планирования существуют и притом не
единственные; согласно Фишеру их называют латинскими
квадратами. Эти расположения приводятся в специальных
справочниках; для примера приведен один вид такого квадрата:
A1
A2
…
Ak-1
Ak
B1
C1
C2
…
Ck-1
Ck
B2
C2
C3
…
Ck
C1
…
…
…
…
…
…
Bk-1
Ck-1
Ck
…
Ck-3
Ck-2
Bk
Ck
C1
…
Ck-2
Ck-1
Планирование эксперимента при дисперсионном
анализе
k k
Схема расчетов для латинского квадрата очень
2
Q1    xij
похожа на обычный двухфакторный анализ:
i 1 j 1
Находим сумму квадратов по столбцам,
1 k 2
Q2   X i
k i 1
деленную на число наблюдений в столбце:
Находим сумму квадратов итогов по строкам,
1 k
2
Q3   X j
k j 1
деленную на число наблюдений в строке:
2
2
Находим квадрат общего итога, деленный на

1 k
1  k

Q4  2   X i   2   X j 
число всех наблюдений:
k  i 1 
k  j 1 
Находим сумму квадратов итогов по уровням
1 k 2
Q5   Y
фактора C, деленную на число уровней:
k  1
Планирование эксперимента при дисперсионном
анализе
Перейдем теперь к вычислению и оценке значимости дисперсий:
S02 
Q1  2Q4  Q2  Q3  Q5
(k  1)( k  2)
SA 
Q  Q4
Q2  Q4
2
, SB  3
k 1
k 1
2
Если отличие будет значимым, то
SC 
2
2
2
2
2
Q5  Q4
k 1
Если отличие будет значимым, то
2
2
S A  S0
S  S0
2
2
 A, B
 B
k
k
SC  S 0
2
 C
k
ВОПРОСЫ ?
Download