34. Методы исключения грубых ошибок

advertisement
34. Методы исключения грубых ошибок
Классификация ошибок измерения
Численное значение физической величины получается в результате ее измерения,
т. е. сравнения ее с другой величиной того же рода, принятой за единицу. При
выбранной системе единиц результаты измерений выражаются определенными числами.
Известно, что при достаточно точных измерениях одной и той же величины результаты
отдельных измерений отличаются друг от друга, и, следовательно, содержат ошибки.
Ошибкой измерения называется разность х—а между результатом измерения х и
истинным значением а измеряемой величины. Ошибка измерения обычно неизвестна,
как неизвестно и истинное значение измеряемой величины (исключения составляют
измерения известных величин, проведенные со специальной целью исследования
ошибок измерения, например для
определения точности измерительных приборов).
Одной из основных задач математической обработки результатов эксперимента как
раз и является оценка истинного значения измеряемой величины по получаемым
результатам.
Другими
словами, после неоднократного измерения величины а и
получения ряда результатов, каждый из которых содержит некоторую неизвестную
ошибку, ставится задача вычисления приближенного значения а с возможно меньшей
ошибкой. Для решения этой задачи (при данном уровне точности измерений) надо
знать основные свойства ошибок измерений и уметь ими воспользоваться.
Грубые ошибки. Прежде всего, при математической обработке результатов
измерений не следует учитывать заведомо неверные результаты (промахи), или, как
говорят, результаты, содержащие грубые ошибки. Грубые ошибки возникают
вследствие нарушения основных условий измерения или в результате недосмотра
экспериментатора (например, при плохом освещении вместо «3» записывают «8»). При
обнаружении грубой ошибки результат измерения следует сразу отбросить, а само
измерение повторить (если это возможно). Внешним признаком результата, содержащего
грубую ошибку, является его резкое отличие по величине от результатов остальных
измерений. На этом основаны некоторые критерии исключения грубых ошибок по их
величине, однако самым надежным и эффективным способом браковки неверных
результатов остается браковка их непосредственно в процессе самих измерений. Всюду в
настоящем справочном руководстве считается, что оставленные для математической
обработки результаты измерений не содержат грубых ошибок.
---------------------------------------------------------------------------------------------------Систематические ошибки. Ошибки измерения вызываются большим количеством разнообразных
причин (факторов). Иногда в проведенной серии измерений удается выделить такие причины ошибок,
эффект действия которых может быть рассчитан. Например, если после измерений обнаружена
неправильная регулировка прибора, которая привела к смещению начала отсчета, то все снятые
показания будут смещены либо на постоянную величину, если шкала прибора равномерна, либо на
величину, изменяющуюся по определенному закону, если шкала прибора неравномерна. Другим
примером может служить изменение внешних условий, например, температуры, если известно влияние этих
изменений на результаты измерений. К названным причинам можно также отнести некоторое
несовершенство измерительных приборов на границе области их применимости, вызывающее известные
ошибки.
Принято говорить, что каждая из таких причин вызывает систематическую ошибку. Выявление
систематических ошибок, вызываемых каждым отдельным фактором, требует специальных исследований
(например, измерений одной и той же величины разными методами или измерений одним и тем же прибором
некоторых эталонов, известных величин). Но как только систематические ошибки обнаружены и их
величины рассчитаны, они могут быть легко устранены путем введения соответствующих поправок в
результаты измерения. Поэтому в настоящем справочном руководстве мы будем считать, что к началу
математической обработки результатов измерений все систематические ошибки уже выявлены и устранены.
Подчеркнем, что при этом общая ошибка каждого результата остается неизвестной, так что речь идет не о
выделении из общей ошибки некоторой части в виде систематической ошибки, а лишь о введении поправок
на известный эффект действия тех факторов, которые удалось выявить.
Случайные ошибки. Ошибки измерения, остающиеся после устранения всех выявленных
систематических ошибок, т. е. ошибки результатов измерений, исправленных путем введения
соответствующих поправок, называются случайными. Случайные ошибки вызываются большим количеством
таких факторов, эффекты действия которых столь незначительны, что их нельзя выделить и учесть в
отдельности (при данном уровне техники и точности измерений). Случайную ошибку можно рассматривать как суммарный эффект действия таких факторов.
Случайные ошибки являются неустранимыми, их нельзя исключить в каждом из результатов
измерений. Но с помощью методов теории вероятностей можно учесть их влияние на оценку истинного
значения измеряемой величины, что позволяет определить значение измеряемой величины со значительно
меньшей ошибкой, чем ошибки отдельных измерений. Учет влияния случайных ошибок основан на
знании законов их распределения.
--------------------------------------------------------------------------------------------------------Методы исключения грубых ошибок
При получении результата измерения, резко отличающегося от всех других
результатов, естественно возникает подозрение, что допущена грубая ошибка. В этом
случае необходимо сразу же проверить, не нарушены ли основные условия измерения.
Если же такая проверка не была сделана вовремя, то вопрос о целесообразности
браковки одного «выскакивающего» значения решается путем сравнения его с
остальными результатами измерения. При этом применяются различные критерии, в
зависимости от того, известна или нет средняя квадратическая ошибка, а измерений
(предполагается, что все измерения производятся с одной и той же точностью и
независимо друг от друга).
Метод исключения при известной  .
Обозначим «выскакивающее» значение через х*, а все остальные результаты
измерения через x1 , x 2 ………. x n . Подсчитаем среднее арифметическое значение
x
x1  x2  ...  xn
n
и сравним абсолютную величину разности
Для полученного отношения
t
x * x
с величиной
 (n  1) / n .
x * x
 (n  1) / n
подсчитаем вероятность 1—2Ф(t) (Приложение табл.2.) Это даст вероятность
того, что рассматриваемое отношение случайно примет значение, не меньшее чем t,
при условии, что значение х* не содержит грубой ошибки (что ошибка результата х*
только случайна). Если подсчитанная указанным образом вероятность окажется очень
малой, то «выскакивающее» значение содержит грубую ошибку и его следует
исключить из дальнейшей обработки результатов измерений.
Какую именно вероятность считать очень малой, зависит от конкретных условий
решаемой задачи: если назначить слишком низкий уровень малых вероятностей, то
грубые ошибки могут остаться,
если же взять этот уровень
неоправданно
большим,
то
можно
исключить результаты со случайными
ошибками,
необходимые для правильной обработки результатов измерения. Обычно применяют
один из трех уровней малых вероятностей:
5% уровень (исключаются ошибки, вероятность появления которых меньше
0,05);
1 % уровень (исключаются ошибки, вероятность появления которых меньше 0,01);
0,1% уровень (исключаются ошибки, вероятность появления которых меньше
0,001).
При выбранном уровне  малых вероятностей «выскакивающее» значение х*
считают содержащим грубую ошибку, если для соответствующего отношения t
вероятность 1—2Ф(t)<  . Чтобы подчеркнуть вероятностный характер этого
заключения, говорят, что значение х* содержит грубую ошибку с надежностью вывода
Р=1—  . Значение t = t(Р), для которого 1—2Ф(t) =  и, значит, 2Ф(t) =Р, называется
критическим значением отношения t при надежности Р. Так, если  = 0,01 ( 1 %
уровень), то Р = 0,99, критическое значение t = tР) = 2,576, и как только
отношение t превзойдет это критическое значение, мы можем браковать «выскакивающее»
значение х* с надежностью вывода 0,99.
П р и м е р . Пусть среди 41 результата независимых измерений, произведенных со
средней квадратической ошибкой  =0,133, обнаружено одно «выскакивающее»
значение x*=6,866, в то время как среднее из остальных 40 результатов составляет x
=6,500. Можно ли считать, что «выскакивающее» значение содержит грубую ошибку, и
исключить его из дальнейшей обработки?
Решение. Разность между «выскакивающим» значением и средним составляет
x *  x = 0,366, поэтому отношение t равно
t
0,366
 2,72
0,133 41 / 40
По табл.2 для t=2,72 оцениваем вероятность 1 — 2Ф (t)= 0,0066 < 0,007.
Следовательно, с надежностью вывода Р > 0,993 можно считать, что значение x*
содержит грубую ошибку, и исключить это значение из дальнейшей
обработки
результатов измерения.
Подчеркнем, что указанный прием применяется только тогда, когда величина 
средней квадратической ошибки точно известна заранее.
Метод исключения при неизвестной  .
Если величина  заранее неизвестна, то она оценивается приближенно по
результатам измерений, т. е. вместо нее применяют эмпирический стандарт:
s
1 n
( xi  x ) 2

n  1 i 1
(1)
При этом абсолютную величину разности x *  x между «выскакивающим»
значением х* и средним значением x остальных (приемлемых) результатов делят на
эмпирический стандарт и полученное отношение(2) сравнивают с критическими
значениями t n (P ) (Приложение табл. 3).
t  x * x / s
(2)
Если при данном числе п приемлемых результатов отношение (2) оказывается между
двумя критическими значениями при надежностях P1 и P2 ( P2 > P1 ), то с надежностью
вывода, большей P1 можно считать, что «выскакивающее» значение содержит грубую
ошибку, и исключить его из дальнейшей обработки результатов.
Заметим, что если надежность вывода окажется недостаточной, то это
свидетельствует не об отсутствии грубой ошибки, а лишь об отсутствии достаточных
оснований для исключения «выскакивающего» значения.
Пример. Пусть для n результатов независимых равноточных измерений
некоторой величины среднее значение равно x = 6,500, а эмпирический стандарт s =
0,133, и пусть (n + 1)-е измерение дало результат х* = 6,866. Можно ли исключить этот
результат из дальнейшей обработки?
Решение. Здесь отношение (2) равно t = 0,366/0,133 = 2,75. Если число приемлемых
результатов n = 40, то полученное отношение превосходит критическое значение
2,742 при надежности P = 0,99 и значение х* можно исключить с надежностью
вывода, большей 0,99. Если же число приемлемых результатов n = 6, то полученное
отношение меньше критического значения 2,78 даже при надежности P=0,95 и
значение x* исключать не следует.
Грубые ошибки возникают вследствие нарушения основных условий измерения или
в результате недосмотра экспериментатора. Внешним признаком результата, содержащего
грубую ошибку, является его резкое отличие по величине от результатов остальных
измерений.
Выбор метода зависит от того, известна ли среднеквадратическая ошибка измерений
σ (съёмка данных на конкретном элементарном объекте измерений проводится с помощью
одного и того же устройства и в одних и тех же условиях, поэтому можно считать, что все
измерения проводятся с одной и той же точностью и, кроме того, независимо друг от
друга).
При известной среднеквадратической ошибке измерений применяют следующий
метод:
Для каждого экспериментального значения X* находят выражение
  1  2 (
X*  X
 (n  1) / n
),
(3)
X
где
- среднее арифметическое всех значений (кроме X*),
n – количество этих значений;
Ф(t) – функция, возвращаемый результат которой определяется с помощью массива
значений или с помощью формулы
1
 (t ) 
2
где
t
t
e

2
/2
dt ,
(4)
0
t > 0,
ф( - t ) = - ф( t),
(5)
Если α < А, значит с вероятностью (1- α)*100% можно утверждать, что X* - грубая
ошибка.
Принято выбирать А из 0.05, 0.01, 0.001 для вероятностей 95, 99, 99.9%
соответственно.
Отличительной чертой исключения грубых ошибок при неизвестной σ является её
замена в формуле (1) эмпирическим стандартом
1 n,i *
s
( X i  X )2

n  1 i 1
,
где i – номер любого значения, кроме номера исследуемого значения X* .
После удаления грубых ошибок из набора значений, можно найти интервал, в
котором будет находиться действительное значение.
(6)
Xд = Xcp ± sigma,
где sigma = σ, если известно среднеквадратическое отклонение, или
,
1 n
2
sigma

(
X

Xcp
)

i
если σ неиз
вестно.
n  1 i 1
Но полученный интервал можно будет считать верным, только в определённом
случае.
Все доверительные оценки, как средних значений, так и дисперсий основаны на
гипотезе нормальности закона распределения случайных ошибок измерения и поэтому
могут применяться лишь до тех пор, пока результаты эксперимента не противоречат
этой гипотезе.
Если результаты эксперимента вызывают сомнение в нормальности закона
распределения случайных ошибок, то для решения вопроса о пригодности или
непригодности нормального закона распределения надо произвести достаточно большое
число измерений и применить один из описанных ниже критериев.
--------------------------------------------------------------------------------------------------Критерий соответствия  2 («хи-квадрат»). Результаты измерений (разумеется, свободные от
систематических ошибок) группируют по интервалам таким образом, чтобы эти интервалы покрывали всю
ось (-  , +  ) и чтобы количество данных в каждом интервале было достаточно большим (во всяком
случае не менее пяти, лучше десяти). Для каждого интервала ( xi 1 , xi ) подсчитывают число mi
результатов измерения, попавших в этот интервал. Затем вычисляют вероятность
p i попадания в этот
интервал при нормальном законе распределения вероятностей:
pi  Ф (
xi  x
x x
)  Ф( i 1
)
s
s
( 7 )
где x - среднее арифметическое значение результатов измерения, s—эмпирический стандарт
(средняя квадратическая ошибка), Ф — интеграл вероятностей, представленный таблицами 1 и 2(см.
приложение). Затем, вычисляют сумму
L
2  
i 1
(mi  npi )
npi
где L - число всех интервалов число всех результатов измерений (-  , x1 ), ( x1 , x2 ),…,(
число всех результатов измерений (
n  m1  m2  ...  ml
(8)
xl 1 , 
), n -
).
Если сумма (8) окажется больше критического значения 
по табл. 4 при некоторой
доверительной вероятности P и числе степеней свободы k = L-3, то с надежностью P можно считать, что
распределение вероятностей случайных ошибок в рассматриваемой серии измерений отличается от нормального. В противном случае для такого вывода нет достаточных оснований.
При отсутствии достаточных оснований для того, чтобы отвергнуть гипотезу о нормальном
распределении случайных ошибок измерения, эта гипотеза принимается, так как в обычных ситуациях эта
гипотеза часто может быть обоснована теоретически. Однако следует иметь в виду, что даже малая
величина суммы (8) не может служить доказательством нормальности закона распределения.
2
2
Отметим еще важное свойство критерия
:
если распределение отлично от нормального, то при достаточно большом числе измерений сумма (8)
превысит соответствующее критическое значение
2.
Поэтому, если при произведенном числе измерений
критерий  дал малую надежность, но сомнение в нормальности распределения осталось, то следует
увеличить число измерений (в несколько раз!).
2
Указанное выше число степеней свободы k = L-3 относится только к тому случаю, когда оба
параметра нормального закона распределения определяются по результатам измерений, т.е. когда вместо

x
точных значений а и
применяются их эмпирические значения
и s. Если значение а точно известно
(например, при измерении эталона), то число степеней свободы равно k = L-2, если известны оба параметра

а и
, то число степеней свободы равно k = L-1. На практике такая ситуация встречается редко, и
поэтому для получения числа степеней свободы не менее пяти надо брать число интервалов не менее
восьми.
2
В заключение заметим, что эффективность критерия
повышается, если в каждый из выделенных
интервалов попадает примерно одинаковое количество данных. Это следует учитывать при группировке
первичного материала (если возможно).

Пример. Приведем пример расчета вероятностей для применения критерия  . Возьмем
интервальный ряд данных, значения параметров нормального распределения для которого были
2

x
2
посчитаны:
=8,63, s = 0,127. Для применения критерия
объединим крайние интервалы, чтобы
число данных в каждом интервале стало не менее пяти. Полученные данные представлены в первых
двух столбцах табл. 1. Крайние интервалы взяты бесконечными. В третьем столбце подсчитаны
отношения
ti 
xi  x xi  8,63

s
0,127
для правых концов интервалов, например,
t1 = (8,425-8,63)/0,127 =-1,614. В четвертом столбце
приведены соответствующие значения интеграла вероятностей Ф ( t i )(Приложение табл. 1). При этом
произведена линейная интерполяция. По значениям Ф ( t i )-в пятом столбце вычислены вероятности
p i - как
разности соответствующих значений Ф (t):
pi  Ф(ti )  Ф(ti 1 );
например, р2 = -0,3888 - (-0,4467) = 0,0579. При вычислении вероятности p1 учтено, что Ф(-  ) = 0,5. Последние столбцы таблицы не нуждаются в пояснении. Сумма чисел последнего столбца дает
нужное значение  2 =2,528. Сравнение этого значения с критическими значениями при числе степеней
свободы k =10-3 = 7 показывает, что нет оснований сомневаться в нормальности распределения
(основания для подобного сомнения могли бы возникнуть, если бы вычисленное значение  2 было
бы по крайней мере раз в 5—6 больше).
Таблица 1
mi
ti
Ф(ti )
pi
mi  npi
mi  npi
npi
(-  ; 8,425)
7
-1,614
-0,4467
0,0533
1,67
0,523
(8,425; 8,475)
5
-1,220
-0,3888
0,0579
-0,79
0,108
(8,475; 8525)
8
-0,827
-0,2959
0,0929
-1,29
0,179
(8,525; 8,575)
10
-0,433
-0,1676
0,1283
-2,83
0,624
(8,575; 8,625)
18
-0,039
-0,0156
0,1520
2,80
0,516
(8,625; 8,675)
17
0,354
0,1383
0,1539
1,61
0,168
(8,675; 8,725)
12
0,748
0,2728
0,1345
-1,45
0,157
(8,725; 8,775)
9
1,142
0,3733
0,1005
-1,05
0,110
(8,775; 8,825)
7
1,536
0,4377
0,0644
0,56
0,048
(8,825; +  )
7
+
0,5000
0,0623
0,77
0,095
Суммы
100=n
-
-
1,0000
-
Интервалы
( xi 1  xi )
2,528= 
2
Для этого определяется критерий соответствия χ2, который должен быть достаточно мал. В этом
случае с определённой достоверностью можно будет говорить о нормальности распределения набора
значений, а как следствие этого – право с определённой вероятностью утверждать, что полученный
интервал верен.
Результаты измерений, освобождённые от грубых ошибок, группируют по интервалам таким образом,
чтобы они покрыли всю ось и чтобы количество данных в каждом интервале было достаточно большим.
Для каждого интервала подсчитывают число результатов измерения mi , попавших в этот интервал.
Затем вычисляется вероятность pi попадания в этот интервал при нормальном законе распределения
вероятностей
pi   (
X i  X cp
sigma
)  (
X i 1  X cp
sigma
где Xi – правая граница i-го интервала.
Необходимо заметить, что для первого интервала
pi   (
X i  X cp
sigma
)   ()   (
Для последнего интервала
pi   (
  X cp
sigma
)  (
X i 1  X cp
sigma
)   ()   (
),
X i  X cp
sigma
X i 1  X cp
sigma
)  0,5 ,
)  0,5   (
X i 1  X cp
sigma
)
В качестве проверки правильности расчёта значений pi можно использовать равенство
l
p
i 1
i
1
.
Непосредственно χ2 находится по формуле:
l
2  
(mi  npi ) 2
npi
i 1
,
где l – количество интервалов.
Если полученное значение χ2 окажется больше критического значения χ2кр , при некоторой
доверительной вероятности Р и числе степеней свободы k = l – 3, то с надёжностью Р можно считать, что
распределение вероятностей случайных ошибок в рассматриваемой серии измерений отличается от
нормального. В противном случае для такого вывода нет достаточных оснований.
При отсутствии достаточных оснований для того, чтобы отвергнуть гипотезу о нормальном
распределении случайных ошибок измерения, эта гипотеза принимается, а следовательно интервал Xд =
Xcp ± sigma можно считать верным. Разработанная автоматизированная система позволяет оперативно
проводить оценку грубых ошибок эксперимента и достоверность нормального распределения результатов.
Ввод данных осуществляется автоматически с устройства либо из предварительно подготовленного файла
данных.
Download