1 Основные понятия математической статистики

advertisement
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
ДОНСКОЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
(ДГТУ)
В.Д.ИЛЬЧЕНКО, Н.Н.ШУМСКАЯ
Обработка и представление
результатов экспериментов
УЧЕБНОЕ ПОСОБИЕ
РОСТОВ-НА-ДОНУ 2010
Введение
Вниманию студентов и магистров предлагается учебное пособие по современным методам исследования технологических процессов, машин и аппаратов пищевой промышленности. Современные методы исследования и интерпретации результатов экспериментов невозможны без использования всего потенциала компьютеров и их программного обеспечения.
Отличительная особенность учебного пособия - его ориентация на широкое использование ЭВМ и табличного процессора Excel
фирмы Microsoft. Тем самым авторы опустили описание вычислительных процедур.
Найденные в результате экспериментов закономерности в технологических процессах, машинах и аппаратах имеют не только теоретическую, познавательную ценность, они широко применяются на
практике для расчетов основных размеров и оптимального проведения
процесса. В значительном числе случаев закономерности могут быть
обнаружены при целенаправленном статистическом изучении явления,
включающем сбор данных, их систематизацию и упорядочение и,
наконец, статистический, регрессионный и дисперсионный анализ.
Обычно наблюдаемый процесс или явление подвержено воздействию
множества факторов, то каждое индивидуальное его проявление будет
отличаться от другого. При достаточном большом объеме наблюдений
случайные воздействия в значительной мере взаимно погашаются, и
результат становится мало зависящим от случая.
Важным методом изучения процессов и аппаратов пищевого
производства является построение их абстрактных математических
моделей. Модель представляет собой некоторое отображение (аналог)
реальной действительности в основных, существенных для целей исследования чертах.
Большое число хорошо подобранных примеров, занимающих
значительный объем пособия, имеет не только иллюстративное назначение, но и представляют интерес при выполнении курсовых и дипломных проектов и для начальных научных исследований студента.
3
1 Основные понятия математической статистики
Математическая статистика занимается установлением закономерностей, которым подчинены массовые случайные явления, на основе обработки статистических данных, полученных в результате
наблюдений.
Основные понятия математической статистики.
Генеральная совокупность – все множество имеющихся
объектов.
Выборка – набор объектов, случайно отобранных из генеральной совокупности.
Объем генеральной совокупности N и объем выборки n – число
объектов в рассматриваемой совокупности.
Виды выборки: Повторная – каждый отобранный объект перед выбором следующего объекта возвращается в генеральную совокупность. Бесповторная – отобранный объект в генеральную совокупность не возвращается.
1.1 Первичная обработка результатов экспериментов
Пусть интересующая нас случайная величина X принимает в
выборке значения x1 n1 раз, x2 – n2 раз,…, xk – nk раз причем
k
n
i 1
k
 n , где n – объем выборки. Тогда наблюдаемые значения слу-
чайной величины x1, x2,…, xk, называют вариантами, а n1, n2,…, nk,
частотами. Если разделить каждую частоту на объем выборки, то получим относительные частоты wi 
ni
. Последовательность вариn
ант, записанных в порядке возрастания, называют вариационным
рядом, а перечень вариант и соответствующих им частот или относительных частот – статистическим рядом.
1.2 Полигон частот. Выборочная функция распределения и гистограмма
Для наглядного представления о поведении исследуемой случайной величины в выборке можно строить различные графики. Один
4
из них – полигон частот: ломанная, отрезки которой соединяют точки с координатами (x1, n1), (x2, n2),…, (xk, nk), где xi откладывается на
оси абсцисс, а ni – на оси ординат. Если на оси ординат откладывать
не абсолютные (ni), а относительные (wi) частоты, то получим полигон относительных частот.
Выборочной (эмпирической) функцией распределения
называют функцию
F * ( x), определяющую для каждого значения x
относительную частоту события X<x. Таким образом,
F * ( x) 
nx
n
Где nx –число вариант, меньших x, n – объем выборки.
В отличие от эмпирической функции распределения, найденной опытным путем, функцию распределения F ( x ) генеральной совокупности называют теоретической функцией распределения. F ( x )
определяет вероятность события X<x, а
F * ( x) - его относительную
частоту. При достаточно больших n, как следует из теоремы Бернулли,
F * ( x) стремится по вероятности к F ( x) .
Для непрерывного признака графической иллюстрацией служит гистограмма, то есть ступенчатая фигура, состоящая из прямоугольников, основаниями, которых служат частичные интервалы длиной h, а высотами - отрезки длиной ni/h (гистограмма частот) или wi/h
(гистограмма относительных частот). В первом случае площадь гистограммы равна объему выборки, во втором – единице.
1.3 Числовые характеристики статистического распределения
Выборочным средним называется среднее арифметическое
значение случайной величины, принимаемым в выборке:
k
ni xi
x1  x2  ...  xn n1 x1  n2 x2  ...  nk xk 
i 1
xB 


,
n
n
n
Где xi – варианты, ni – частоты.
Выборочной дисперсией называется:
n
DB 
 ( xi  xB )2
i 1
n
n

 n (x  x
i 1
i
i
n
5
B
)2
,
А выборочным средним квадратичным отклонением –
 B  DB
Другими характеристиками вариационного ряда являются:
- мода M0 – варианта, имеющая наибольшую частоту;
- медиана me – варианта, которая делит вариационный ряд на
две части, равные по числу вариант. Если число вариант нечетно
(n=2k+1), то me = xk+1, а при четном числе вариант n = 2k
me 
xk  xk 1
.
2
При статистическом исследовании двумерных случайных величин основной задачей обычно является выявление связи между составляющими. Двумерная выборка представляет собой набор значений
случайного вектора (x1, y1), (x2, y2),…, (xn, yn). Для нее можно определить выборочные средние составляющих xB 
x
i
n
yB 
y
i
n
и
соответствующие выборочные дисперсии, и средние квадратические
отклонения. Кроме того можно вычислить условные средние: y x среднее арифметическое наблюдавшихся значений Y, соответствующих X=x и x y - среднее значение наблюдавшихся значений X, соответствующих Y=yю
Если существует зависимость между составляющими двумерной случайной величины, она может иметь разный вид: функциональная зависимость и статистическая зависимость, при которой изменение одной величины приводит к изменению распределения другой.
Если при этом в результате изменения одной величины меняется
среднее значение другой, то статистическую зависимость между ними
называют корреляционной.
1.4 Качество данных
Первое, с чем сталкивается исследователь в случае, когда данные уже представлены для анализа, - это с качественной характеристикой данных и с тем, что обобщенно можно назвать их структурой.
Рассмотрим качественную характеристику данных.
Обычно контроль качества данных включает в себя следующие
моменты:
6
 визуальную или автоматическую проверку данных с целью
выявления тех значений, которые логически несовместимы или противоречат предварительной информации о правдоподобных границах
изменения отдельных переменных. Слежение за минимальным и максимальным значением каждой из переменной - это минимальный объем контроля данных;
 тщательный просмотр частотных распределений основных
переменных для выявления небольших групп резко уклоняющихся
наблюдений;
 тщательный анализ диаграмм рассеяния пар переменных,
которые с большой степенью уверенности можно считать сильно связанными. Этот подход более чувствителен к выявлению резко уклоняющихся наблюдений;
 контроль над методами сбора данных. Цель его заключается
в том, чтобы обнаружить источники, если таковые существуют, смещения в измерениях и оценить степень приближенности измерений и
выделить ошибки записи для основных переменных;
 восстановление пропущенных наблюдений, включая и
наблюдения, которые были пропущены по причине их чрезвычайно
подозрительного характера.
Данные должны быть высокого качества без затраты чрезвычайно больших усилий на получение значений соответствующих величин с нереалистической точностью. С другой стороны, при чрезмерном
округлении теряется полезная информация.
Современные компьютеры позволяют, для большинства процессов, собирать и обрабатывать данные в реальном времени. Относительная простота, с которой можно получить и проанализировать данные, зависит от области приложений и сильно влияет на глубину анализа.
Рассмотрим несколько примеров получения качественных данных.
Пример 1, в котором показывается, как можно найти и исключить сомнительные данные из ряда наблюдений. При распределении
выборочной совокупности в вариационный ряд бывают случаи, когда
отдельные варианты сильно отклоняются от соседних с ними вариант,
«выскакивают» из общего строя распределения, и возникает сомнение
в их принадлежности к данной генеральной совокупности. Причины
могут быть разными: во-первых, технические ошибки, во-вторых, «выскакивание» вариант может быть следствием сильной вариабельности
признака, т.е. явлением вполне нормальным. Если варианты попали в
выборку случайно и к данной генеральной совокупности не принадле7
жат, их надо отбросить. В противном случае этого делать нельзя.
Оценку «выскакивающих» вариант нужно делать обоснованно.
Существует несколько методов статистической оценки «выскакивающих» вариант. Довольно простым, точным и быстрым является
использование функции ZТЕСТ табличного процессора Excel. Продемонстрируем этот метод на следующем примере. 109 проб воды, поступающей в технологический процесс, на содержание кальция (мг %)
распределились следующим образом (рисунок 1).
Видно, что частоты, особенно первых трех классов, резко выделяются из общего строя распределения, что вызывает сомнение в их
принадлежности к данной генеральной совокупности. Нужно оценить
эти варианты, «доброкачественность» данного вариационного ряда с
параметрами xср=11,78 мг % и  мг %. Используем для этого Excel. Составим массив из 109 результатов анализа и применив функцию
ZТЕСТ(Массив данных, Проверяемая варианта, ). Функция
ZТЕСТ вернула вероятности принадлежности вариант генеральной
совокупности представленные на рисунке 1, из которого следует, что
варианты 6,8, 7,3 и 7,8 имеют малую вероятность их принадлежности
генеральной совокупности, и поэтому их можно исключить из дальнейшего анализа.
1.5 Измерения и погрешность результата
Процесс измерения всегда представляет собой сравнение измеряемой величины с эталоном. Эталоном является некоторая другая
величина (такой же размерности), принимаемая за единицу измерения. Сравнение редко осуществляется непосредственным наложением
эталона на исследуемый объект, чаще используется какой-либо прибор.
Можно сформулировать следующее общее утверждение:
Измерение физической величины не может быть выполнено абсолютно точно. Любое измерение дает приближенный
результат, иначе говоря, содержит погрешность измерения.
Погрешностью измерения называется разность между истинным значением измеряемой величины A и результатом измерения ai
Абсолютная точность — понятие идеальное, и в экспериментах— бесполезное. Нет смысла проводить измерение массы с точностью до одного микрограмма. Измерять диаметр проволоки достаточно
с точностью до сотой доли миллиметра.
Измерения при экспериментах удовлетворяются приближенными
результатами измерения. Но при этом необходимо знать величину
8
погрешности результата измерения.
Обратим внимание, сама измеряемая величина A нам неизвестна.
Рисунок 1. Проверка «выпадающих» вариант
Прежде всего, заметим, что погрешность результата зависит от
9
используемого измерительного прибора. Многие приборы имеют шкалу с делениями. Разность значений, выражаемых соседними делениями, называется ценой наименьшего деления (ЦНД). У землемерной
ленты ЦНД = 1 см, у плотницкой рулетки ЦНД = 1мм, у микрометра
ЦНД = = 0,01 мм и т.д.
Цена наименьшего деления не обязательно является длиной.
Электроизмерительные приборы имеют ЦНД, выраженную в единицах
силы тока, электрического напряжения и т.д. Например, ЦНД может
быть равна 0,1 А; 1 мA; 5 мкА; 0,05 Вит.п. Если прибор не стрелочный,
а имеет цифровое табло, то ценой наименьшего деления является
единица младшего разряда табло (т.е. минимальная разность отображаемых значений).
Следует помнить, что измерять величину, меньшую, чем
цена наименьшего деления прибора, данным прибором некорректно! С помощью линейки с ЦНД = 1 см нельзя определить количество миллиметров, содержащихся в измеряемом отрезке. Для этого необходимо взять вторую линейку с ЦНД = 1 мм.
Из вышеприведенного описания процесса измерения можно сделать вывод, что разность (А – аi) не может превышать ЦНД. Значит,
чем меньше ЦНД, тем точнее прибор и тем меньше погрешность результата.
Может быть, в качестве погрешности взять ЦНД? Тогда мы получим верхнюю границу возможной погрешности. Кажется, что для
уменьшения погрешности результата достаточно взять более точный
прибор, т.е. прибор с меньшей ЦНД.
К сожалению, проблема является более сложной.
Оказывается, что если один и тот же человек повторит измерения одной и той же величины одним и тем же прибором в одних и тех
же условиях, то могут получиться разные результаты.
Дело в том, что «неизменность (идентичность) условий эксперимента» — понятие идеализированное и, строго говоря, нереальное.
Мы живем в мире, наполненном огромным множеством взаимодействий между объектами. Причем интенсивность этих взаимодействий
почти всегда изменяется со временем.
Наиболее важными являются два обстоятельства:
1. Причин, искажающих результат измерения, очень много. Хотя
каждая причина мало влияет на результат, их совокупное действие
может привести к сильному отличию величин А и аi , т.е. к большой
погрешности.
2. Самое печальное, что подобные погрешности невозможно
устранить и величины этих погрешностей невозможно заранее вычис10
лить. Поэтому такие погрешности называют случайными.
Случайная погрешность всегда присутствует в результате измерения, поэтому можно сделать важный вывод:
Результат измерения является случайной величиной.
На практике это утверждение означает, что при повторении в
идентичных условиях измерений исследуемой физической величины А,
вообще говоря, получаются неодинаковые числовые значения a1, a2,
..., аi .
Методики измерений следует подразделить на прямые и косвенные. При прямых измерениях определяемая величина сравнивается с единицей измерения непосредственно с помощью измерительного
прибора, который имеет шкалу, проградуированную в соответствующих единицах измерения. Значение физической величины считывается
по шкале прибора.
Примерами прямых измерений являются: измерение длины линейкой, времени секундомером и т.п. При определении массы с помощью рычажных весов подсчитывается сумма масс всех разновесов.
При косвенных измерениях определяемая величина вычисляется
по результатам прямых измерений других величин, с которыми она
связана функциональной зависимостью.
Следует подчеркнуть, что в косвенных измерениях определяемая величина вычисляется по результатам измерений других величин
с помощью формул или других алгоритмов, полученных теоретическим
путем.
Погрешности прямых измерений целесообразно разделить на систематические, случайные и промахи.
Систематические погрешности вызываются факторами, действующими либо одинаковым образом при повторных измерениях, либо
изменяющимися по определённому закону.
Систематические погрешности возникают из-за неправильного
выбора метода измерения, неправильной установки прибора (например, «сбит» ноль, прибор установлен в горизонтальное положение
вместо вертикального) и т.п. Систематическими являются ошибки при
округлении математических и физических констант. Как правило, источники систематических погрешностей тщательно анализируются,
выявляются причины этих ошибок, затем, по возможности, они устраняются.
Отличительная черта систематических погрешностей — возможность их предварительного расчета или полного устранения совершенствованием экспериментальной методики.
Проведем измерения какой-либо физической величины A не11
сколько раз. Как уже указывалось, мы получим, вообще говоря, несовпадающие результаты: a1, a2, ..., аi, ...,an , где n — число измерений.
Различие между числами аi может быть достаточно заметным, хотя
измерения проводятся в одинаковых условиях, тем же
измерения проводятся в одинаковых условиях, тем же самым методом
и одним и тем же исследователем.
Из-за случайного характера погрешности искомая величина
остаётся, вообще говоря, неизвестной.
Расчёт случайных погрешностей основан на теории вероятностей и математической статистике.
Прежде всего, в математической статистике доказывается, что
при отсутствии систематических погрешностей (или после их устранения) наилучшим приближением измеряемой величины А является так
называемое среднее статистическое результатов измерений
a
1 n
 ai
n i 1
(1)
Функция, например, СРЕДЗНАЧ(Данные) Excel вычисляет среднее значение массива данных.
При любом конечном числе измерений n невозможно гарантировать, что вычисленное среднее значение a в точности равно искомой
величине A. Дело в том, что, хотя в каждой конкретной серии измерений мы получаем n определенных чисел аi (i = 1, ... n), сами результаты измерений по своему смыслу являются случайными. Подсчитывая
каждый раз средние статистические a , мы получим, вообще говоря,
несовпадающие числовые значения для различных серий измерений,
хотя эти числа a будут группироваться в окрестности неизвестной
величины A. Следовательно, погрешность полученного результата —
разность A  a — также является случайной величиной.
Одна из важных теорем математической статистики утверждает,
что
при неограниченном увеличении числа измерений n
среднее статистическое a неограниченно приближается к искомой величине A.
Из этого следует, что повысить точность результата A  a можно путём увеличения числа измерений n. Но с другой стороны, невозможно проделать бесконечное количество измерений и достичь равенства A  a A = a . Поэтому необходимо получить количественное зна12
чение погрешности (A -a).
Математическая статистика предлагает в качестве среднего
значения случайной погрешности использовать следующую величину:
n
S0 
a  a 
i 0
2
i
(2)
n(n  1)
Эту величину иногда называют среднеквадратичным отклонением среднего значения.
Функция, например, СТАНДОТКЛОН(Число1; Число2,…) Excel
оценивает стандартное отклонение по выборке. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего.
Точнее говоря, S0 является средней мерой отклонения среднего
статистического a от истинного значения А.
Согласно математической статистике, для корректного представления результата измерений следует изначально задаться его
надёжностью или, иначе говоря, доверительной вероятностью α
Величина α берется такой, чтобы дополнительная вероятность
(1 - α) была столь мала, что событие с вероятностью (1 - α) практически не происходило бы при однократном испытании. На практике величина доверительной вероятности α выбирается близкой к единице,
например: 0,9; 0,95; 0,99.
Случайные погрешности принято представлять в виде доверительного интервала, длина которого определяется величиной доверительной вероятности. В качестве центра доверительного интервала
для измеряемой величины А берется ее среднее статистическое a ,
вычисленное по результатам серии измерений А. Границы этого доверительного интервала выражаются произведением среднеквадратичного отклонения и безразмерного коэффициента Стьюдента t ,v
Величина коэффициента Стьюдента зависит от ранее выбранной
доверительной вероятности α и целочисленного параметра v, называемого числом степеней свободы. При построении доверительного
интервала для измеряемой величины A число степеней свободы v берется на единицу меньше количества измерений n, проведенных в
одинаковых условиях. Численные значения коэффициентов Стьюдента
для различных доверительных вероятностей α и числа степеней свободы можно получить, используя функцию СТЬЮДРАСПОБР(α;v) или
13
из статистических таблиц.
Результат измерения физической величины A представляется в
виде: A a t α,n 1S0 .
A  a  t ,v  S0
Смысл записи таков: измеряемая величина A с вероятностью α
находится внутри интервала ( a  t ,v S0 ; a  t ,v S 0 ) . Иначе говоря, построенный интервал накрывает значение неизвестной величины A с
вероятностью α .
Помимо случайной погрешности ΔAсл, на результат измерения
влияет погрешность, вносимая прибором. Эту погрешность, называемую приборной, обозначим буквой δ. Чем меньше величина δ, тем более точным является прибор.
Для многих электроизмерительных приборов погрешность прибора выражается классом точности. Класс точности K — это приборная
погрешность, выраженная в процентах от максимально допустимых
показаний прибора по выбранной шкале измерения.
Поэтому число δ можно интерпретировать как среднюю погрешность с высоким уровнем доверия (близким к единице), полученным по
результатам большого числа измерений в ходе испытаний прибора.
Величины S0 и δ независимы. В математической статистике выводится, что общую погрешность результата можно представить следующим образом
A 
Где Aпр  t ,

3
 Aсл    Aпр 
2
2
,
является приборной погрешностью при дове-
рительной вероятности α.
Величины t , для разных значений α включены в таблицы коэффициентов Стьюдента.
Следовательно, результат измерения величины А может быть
представлен в виде
Aa
Косвенные измерения
 t
S
, n 1 0

2


  t , 
3

2
Пусть необходимо измерить численное значение физической величины Z, что невозможно выполнить прямыми методами. Исследуемая величина Z представляется в виде однозначной зависимости от
14
величин A, B, C, …:
Z  f ( A, B, C ,...)
(3)
причем явный вид функции f известен экспериментатору.
В ходе эксперимента численные значения величин A, B, C, ...
многократно измеряются в идентичных условиях. Затем, для каждой из
них вычисляются средние статистические
A, B , C ,... , а затем подстав-
ляются в функцию (3) вместо соответствующих величин A, B, C, ... .
Вычисленное значение
Z  f ( A, B, C ,...)
полагается искомым значением измеряемой величины Z. При
этом, согласно математической статистике, достигается наилучшее
приближение к истинному значению неизвестной Z.
После вычисления Z  Z необходимо провести оценку погрешности полученного приближения, разумеется, при выбранной доверительной вероятности α.
В курсе математической статистики доказывается, что если измерения A, B, C, ... проводятся независимо, то абсолютная погрешность ΔZ величины Z, заданной при помощи функции (2), может быть
представлена в следующем виде:
2
2
2
 f 
 f 
 f 
Z     A     B   
  C   ... (4)
 A  A A
 B  B  B
 C C C
f f f
,
,
,...
Где величины
A B C
2
2
2
частные производные функции (4) по переменным A, B, C, ... соответственно.
Выражения для производных получаются аналитическим дифференцированием заданной функции (4). Нижние индексы у производных означают, что численные значения производных рассчитываются после замены аргументов A, B, C, ... на ранее полученные средние статистические:
A  A, B  B, C  C ,...
Величины ΔA, ΔB, ΔC,… в формуле (4) — абсолютные погрешности величин A, B, C,... соответственно, каждая из которых рассчитывается по методике, изложенной выше.
Абсолютная погрешность ΔZ, полученная по формуле (4), представляет собой полуширину доверительного интервала для искомой
величины Z при установленной доверительной вероятности α. Оконча15
тельный результат для косвенно измеряемой величины Z можно записать в виде:
Z  Z  Z
Пример 2. Измерялось значение коэффициента сопротивления
 истечению зернистого материала из боковой щели бункера, функционально связанным с несколькими другими величинами однозначной
зависимостью



H0  H  2
tS
g
Где H0 -0,52 м – начальная высота материала в бункере , H =
0,32 м – конечная высота материала в бункере;  - площадь поперечного сечения бункера, м2 ; S – площадь поперечного сечения щели, м 2;
t – время истечения, с; g = 9,81 м/с2 - гравитационное ускорение.
Высота материала в бункере измерялась с абсолютной точно
стью H 0  H  0, 005 м . Абсолютная точность измерения времени
составляла t  0, 01 c Линейные размеры поперечного сечения бункера и щели измерялись с абсолютной точностью l  0, 001 м . Абсолютная погрешность измерения поперечного сечения бункера и щели
определялась по формулам
  a l  b l  0, 235  0,001  0,155  0,001  0,0004 м2 ,
S  o l  b l  0,015  0,001  0,155  0,001  0,0002 м2
где a, b, o – размеры сечения бункера и щели, м.
Абсолютная погрешность измерения коэффициента 
2
 
2
 ( H0  H ) 2 
 ( H 0  H ) 2  1  
2
2
   2    t 

     



tS g
S g
 t  



2
 ( H 0  H ) 2  1  
2

   2    S 


t g
 S 

Для случая, когда H0 = 0,52 м; H = 0,32 м;   0,0364 м2; t =77,5
с; S 0,0018 м2; получаем предельную абсолютную погрешность для 
равную Δθ= 0,0167 с-1 Вычисления для данных параметров дает значение θ=0,15 с-1. Окончательный результат для косвенно измеряемой
величины θ можно записать в виде:
  0,15  0,0167 c 1
16
2 Статистическая проверка статистических гипотез
Статистической гипотезой называют гипотезу о виде неизвестного распределения генеральной совокупности или параметрах
известных распределений.
Нулевой (основной) называют выдвинутую гипотезу H0.
Конкурирующей (альтернативной) называют гипотезу H1, которая
противоречит нулевой.
Простой называют гипотезу, содержащую только одно предположение, сложной - гипотезу, состоящую из конечного или бесконечного числа простых гипотез.
В результате проверки правильности выдвинутой нулевой гипотезы (такая проверка называется статистической, так как производится с применением методов математической статистики) возможны ошибка первого рода, состоящая в том, что будет отвергнута
правильная нулевая гипотеза, и ошибка второго рода, заключающаяся в том, что будет принята неверная гипотеза.
Какая из ошибок является на практике более опасной, зависит
от конкретной задачи. Например, если проверяется правильность выбора метода лечения больного, то ошибка первого рода означает отказ от правильной методики, что может замедлить лечение, а ошибка
второго рода (применение неправильной методики) чревата ухудшением состояния больного и является более опасной.
Вероятность ошибки первого рода называется уровнем значимости α.
Основной прием проверки статистических гипотез заключается в
том, что по имеющейся выборке вычисляется значение некоторой случайной величины, имеющей известный закон распределения.
Статистическим критерием называется случайная величина K
с известным законом распределения, служащая для проверки нулевой
гипотезы.
Критической областью называют область значений критерия,
при которых нулевую гипотезу отвергают, областью принятия гипотезы – область значений критерия, при котором гипотезу принимают.
Итак, процесс проверки гипотезы состоит из следующих этапов:
1) выбирается статистический критерий K;
2) вычисляется его наблюдаемое значение Kнабл по имеющейся
выборке;
3) поскольку закон распределения K известен, определяется
(по известному уровню значимости α) критическое значение kкр, разделяющее критическую область и область приня17
тия гипотезы (например, если p(K>kкр)=α, то справа от kкр
располагается критическая область, а слева – область принятия гипотезы;
4) если вычисленное значение Kнабл попадает в область принятия гипотезы, то нулевая гипотеза принимается, если в критическую область – нулевая гипотеза отвергается.
Различают разные виды критических областей:
- правостороннюю критическую область, определяемую неравенством K> kкр (kкр>0);
- левостороннюю критическую область, определяемую неравенством K< kкр (kкр<0);
- двустороннюю критическую область, определяемую неравенствами K< k1 K> k2 (k2> k1)
Мощностью критерия называют вероятность попадания критерия в критическую область при условии, что верна конкурирующая
гипотеза.
Если обозначить вероятность ошибки второго рода (принятия
неправильной нулевой гипотезы) β, то мощность критерия 1- β. Следовательно, чем больше мощность критерия, тем меньше вероятность
совершить ошибку второго рода. Поэтому после выбора уровня значимости следует строить критическую область так, чтобы мощность критерия была максимальной.
Пример 3. Оценка нормального закона распределения довольно просто и с достаточной точностью достигается путем нахождения теоретических частот по частотам эмпирического вариационного
ряда, с последующим сопоставлением эмпирического и вычисленного
рядов друг с другом.
Для определения теоретических частот вариационного ряда по
нормальному закону служит следующая рабочая формула:
p 
n i

f (t ) ,
где p  - вычисленная или теоретическая частота; n - сумма
всех частот; i - величина классового интервала эмпирического ряда; 
- среднее квадратическое отклонение эмпирического ряда; f(t) - функция плотности нормального распределения.
В Excel имеется функция НОРМРАСП, которая возвращает
нормальную функцию распределения для указанного среднего и стандартного отклонения. Синтаксис НОРМРАСП(x; среднее; стандартное_откл; интегральная), где x - это значение, для которого строится распределение; среднее - это среднее арифметическое распре18
деления; стандартное_откл - это стандартное отклонение распределения; интегральная - это логическое значение, определяющее
форму функции. Если интегральная имеет значение ИСТИНА, то
функция НОРМРАСП возвращает интегральную функцию распределения; если это аргумент имеет значение ЛОЖЬ, то возвращается
функция плотности распределения. На рисунке 2. показан ход вычислений и полученные результаты по данным рисунка 1
На рисунке 2 показано графическое изображение эмпирических и теоретических частот распределения вариационного ряда. Из
графиков нельзя однозначно определить принадлежность исследуемого ряда наблюдений к нормальному распределению. Для этого необходимо использовать иные критерии.
Статистическая оценка расхождений, наблюдаемых между эмпирическими и теоретическими частотами вариационного ряда, производится с помощью критерия 2. Эмпирического значения 2 определяется по формуле

n
2
эмп

i 1
 p  p 
2
(5)
p
Для данных рисунка 2
2
2
 эмп
 9,8   ст
 ХИ 2ОБР(0,5;10)  18,31
При доверительной вероятности 0,05 и числе степеней свободы k = 13 - 3=10 нулевая гипотеза сохраняется; небольшие расхождения между частотами эмпирическими и вычисленными по нормальному
закону следует признать случайными.
Пример 4. Оценку расхождений между эмпирическими и теоретическими частотами вариационного ряда можно провести с помощью непараметрического критерия, предложенного А.Н.Колмогоровым
и Н.В.Смирновым. Этот критерий, обозначаемый , представляет максимальную разность (dmax ) между значениями накопленных частот эмпирического и теоретически вычисленного рядов (без учета зн аков разности), отнесенную к корню квадратному из суммы n всех вариант совокупности:

 p   p 
n
max

d max
n
,
где p и p/ - эмпирические и теоретические частоты. Критические значения критерия , соответствующие трем порогам доверительной вероятности 0,95; 0,99; 0,999, соответственно равны 1,36;
1,63 и 1,95.
19
Рисунок 2. Оценка закона распределения
Покажем применение критерия  на примере рисунка 2. Накопленные частоты и разница между ними представлены в столбцах
F5:F17 и G5:G17. Вычисление критерия дает
20

d max
n

16, 45
 1, 6
106
Полученная величина превысила первый порог доверительной
вероятности и поэтому нулевая гипотеза не может быть отвергнута
при доверительной вероятности лишь 0,99, т.е. эмпирическое распределение можно отнести к нормальному распределению. Так как два
критерия оценки дали разные результаты при одной и той же доверительной вероятности, то необходимо использовать другие более мощные критерии проверки нулевой гипотезы.
Пример 5. Проверка гипотезы о равномерном распределении.
При использовании критерия Пирсона для проверки гипотезы о
равномерном распределении генеральной совокупности с предполагаемой плотностью вероятности
 1
, x  ( a, b)

f ( x)   b  a
0, x  ( a, b)
Необходимо, вычислив по имеющейся выборке значение
xB , оценить параметры a и b по формулам:
a*  xB  3 B
b*  xB  3 B ,
где a* и b* - оценки a и b.
Затем, предполагая, что f ( x ) 
1
, можно найти теореb  a*
*
тические частоты по формулам
n1  np1  nf ( x)( x1  a* )  n
n2  n3  ...  ns1  n
ns  n
1
( x1  a* );
b  a*
*
1
( xi  xi 1 ), i  1, 2,..., s  1;
b  a*
*
1
(b*  xs 1 )
*
b a
*
Здесь s – число интервалов, на которые разбита выборка.
Наблюдаемые значения критерия Пирсона вычисляются по
формуле (5), а критические по таблице распределения 2с учетом того, что число степеней свободы k = s-2.
Пример 6. Проверка гипотезы о показательном распределении.
21
В этом случае, разбив имеющуюся выборку на равные по длине
xi* 
интервалы, рассмотрим последовательность вариант
xi  xi 1
,
2
равноотстоящих друг от друга (считаем, что все варианты, попавшие в
i –й интервал, принимают значение, совпадающее с его серединой), и
соответствующих им частот n (число вариант выборки, попавшие в i –й
интервал). Вычислим по этим данным x B и примем в качестве оценки
параметра λ и величину
* 
1
. Тогда теоретические частоты выxB
числяются по формуле
ni  ni pi  ni p ( xi  X  xi 1 )  ni (e   xi  e   xi1
Затем сравниваются наблюдаемое и критическое значение
критерия Пирсона с учетом того, что число степеней свободы k=s – 2.
Пример 7. Критерий для проверки гипотезы о сравнении двух
дисперсий.
Пусть имеются две нормально распределенные генеральные
совокупности X и Y. Из них извлечены независимые выборки объемов
n1 и
n2, по которым вычисленные выборочные дисперсии s X и sY .
2
2
Требуется при заданном уровне значимости α проверить нулевую гипотезу H 0 : D( X )  D(Y ) о равенстве дисперсий рассматриваемых
генеральных совокупностей. Учитывая несмещенность выборочных
дисперсий, можно записать нулевую гипотезу так:
H 0 : M ( s X2 )  M ( sY2 )
В качестве критерия примем случайную величину
F
sБ2
sМ2
- отношение большей выборочной дисперсии к меньшей. Она
распределение Фишера-Снедекера со степенями свободы
 n1  1 и k2  n2  1 , где n1 – объем выборки, по которой вычислена
имеет
k1
большая дисперсия, а n2 – объем второй выборки. Рассмотрим два вида конкурирующих гипотез:
- пусть H1 : D( X )  D(Y ) . Наблюдаемым значением критерия
будет отношение большей из дисперсий к меньшей
22
Fнабл 
sБ2
. По
sМ2
таблице критических точек распределения Фишера-Снедекора можно
найти критическую точку Fнабл ( ; k1; k2 ) . При Fнабл  Fкр нулевая гипотеза принимается, при Fнабл  Fкр нулевая гипотеза отвергается;
- если
H1 : D( X )  D(Y ) , то критическая область является
двусторонней
и
определяется
неравенствами
F  F1 , F  F2 , где p( F  F1 )  p( F  F2 )   2 . При этом доста

; k1 , k2  . Тогда
2

нулевая гипотеза принимается, при Fнабл  Fкр нуле-
точно найти правую критическую точку F2  Fкр 
при Fнабл  Fкр
вая гипотеза отвергается.
3 Интервальные оценки неизвестных параметров
При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, что приводит к грубым
ошибкам. В таких случаях лучше пользоваться интервальными
оценками, то есть указывать интервал, в который с заданной точностью попадает истинное значение оцениваемого параметра.
Поэтому, если для оценки Θ* некоторого параметра Θ справедливо неравенство
*    
Число δ > 0 характеризует точность оценки. Но статистические методы позволяют говорить только о том, что это неравенство
выполняется с некоторой вероятностью.
Надежностью (доверительной вероятностью) оценки Θ* параметра Θ называется вероятность γ того, что выполняется неравенство
*     . Если заменить это неравенство двойным неравенством
  *     , то получим
p  *      *     
Таким образом, γ есть вероятность того, что Θ попадет в ин-


тервал          .
*
*
Доверительным называется интервал, в который попадает неизвестный параметр с заданной надежностью γ.
23
Доверительный интервал для оценки математического ожидания нормального распределения при известной дисперсии
Вероятность попадания нормально распределенной случайной
величины в заданный интервал определяется по известной из теории
вероятностей зависимости
t
t 

p  xB 
 a  xB 
  2(t )  
n
n

Значение математического ожидания a с вероятностью (надежностью) γ попадает в интервал
t
t 

; xB 
 xB 
,
n
n

Где значение t определяется из таблиц для функции Лапласа
так, чтобы выполнялось равенство 2Φ(t)= γ.
Пример 8. Найдем доверительный интервал для математического ожидания нормально распределенной случайной величины, если
объем выборки n=49, xB  2,8 , σ=1,4, а доверительная вероятность
γ=0,9.
Определим Φ(t)=0,9/2=0,45 t=1,645. Тогда
2,8 
1, 645 1, 4
1, 645 1, 4
или 2,471<a<3,129
 a  2,8 
49
49
Найден доверительный интервал, в который попадает a с
надежность 0,9.
Доверительный интервал для оценки математического ожидания нормального распределения при неизвестной дисперсии
Теория вероятности для такого случая определяет зависимость
ts
t s

p  xB    a  xB      ,
n
n

Где tγ – значение распределения Стьюдента при n и γ, s – средеквадратическое отклонение выборки.
Пример 9. Пусть объем выборки n=25, xB  3 , s=1,5. Найдем
доверительный интервал для a при γ=0,99. Из таблиц распределения
Стьюдента находим, что при tγ(n=25; γ=0,99) = 2,797. Тогда
24
3
2, 797 1,5
2, 797 1,5
, или 2,161<a<3,839 – дове a  3
25
25
рительный интервал, в который попадает a с вероятностью 0,99.
4 Корреляционный анализ
Однозначные или функциональные связи, когда определенному
значению, которое может принять переменная величина X, называемая аргументом, соответствует только одно значение переменной Y,
называемой функцией, встречаются далеко не всегда. Обычно числовому значению одного признака соответствует не одно и то же определенное значение, а целая гамма варьирующих значений другого,
связанного с ним признака (или признаков).
Зависимость между переменными случайными величинами X и Y,
при которой каждому значению одной из них соответствует не какоето конкретное значение, а определенная групповая средняя другой
величины, называется корреляционной, или просто корреляцией.
Корреляционный анализ сводится к измерению тесноты или степени сопряженности между варьирующими признаками, а также к
определению формы и направления существующей между ними связи.
По направлению корреляция бывает положительной, или прямой, и
отрицательной, или обратной, а по форме - линейной и нелинейной.
Во всех случаях задачами корреляционного анализа являются: установление формы и направления связи, существующей между варьирующими признаками, измерение ее тесноты с последующей оценкой
достоверности эмпирических показателей связи.
Корреляцию между признаками можно обнаружить разными способами. Расположение в возрастающем или убывающем порядке двух
сопряженных рядов позволяет судить о наличии или отсутствии связи
между ними. Более наглядное представление дают корреляционные
таблицы и графики регрессии, которые показывают корреляционную
зависимость между признаками в динамике.
Для количественной оценки степени связи между признаками
служат параметрические или непараметрические показатели. Выбор
того или иного показателя зависит, во-первых, от того, по каким признакам проводится корреляционный анализ - количественным или качественным, а во-вторых, от формы корреляционной зависимости (линейная или нелинейная связь), а также от того, группируются или не
группируются выборочные данные в вариационные ряды.
25
Excel имеет несколько функций, предназначенных для корреляционного анализа:
КОРРЕЛ(Массив1; Массив2) возвращает коэффициент корреляции между интервалами ячеек Массив1 и Массив2.
КОВАР(Массив1; Массив2) возвращает ковариацию, то есть
среднее произведений отклонений для каждой пары точек данных.
Ковариация используется для определения связи между двумя множествами данных.
Коэффициент корреляции r служит для измерения силы или
тесноты линейной связи между значениями признаков. Он может
принимать значения от - 1 до +1
Для качественной оценки тесноты корреляционной связи между
X и Y можно воспользоваться таблицей Чеддока.
Диапазон изменения
r
Характер тесноты связи
0,1…0,3
0,3…0,5
0,5…0,7
0,7…0,9
0,9…0,99
слабая
умеренная
заметная
высокая
Весьма
высокая
Выборочный коэффициент корреляции, являясь величиной случайной, может оказаться отличным от нуля даже при независимом
варьировании признаков. Поэтому возникает необходимость рассматривать его в качестве оценки генерального параметра (. Нулевая
гипотеза применительно к оценке генерального  по величине эмпирического коэффициента корреляции (r) заключается в предположении, что  = 0, т.е. между случайными величинами X и Y корреляция
отсутствует.
Для проверки нулевой гипотезы служит критерий t-Стьюдента,
который вычисляется при числе наблюдений n<100 по формуле
t
r n2
1 r2
.
Нулевая гипотеза отвергается, если ttst для степеней свободы
k=n-2 и принятого уровня вероятности (P). Это значит, что в генеральной совокупности   0 и, следовательно, выборочный коэффициент корреляции достоверно отличается от нуля, между X и Y существует корреляционная связь. При t  tst нулевая гипотеза сохраняется,
отклонение выборочного коэффициента корреляции от нуля считается
чисто случайным.
26
При малых выборках оценка коэффициента корреляции описанным выше способом может оказаться недостаточно точной. Обойти
затруднения в оценке выборочного коэффициента корреляции позволяет предложенный Р.Фишером метод, в котором вместо коэффициента корреляции для его оценки используют связанную с ним вспомогательную величину Z. Эта величина может быть найдена с помощью
функции Excel ФИШЕР(x), где x является вычисленным для малой
выборки коэффициентом корреляции. Полученная величина tz сравнивается со стандартом Стьюдента tst для принятого уровня значимости и
степеней свободы k = n - 2.
При вычислении коэффициента корреляции между двумя признаками не учитывалась зависимость их от других варьирующих признаков технологического процесса. Между тем технологический процесс - сложная система, части которой, ее признаки сложным образом
взаимодействуют друг с другом. Поэтому наряду с изучением парных
корреляций при исследовании возникает задача измерения множественных связей между варьирующими признаками процесса. Эта задача решается путем вычисления коэффициента совокупной корреляции и частных коэффициентов корреляции. Совокупный коэффициент
корреляции между тремя учитываемыми признаками X, Y и Z вычисляется по формуле:
rxyz 
rxz2  ryz2  2rxy rxz ryz
,
1  rxy2
где rxy, rxz, ryz - парные коэффициенты линейной корреляции
между признаками X и Y, X и Z, Y и Z.
Совокупный коэффициент корреляции обладает теми же свойствами, которые присущи и парным коэффициентам линейной связи.
Частный коэффициент корреляции между признаками X и Y
при исключении влияния на эту связь третьего варьирующего признака Z равняется
rxy ( z ) 
rxy  rxz ryz
(1  rxz2 )(1  ryz2 )
.
Коэффициент частной корреляции между признаками X и Z при
исключении влияния связанного с ними третьего признака Y равен
27
rxz  rxy ryz
rxz ( y ) 
(1  rxy2 )(1  ryz2 )
.
И коэффициент частной корреляции между Y и Z при постоянном значении признака X равняется
ryz  rxy rxz
ryx ( z ) 
(1  rxy2 )(1  rxz2 )
.
Для измерения нелинейной зависимости между переменными
величинами X и Y используют корреляционное отношение .
Корреляционное отношение характеризует связь между варьируемыми
признаками двусторонне - Y по X и X по Y, и выражается двумя показателями y/x и x/y.
 2yx

 2y
y / x

y/ x

и
x / y
(y
i
 2xy

 2x
, или
 y ) 2   ( yi  y x ) 2
 ( y  y)
 x)   (x  x
 (x  x)
2
и
i
 x/ y 
 (x
2
i
i
y
2
)2
.
i
Здесь
xi , yi ; 
xy , yx
2
yx
,
2
xy
- частные средние;
x , y - общие средние вариант
- частные дисперсии;
 2y ,
2
x
- общие дисперсии
совокупности.
Как и коэффициент корреляции, корреляционное отношение
принимает значение от 0 до 1: чем сильнее связь между признаками,
тем выше значение . При отсутствии корреляции =0. Показатели
корреляционного отношения обычно не равны между собой, лишь при
строго линейной связи между переменными осуществляется их равенство.
Для проверки достоверности полученных корреляционных отношений используется критерий
28
n2
1  2
t 
,
критические значения, которого сравниваются со стандартным
значением распределения Стьюдента tst для принятого уровня значимости (P) и числа степеней свободы (k=n-2). Нулевая гипотеза, т.е.
предположение об отсутствии связи между признаками, отвергается
при tф  tst.
5 Коэффициент корреляции Спирмэна
Заданы две выборки x=(x1, …, xn), y=(y1, …, yn).
Обозначим через Lx – число объектов в выборке x
Txj – число объектов в l-ой связке, l=1,…, Lx;
Ly – число связок в выборке y;
Tyj – число объектов в l-ой связке, l=1,…, Ly.
Выборкам X и Y соответствуют последовательности рангов:
Rx   Rx1 ,..., Rxn  , где Rxi – ранг I – го объекта в вариационном
ряду выборки X;
Ry   Ry1 ,..., Ryn  где Ryi – ранг I – го объекта в вариационном
ряду выборки Y.
Коэффициент корреляции Спирмэна равен
n


  R
i 0
xi

n  1 
n 1 
 Ryi 

2 
2 
,
1 3
n  n  
12
L
1 Lx
1 y
2
2
Где    Txi Txi  1   Tyi Tyi  1 .
2 i 1
2 i 1
Коэффициент корреляции Спирмена ρ изменяется от -1 до 1. Равенство ρ=1 указывает на строгую линейную корреляцию, ρ=0 указывает на отсутствие корреляции.
Статистическая проверка наличия корреляции. Нулевая гипотеза
H0: Выборки X и Y не коррелируют, ρ=0.
Статистика критерия:
29
 n2
tn  2 , где tn-2 – распределение Стьюдента с n-2 степе-
1  2
нями свободы.
Критерий (при уровне значимости α):
Против альтернативы H1 наличие корреляции
Если
где
r > tn- 2, a
tn- 2, a - a - квантиль распределения Стьюдента
с n - 2 степенями свободы
В случае выборок из нормального распределения коэффициент
корреляции Спирмена ρ может быть использован для оценки коэффициента корреляции Пирсона r по формуле
r  sin

2
Проведем операцию упорядочивания рангов.
Расположим ряд значений xi в порядке возрастания величины:
x1  x2  ...  xn тогда последовательность рангов упорядоченной выборки x будет представлять собой последовательность натуральных чисел 1, 2,…, n. Значения y соответствующие значениям x
образуют в этом случае некоторую последовательность рангов
T=(T1,…, Tn)
R
xi
, Ryi  sort  (i, Ti ), i  1,..., n (sort – операция упорядочи-
вания рангов).
Коэффициент корреляции Спирмена ρ и коэффициент корреляции Кендалла r выражается через ранги Ti , i=1,…, n следующим образом:
  1
12
  j  i  Ti  T j 
n  n t j
r  1
4
 Ti  T j 
n 1 t j 
3
2
Коэффициент корреляции Спирмена учитывает насколько сильна
неупорядоченность.
Если выборка X и Y не коррелируют (выполняется гипотеза H0),
то коэффициент корреляции между величинами ρ и r можно вычислить
по формуле:
30
2n  2
corr (  , r ) 
4n 2  10n
Ранги
рядов
Расчет рангов
Y
d2
№ пп
Xp-yp
Y производительность г/с
X высота, см
№ пп
Пример 10. Исследовалась зависимость между производительностью наддозаторного бункера и высотой материала в бункере при
вибрационном воздействии на сыпучий материал. Результаты представлены в таблице
Y
1
17,7
74
1
3
-2,0
4,0
1
70
1
2
18
70
2,5
1
+1,5
2,25
2
72
2
3
18
80
2,5
6,5
-4,0
16,0
3
74
3
4
19
72
4,5
2
+2,5
6,25
4
76
4
5
19
77
4,5
5
-0,5
0,25
5
77
5
6
20
76
6
4
+2,0
4,0
6
80
6,5
7
21
89
7
9
-2,0
4,0
7
80
6,5
8
22
80
8
6,5
+1,5
2,25
8
86
8
9
30
86
9
8
+1,0
1,0
9
89
9
Xp
Yp
Σ
Yp
40,0
Если бы отдельные варианты не повторялись, их рангами были
бы порядковые числа, помещенные в первом столбце таблицы. Но так
как некоторые варианты повторяются, например варианты 18 и 19, то
их рангами будут среднеарифметические из соответствующих порядковых чисел. Так, для варианты 18 ранг определяется как полусумма
порядковых чисел 2 и 3 , т.е.(2+3)/2=2,5. Для следующей варианты
ранг выражается полусуммой (4+5)/2=4,5. Таким же образом рассчитывается ранги по ряду Y, как это показано в крайних справа столбцах
таблицы.
Подставляя известные значения в формулу Спирмена, находим
величину рангового коэффициента корреляции. Для этого мы используем формулу для случая Tx =Ty=1
  1
6 d 2
n(n  1)
2
 1
6  40
 0, 67
9  (92  1)
Статистическая проверка наличия корреляции. Статистика критерия:
31
tф 
 n2
1 
2

0, 67 9  2
1  0, 67 2
 2,39  t9 2; 0,05  2,36
Нулевая гипотеза не выполняется – представленные варианты
коррелируют между собой.
Пример 11.
Были проведены эксперименты по определению коэффициента
сопротивления k вращения шара в сыпучей среде при различных параметрах вибрации и на различной глубине сыпучей среды.
Для определения коэффициента сопротивления k мы провели
ранжирование параметров влияющих на момент, необходимый для
вращения шара в сыпучей среде, подверженной вибрации.
Участвовало 10 экспертов, которым была поставлена задача:
выделить влияющие факторы и установить ранг влияющих факторов
по убывающей шкале.
Экспертные оценки показали, что момент, необходимый для
вращения шара зависит от следующих факторов:
вибрационной скорости A (A - амплитуда колебаний, - круговая частота колебаний);
радиуса шара R;
насыпной плотности сыпучего материала ρ;
коэффициент внутреннего трения сыпучего материала f ;
эквивалентного размера частицы сыпучего материала dэ;
глубины погружения шара h;
угловой скорости вращения шара ωs;
коэффициента сопротивления k.
Введем следующие обозначения:
Q1 – вибрационная скорость Aω;
Q2 – радиус шара R;
Q3 –насыпная плотность сыпучего материала ρ;
Q4 – коэффициент внутреннего трения сыпучего материала f ;
Q5 – эквивалентный диаметр частицы сыпучего материала dэ;
Q6 – глубина погружения шара h;
Q7 – угловая скорость вращения шара ωs;
Q8 – коэффициент сопротивления k.
Качественная оценка выявленных факторов по экспертам показана в таблице.
Мы воспользовались услугами группы из m = 10 экспертов,
установили результирующие ранги n = 8 факторов, но возник вопрос о
согласованности мнений этих экспертов или конкордации.
32
Оценим степень согласованности мнений экспертов по отношению к восьми факторам. Для каждого из факторов наблюдается отклонение суммы рангов, указанных экспертами, от среднего значения
такой суммы (di). Поскольку сумма этих отклонений всегда равна нулю,
для их усреднения разумно использовать квадраты значений.
Таблица рангов факторов, влияющих на производительность
лотка
di2
Эксперт
Фактор
1
2
3
4
5
6
7
8
9
10
Σ
Q1
7
7
6
7
7
7
7
7
7
7
67
144
Q2
6
6
7
5
6
6
6
6
6
6
60
625
Q3
4
5
5
6
5
5
5
5
5
5
50
25
Q4
5
3
3
4
4
3
4
4
4
4
38
169
Q5
1
3
3
3
1
1
1
2
1
2
18
729
Q6
3
2
2
2
3
3
3
3
3
3
27
324
Q7
2
2
2
1
2
3
2
1
2
1
18
729
Q8
8
8
8
8
8
8
8
8
8
8
80
1225
Сумма
358
3970
Среднее
44,75
В нашем случае сумма таких квадратов составит s = 3970, а в
общем случае эта сумма будет наибольшей только при полном совпадении мнений всех экспертов по отношению ко всем факторам:
Smax  m2 (n3  n) /12
где m =10 – количество экспертов; n = 8 – число факторов
М. Кендаллом предложен показатель согласованности K или коэффициент конкордации, определяемый как
K
s
S max

12  s
12  3970
 2 3
 0,94
3
m (n  n) 10 (8  8)
2
33
В нашем примере значение коэффициента конкордации составляет 0.94, что при десяти экспертах и восьми факторах достаточно,
чтобы с вероятностью не более 0.05 (по В.Ю. Урбаху) принять нулевую
гипотезу, что мнения экспертов по ранжированию факторов согласованными.
Поскольку предварительного согласования между экспертами не
было, то имеет смысл оценить весомость факторов. Весомость факторов pфi определим по выражению
n 10
pфi 
r
i
1
n 10 m 8
 r
i
1
1
Диаграмма (рисунок 3) весомости факторов pфi построенная по
приведенной формуле показана на рисунке.
0,25
Весомость
0,2
0,15
0,1
0,05
0
Q1
Q2
Q3
Q4
Q5
Q6
Q7
Q8
Ранжируем ый фактор
Рисунок 3 Диаграмма весомости факторов
Из диаграммы следует, что фактор Q5 – эквивалентный диаметр
частицы сыпучего материала dэ, Q7 – угловая скорость вращения шара
ωs могут быть исключены из рассмотрения в виду их незначительного
влияния на производительность лотка.
Используем метод ранговой корреляции, чтобы ответить на вопрос — насколько коррелированны, неслучайны ранжировки каждого
из экспертов, а значит — насколько можно доверять результирующим
рангам? Как обычно, выдвигается основная гипотеза — об отсутствии
связи между ранжировками и устанавливается вероятность справедливости этой гипотезы. Для этого можно использовать два подхода:
определение коэффициентов ранговой корреляции Спирмэна
(C.Spearmen, 1904) или Кендалла.
Более простым в реализации является первый — вычисляется
значение коэффициента Спирмэна
34
Rs  1 
6 ( d i ) 2
n(n 2  1)
.
Матрица парных коэффициентов Спирмэна представлена в таблице
Матрица парных коэффициентов Спирмэна
1
1
2
3
4
5
6
7
8
9
10
1
0,88
0,86
0,86
0,98
0,93
0,98
0,95
0,98
0,95
1
0,98
0,95
0,93
0,93
0,93
0,95
0,93
0,95
1
0,90
0,90
0,90
0,90
0,93
0,90
0,93
1
0,90
0,86
0,90
0,90
0,90
0,95
1
0,98
1,00
0,98
1,00
0,98
1
0,98
0,93
0,98
0,93
1
0,98
1
0,97
1
0,98
1,00
1
0,98
2
3
4
5
6
7
8
9
10
1
Матрица, естественно, симметрична относительно диагонали.
Нулевая гипотеза об отсутствии связи между ранжировками отвергается. Ранговые коэффициенты корреляции Спирмэна высокие, и выбранные факторы могут быть приняты как аргументы для поиска
функциональной
зависимости, определяющей производительность
вибрационного лотка.
6 Регрессионный анализ
Пусть
имеется
две
группы
числовых
переменных
X ( x1 ,..., x p ) и Y ( y1 ,..., y p ) причем предполагается, X – независимая
o
o
переменная (фактор) влияет на значение Y – зависимой переменной
(отклик). В общем случае предполагается, что обе переменные измерены в количественных шкалах (интервальной, абсолютной или шкале
отношений). Также постулируется независимость самих измерений,
35
т.е. одни наблюдения не оказывают систематического влияния на другие.
Предположим, что из совокупности наблюдений X-Y может быть
укомплектована репрезентативная выборка ( X i , Yi ), i  1,..., n сопряженных измерений, выполненных в идентичных пространственновременных условиях. Необходимо по имеющейся выборке построить
функцию f(X), которая приближенно описывала бы изменение Y при
изменении X:
Y
f (X )
Уравнение кривой, полученной в результате обработки данных
наблюдений, может подтолкнуть исследователя к пониманию внутренних взаимосвязей изучаемого явления.
Предполагается, что множество допустимых функций, из котороf ( X , q ) , где q –
го подбирается f(X), является параметрическим: Y
неизвестный
параметр.
Если
имеет
место
равенство
f ( X , q)  A(q) X , где A(q) – некоторая матрица коэффициентов, то
функция f ( X , q ) линейно зависит от параметров q и мы имеем дело с
задачей линейного регрессионного анализа.
При построении аппроксимирующей функции будем считать, что
Y  f ( X , q)  e
Где первое слагаемое – закономерное изменение Y от X, а второе e – случайная составляющая с нулевым средним. Функция
f ( X , q ) является условным математическим ожиданием Y при условии
известного X и называется регрессией Y по X. Слагаемое e отражает
как внутреннюю присущую отклику стохастическую изменчивость
(ошибку измерения), так и влияние факторов, не учтенных в f ( X , q ) .
Рассмотрим случай простой линейной регрессии. Пусть X и Y одномерные величины, обозначенные как x и y, а функция f(x, y) имеет
вид f(x, y)=A+bx, где q=(A,b). Относительно имеющихся наблюдений
(xi, yi), i=1,…,n, полагаем, что
yi  A  bxi  ei ,
Где e1,…en – независимые (ненаблюдаемые) одинаково распределенные случайные величины.
Существует ряд методов подбирать «лучшую» прямую линию, из
которых наиболее широко используется метод наименьших квадратов
(МНК), который заключается в следующем. Построим оценку параметров q=(A,b) так, чтобы величины
36
ei  yi  f ( xi , q)  yi  A  bxi
Называемые остатками, были как можно меньше, а именно,
чтобы сумма их квадратов была минимальной:
n
n
 e    y  A  bx 
i 1
2
i
i 1
i
2
i
 min по ( A, b)
Рассчитать уравнение регрессии не представляет никакой сложности, при наличии компьютера с установленным табличным процессором Microsoft Excel, или любого другого пакета статистических программ. Основные методологические трудности возникают в ходе проверки выполнения априорных предпосылок регрессионного анализа и
последующей оценки адекватности полученного уравнения.
В Microsoft Excel имеется функция ЛИНЕЙН, которая рассчитывает статистику с применением метода наименьших квадратов, чтобы
вычислить прямую линию, которая наилучшим образом аппроксимирует имеющиеся данные. Функция возвращает массив, который описывает полученную прямую линию. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива.
Уравнение для прямой линии имеет вид:
y  mx  b или
y  m1 x1  m2 x2  ...  b для случая нескольких
диапазонов значений x
Где зависимое значение y – функция независимого значения x,
m – коэффициенты соответствующие каждой независимой переменной
x, а b – постоянная. Функция ЛИНЕЙН возвращает массив
(mn, mn-1, …,m1, b) и дополнительную регрессионную статистику.
Дополнительная регрессионная статистика:
Величина
se1, se2, …,sen
seb
r2
Описание
Стандартные значения ошибок для коэффициентов
m1, m2,…,mn
Стандартное значение ошибки для постоянной b
Коэффициент детерминированности. Сравниваются
фактические значения y и значения, получаемые из
уравнения прямой, по результатам сравнения вычисляется коэффициент детерминированности, нормированный от 0 до 1. Если он равен 1, то имеет место
полная корреляция с моделью, т.е. нет различия
между фактическими и оценочными значениями y, В
противоположном случае, если коэффициент детерминированности 0, то уравнение регрессии неудачно
37
Величина
Описание
для предсказания значений y.
Стандартная ошибка для оценки y
F – статистика, или F – наблюдаемое значение. F –
статистика используется для определения того, является ли наблюдаемая взаимосвязь между зависимой и независимой переменными случайной или нет.
Степени свободы. Степени свободы полезны для
нахождения F – критических значений в статистической таблице. Для определения уровня надежности
модели нужно сравнить значения в таблице с F –
статистикой, возвращаемой функцией ЛИНЕЙН.
Регрессионная сумма квадратов.
Остаточная сумма квадратов
sey
F
df
ssreg
ssresid
В приведенной ниже таблице показано, в каком порядке возвращается дополнительная статистика.
A
B
1
mn
2
C
D
E
F
mn-1
m2
m1
b
sen
sen-1
se2
se1
seb
3
r2
sey
4
F
df
5
ssreg
ssresid
Пример 12. Изучая зависимость между показателями X и Y,
проведено обследование объектов и получены следующие значения:
X
120
70
100
55
75
85
110
80
60
95
y
4,6
2,6
4,3
2,4
3,1
3,8
4,2
2,9
2,7
3,4
Покажем, что между X и Y имеет место линейная корреляционная связь, определим уравнение регрессии Y  b  mX .
Для решения поставленной задачи используем табличный процессор Excel Microsoft Office. Результаты представлены в таблице.
38
Рисунок 4 Вычисление коэффициентов линейной регрессии
В столбце А2:А11 занесены значения X, а в столбце B2:B11 –
значения Y.
Была применена функция ЛИНЕЙН (B2:B11; A2:A11; ИСТИНА;
ИСТИНА). Результат ее работы в ячейках A12:B16.
В ячейке B12 находится значение b=0,451235, и в ячейке B13
стандартное значение ошибки постоянной b seb=0,389996.
Ячейке A12 находится значение m = 0,034691, и в ячейке A13
стандартное значение ошибки коэффициента a sem=0,0034691.
В ячейке B14 представлена стандартная ошибка Y sey=0,284136.
В ячейке A14 возвращен коэффициент детерминированности
r2=0,882996, который показывает связь между фактическими значениями Y и полученными значениями из модели. Как видим связь эта высокая по классификации Чеддока.
Можно использовать F статистику, чтобы определить, является
ли этот результат (с таким высоким r2) случайным.
Предположим, что на самом деле нет взаимосвязи между переменными, просто статистический анализ вывел высокую взаимосвязь
по взятой выборке. Возьмем α=0,05 вероятность ошибочного вывода о
39
том, что имеется высокая взаимозависимость. В выходных данных величины F=60,37351 (ячейка А15) и df=8 (ячейка B15) используем для
оценки вероятности получения наибольшего значения F. Величина F
может сравниваться с критическими значениями в публикуемых таблицах F-распределения или FРАСОБР Excel может быть использована
для вычисления возможности получения наибольшего значения F. Соответствующее F-распределение имеет степени свободы v1 и v2, которые вычисляются для нашего случая по формулам
v1  n  df  1  10  8  1  1
v 2  df  8
Критический уровень FРАСОБР(0,05;1;8)=Fкр=5,318. Поскольку
значения F = 60,37351 намного больше 5,318, крайне нежелательно
получение большего случайного значения F и при α=0,05 гипотеза об
отсутствии связи между X и Y отвергается.
Использование функции FРАСП(F;v1;v2) предоставляет возможность получить большие значения F. Значение вероятности
FРАСП(60,37351;1;8)=5,38.10-5 – чрезвычайно мало. Из этого можно
заключить, что уравнение регрессии можно использовать для прогнозирования.
Таким образом, мы получили уравнение регрессии
y  0, 45  0, 035 x
Рисунок 5 График регрессии
40
Мы округлили значения коэффициентов до двух значащих цифр,
как это диктует нам точность начальных значения вариантов.
График линии регрессии представлен на рисунке 5.
Линию регрессии мы провели через две точки: первая xcp=85 и
ycp=3,4 – средние значения вариант и вторая точка, вычисленная по
регрессионному уравнению при x= 120 (120; 4,63).
Функциональные формы регрессионных моделей с примерами
нелинейных зависимостей представлены в таблице
Функциональная
форма
Примеры
Полиноминальная
Y  a0  a1X  a 2 X 2  a3 X 2  ...  akX k
Y
Гиперболическая
a0
a1  X
Y  a  a0  a1X  a 2 X 2  ...  akX k 
Семейство обращенных полиноминальных функций
Y  X  a0  a1X  a 2 X 2  ...  akX k 
Y
 b0  b1X  b2 X
 a0  a1X  a2 X
2
2
 ...  bkX k 
 ...  akX k 
Логлинейная
ln Y  a0  a1ln X
Обобщенная логарифмическая
Y  a0  a1ln X  a2 X
Степенная
Y  a0  a1X c , где с  любое
вещественное число
Экспоненциальная
Y  aebX
Функции Гомперца
ln Y  b  ae  X
Y
Логистическая
Экспоненциальностепенная
c
1  e( a bX )
Y  aebX X c
Обращенная экспоненциальная
Y
1
a  b  e X
Показательная
Y  a bX
Тригонометрическая
Y  b0  b1sin  X  b2cos  X
41
Слово «линейный» в названии «линейный регрессионный анализ» указывает на линейность модели относительно параметров aj, но
не факторов Xj. Это означает, что мы можем проделать с выборкой X
любые функциональные преобразования и включить преобразованные
факторы в линейное уравнение. В некоторых случаях, приведенных в
таблице, нельзя свести нелинейную функцию f(x) к линейной форме. В
такой ситуации оценки наименьших квадратов параметров a и b приходится получить с помощью итерационных вычислительных процедур, осуществляющих последовательное приближение к минимуму
суммы квадратов
n
Q(a, b)   (Yi  f (a, b, xi )) 2
i 1
Выполнить это приближение можно стандартными методами нелинейной оптимизации – методами Ньютона-Рафсона, Нелдера-Мидда
и проч., включаемыми в большинство пакетов статистических программ.
7 Дисперсионный анализ
Дисперсионный анализ (от латинского Dispersio – рассеивание) –
статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан
биологом Р. Фишером в 1925 году и применялся первоначально для
оценки экспериментов в растениеводстве. В дальнейшем выяснилась
общенаучная значимость дисперсионного анализа для экспериментов
в психологии, педагогике, медицине и др.
Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения
дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или
иного фактора или их взаимодействия. Последующее сравнение таких
слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.
При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью,
должна быть близкой к оценке межгрупповой дисперсии.
На практике часто возникают задачи проверки существенности
различий средних выборочных нескольких совокупностей. Например,
42
требуется оценить влияние различного сырья на качество производимой продукции, решить задачу о влиянии количества удобрений на
урожайность с/х продукции.
Иногда дисперсионный анализ применяется, чтобы установить
однородность нескольких совокупностей (дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле
совокупности однородны). Однородные же совокупности можно объединить в одну и тем самым получить о ней более полную информацию, следовательно, и более надежные выводы.
В процессе наблюдения за исследуемым объектом качественные
факторы произвольно или заданным образом изменяются. Конкретная
реализация фактора (например, определенный температурный режим,
выбранное оборудование или материал) называется уровнем фактора
или способом обработки. Модель дисперсионного анализа с фиксированными уровнями факторов называют моделью I, модель со случайными факторами - моделью II. Благодаря варьированию фактора
можно исследовать его влияние на величину отклика. В настоящее
время общая теория дисперсионного анализа разработана для моделей I.
В зависимости от количества факторов, определяющих вариацию результативного признака, дисперсионный анализ подразделяют
на однофакторный и многофакторный.
Основными схемами организации исходных данных с двумя и
более факторами являются:
- перекрестная классификация, характерная для моделей I, в которых каждый уровень одного фактора сочетается при планировании
эксперимента с каждой градацией другого фактора;
- иерархическая (гнездовая) классификация, характерная для
модели II, в которой каждому случайному, наудачу выбранному значению одного фактора соответствует свое подмножество значений второго фактора.
Если одновременно исследуется зависимость отклика от качественных и количественных факторов, т.е. факторов смешанной природы, то используется ковариационный анализ.
При обработке данных эксперимента наиболее разработанными
и поэтому распространенными считаются две модели. Их различие
обусловлено спецификой планирования самого эксперимента. В модели дисперсионного анализа с фиксированными эффектами исследователь намеренно устанавливает строго определенные уровни изучаемого фактора. Термин «фиксированный эффект» в данном контексте
43
имеет тот смысл, что самим исследователем фиксируется количество
уровней фактора и различия между ними. При повторении эксперимента он или другой исследователь выберет те же самые уровни фактора. В модели со случайными эффектами уровни значения фактора
выбираются исследователем случайно из широкого диапазона значений фактора, и при повторных экспериментах, естественно, этот диапазон будет другим.
Таким образом, данные модели отличаются между собой способом выбора уровней фактора, что, очевидно, в первую очередь влияет
на возможность обобщения полученных экспериментальных результатов. Для дисперсионного анализа однофакторных экспериментов различие этих двух моделей не столь существенно, однако в многофакторном дисперсионном анализе оно может оказаться весьма важным.
При проведении дисперсионного анализа должны выполняться
следующие статистические допущения: независимо от уровня фактора
величины отклика имеют нормальный (Гауссовский) закон распределения и одинаковую дисперсию. Такое равенство дисперсий называется гомогенностью. Таким образом, изменение способа обработки сказывается лишь на положении случайной величины отклика, которое
характеризуется средним значением или медианой. Поэтому все
наблюдения отклика принадлежат сдвиговому семейству нормальных
распределений.
Говорят, что техника дисперсионного анализа является "робастной". Этот термин, используемый статистиками, означает, что данные
допущения могут быть в некоторой степени нарушены, но несмотря на
это, технику можно использовать.
При неизвестном законе распределения величин отклика используют непараметрические (чаще всего ранговые) методы анализа.
В основе дисперсионного анализа лежит разделение дисперсии
на части или компоненты. Вариацию, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая
дисперсия σ2. Она является мерой вариации частных средних по группам
хj
вокруг общей средней
k
2 
 (x
j1
j
х
и определяется по формуле:
 x)2  n j
k
n
j1
j
,
44
где k - число групп;
nj - число единиц в j-ой группе;
хj
х
- частная средняя по j-ой группе;
- общая средняя по совокупности единиц.
Вариацию, обусловленную влиянием прочих факторов, характеризует в каждой группе внутригрупповая дисперсия
 2j .
n
 2j 
 (x
i 1
ij
 x j )2
n
.
Между общей дисперсией
и межгрупповой дисперсией
   
2
0
2
2

 02 ,
2
внутригрупповой дисперсией
2
существует соотношение:
.
Внутригрупповая дисперсия объясняет влияние неучтенных при
группировке факторов, а межгрупповая дисперсия объясняет влияние
факторов группировки на среднее значение по группе.
Пример 13. Проводилось исследование зависимости производительности тарельчатого объемного дозатора Y в г/c от толщины
слоя продукта на тарелке X1 в мм и положения сбрасывающего
скребка X2 в мм. Результаты замеров, проведенных на основе планирования эксперимента, представлены в таблице.
Y
X1
X2
X1X2
Y
X1
X2
X1X2
3,41 4,76 1,96 3,96
2,2
3,96
3,36
20
40
20
40
16
44
30
5
5
15
15
10
10
3
100 200 300 600
160
440
90
3
3,9 3,93 3,83 3,86
3,83
30
30
30
30
30
30
10
10
10
10
10
10
300 300 300 300
300
300
Для вычисления корреляционных отношений y/x1, y/x2, y/x1x2
составим следующую таблицу.
Определение y/x1
Определение y/x2
X1
Y
YX1
X2
Y
YX2
16
2,2
2,2
3
3,36
3,36
45
Определение y/x1
X1
Y
YX1
20
3,41
2,885
20
1,96
2,885
30
3,36
3,67
30
3
3,67
30
3,9
3,67
30
3,93
3,67
30
3,83
3,67
30
3,86
3,67
30
3,83
3,67
40
4,76
4,36
40
3,96
4,36
44
3,96
3,96
Определение y/x2
X2
Y
YX2
5
3,41
4,085
5
4,76
4,085
10
2,2
3,56
10
3
3,56
10
3,9
3,56
10
3,93
3,56
10
3,83
3,56
10
3,86
3,56
10
3,83
3,56
10
3,96
3,56
15
1,96
2,96
15
3,96
2,96
Определение
y/x1x2
X1X2
90
100
160
200
300
300
300
Определение
y/x1x2
X1X2
300
300
300
300
440
600
Y
YX1X2
Y
YX1X2
3,36
3,36
3,93
3,47
3,41
3,41
3,83
3,47
2,2
2,2
3,86
3,47
4,76
4,76
3,83
3,47
1,96
3,47
3,96
3,96
3
3,47
3,96
3,96
3,9
3,47
Таблица составлялась следующим образом. Признак, например
X1, ранжировался, т.е. его значения разместили по возрастанию. Для
каждого значения признака в следующем столбце помещались значения Y. Так как для одного и того же значения X1 соответствуют различные значения Y, то в столбце YX1 для значений X1 заносилось
среднее значение Yi. Например, для X1=20, Y=3,41 и 1,96, тогда
YX1=(3,41+1,96)/2=2,885, которое было записано для значений X1=20
в третий столбец. Аналогично было сделано для других признаков.
Общая и частные дисперсии вычислялись с помощью функции
Excel ДИСП(Массив). В результате имеем:
 2y  0,585, 
y / x1
 0,408, 
2
y/ x2
 0,108, 
2
y / x1 x 2
 0,309.
Применив формулу для вычисления корреляционных отношений
46
y / x
 2yx

 2y

y/ x
x / y
и
(y

 x/ y 
(здесь
x,y
xy , yx

2
yx
,
 2xy

 2x
i
, или
(1)
 y ) 2   ( yi  y x ) 2
 (x
(y
i
i
 x ) 2   ( xi  x y ) 2
(x
i
 x)2
- частные средние;
2
xy
и
 y)2
x, y -
i;
ант i
- частные дисперсии;
персии совокупности)
получаем корреляционные отношения:
.
общие средние вари-
 2y ,
2
x
- общие дис-
 y / x1 0,835,  y / x 2  0,431,  y / x1x 2  0,727.
.
Корреляционные отношения говорят о довольно сильной зависимости между производительностью Y и толщиной слоя X1 и произведением X1 и положением скребка X2. В то время как зависимость
между производительностью дозатора Y и положением скребка X2
умеренная.
Проверим достоверность полученных величин. Для этого, используя критерий (2), получим
t y / x1  5,03 t y / x 2  1,58 t y / x1x 2  3,51
.
Для уровня значимости 0,05 и числе степеней свободы k=132=11 критическое значение tst с помощью функции СТЬЮДРАСПОБР(0,05; 11) оказалось равным 2,201.
t y / x1  5,03  2,201 t y / x 2  1,58  2,201 t y / x1x 2  3,51  2,201
Корреляционные отношения производительности по толщине
слоя на тарелке (X1) и по произведению параметров толщины слоя и
положения заслонки (X1X2) достоверны, в то время как корреляционное отношение производительности по положению заслонки (X2) является недостоверным.
Получим регрессионное уравнение, которое количественно
определило бы связь между параметрами настройки объемного тарельчатого дозатора.
47
Приблизим эмпирические данные полиномом второго порядка
без первой и второй степени признака X2, поскольку его влияние незначительно:
Y  b0  b1 X 1  b12 X 1 X 2  b11 X 12 .
Читателю предлагается самостоятельно получить коэффициенты
регрессии с помощью функции ЛИНЕЙН MS Excel.
8 Пример, в котором получено критериальное уравнение
Пример 14. При опытах по перемешиванию различных жидкостей пропеллерными мешалками было обнаружено, что затрачиваемая
мешалкой мощность N зависит от вязкости μ, плотности жидкости ρ,
число оборотов мешалки n и диаметра d. Требуется найти общий вид
критериальной зависимости, связывающей перечисленные переменные.
Р е ш е н и е . Экспериментальная установленная зависимость в
самой общей форме может быть записано в виде:
N   (  ,  , n, d )
(а)
Так как мы имеем всего 5 переменных величин ( N, μ, ρ, n, d) и 3
основные (первичные) единицы измерения СИ (кг, м, сек), то на основании π – теоремы искомая зависимость должна иметь вид:
 (1 ,  2 ) или 1  f ( 2 )
где π1 и π2 – неизвестные пока безразмерного выражения, составленные из входящих в уравнение (а) переменных.
Для отыскания безразмерных комплексов π1 и π2 придадим произвольно уравнению (а) следующий вид:
N  C x  y nz d v
(б)
где С – безразмерный коэффициент; x, y, z, v –постоянные (пока
неизвестные) безразмерные показатели степени.
Напишем для уравнения (б) равенство размерностей левой и
правой частей:
 кг  м 2   кг 
 сек 3    сек  м 


 
x
 кг 
 3 
м 
y
z
v
 1 

  м

 сек 
или
кг  м 2  сек 3  кг x  y  м  x 3 y v  сек  x  z
Так как размерности левой и правой частей уравнения должны
быть одинаковыми, получим следующие три уравнения
48
1 x y
2  x  3y  v
3   x  z
Решить систему из трех уравнений для четырех неизвестных
нельзя. Можно, однако, выразить три неизвестных через четвертую.
Сделаем это для всех четырех возможных вариантов.
1. Выразим y, z, v через x:
y  1 x
z  3 x
v  5  2x
Подставляем полученные значения в уравнение (б):
N  C 
x
1 x
3 x
n d
5 2 x
 C   n n d d
x
x
3 x
5
2 x
  
 C n d 
2 
  nd 
3
x
5
Откуда
  nd 2 
N

C


 n3 d 5
  
Так как соотношение
x
(в)
N
представляет собой критерий мощ n3 d 5
ности
N
 KN ,
 n3 d 5
а комплекс
 nd 2

- критерий Re
 nd 2
 Reц ,

то уравнение (в) можно переписать так:
K N  C Reц x
(г)
2. Выразим x, z, v через y:
x  1 y
z  2 y
v  3 2y
Подставляем полученные значения в уравнение (б):
49
N  C   n n d d
y
y
2
y
3
2y
  nd 2 
 Cn d 

  
2
y
3
(д)
N
 C Reцy
2 3
n d
Преобразуем левую часть последнего уравнения:
N
 nd 2
N
 nd 2



 K N Reц
 n2 d 3  nd 2  n3d 5 
Следовательно, уравнение (д) можно переписать так:
K N Reц  С Reцy
Или
K N  С Reцy 1
(е)
3. Выразим x, y, v через z:
x  3 z
y  z2
v  2z 1
Подставляем полученные выражения в уравнение(б):
 3   nd 2 
N  C    n d d  C 2 

 d  
3
N  2d
3
z
z
2
z
2z
z
1
 C Reцz
(ж)
Преобразуем левую часть:
N  2d
3
N  2 d  3 n3 d 6
N
 3 n3 d 6

 3 3 6  3 5
 K N Re3ц
3
3

nd
n d

Подставляем в уравнение (ж):
K N Re3ц  C Reцz
или
K N  C Reцz 3
(з)
4. Выразим x, y, z через v:
x
5v
2
y
v3
2
z
v 1
2
Подставляем полученные значения в уравнение (б):
50
N  C 
52
v 2
 
v2
 5 2 n1 2   nd 2 
n n d C


3 2   
3 2 v 2 1 2
v2
v
N 23
 C 2 Reцv
5
n
N 2  3 N 2  3  2 n5 d 10  N 
 5  2 5 10   3 5 
 5n
n  nd
 n d 
2
5
  nd 5 
2
5

  K N Reц
  
Следовательно:
K N2 Re5ц  C 2 Reцv
v 5
или K N  C Reц 2
(и)
Сравнивая уравнения (г), (е), (з), (и) мы видим, что все решения
приводят к одной итой же формуле:
K N  C Reц x
Это и есть искомая критериальная зависимость. Численные значения постоянных могут быть определены только по экспериментальным данным.
СОДЕРЖАНИЕ
Введение ................................................................................................................ 3
1 Основные понятия математической статистики ........................................ 4
1.1 Первичная обработка результатов экспериментов ........................... 4
1.2 Полигон частот. Выборочная функция распределения и
гистограмма ....................................................................................................... 4
1.3 Числовые характеристики статистического распределения ........... 5
1.4 Качество данных........................................................................................ 6
1.5 Измерения и погрешность результата ................................................. 8
2 Статистическая проверка статистических гипотез ................................. 17
3 Интервальные оценки неизвестных параметров .................................... 23
4 Корреляционный анализ ............................................................................... 25
5 Коэффициент корреляции Спирмэна ......................................................... 29
6 Регрессионный анализ ................................................................................... 35
7 Дисперсионный анализ ................................................................................. 42
8 Пример, в котором получено критериальное уравнение ...................... 48
51
Download