Введение Изучение статистических совокупностей, состоящих из множеств единиц, связано с большими трудовыми и материальными затратами. С давних пор представлялось заманчивым не изучать все единицы совокупности, а отобрать лишь некоторую часть, по которой можно было бы судить о свойствах всей совокупности в целом. Попытки такого рода делались еще в ХVII в. Выборочный метод обследования, или как его часто называют выборка, применяется, прежде всего, в тех случаях, когда сплошное наблюдение вообще невозможно. Обследование может быть связано с уничтожением или порчей обследуемых единиц. Так, например, при контроле качества хлебобулочных изделий, консервов и т.д. изделие после контрольных операций становится непригодным для реализации, что делает сплошной контроль невозможным. Невозможно сплошное обследование и в тех случаях, когда обследуемая совокупность очень велика, практически безгранична. Например, совокупность участков морского дна или совокупность колосьев пшеницы на поле. Во всех случаях выборочный метод позволяет сберегать значительные количества труда и средств как на этапе сбора сведений, так и на этапе их обработки и анализа. Экономия же труда и средств, получаемая при замене сплошного наблюдения выборочным, имеет немаловажное значение. Все эти положительные качества привили к широкому применению метода выборочного наблюдения. В нынешних условиях организации производственной и торговой деятельности данный метод как способ проверки качества продукции применяется большинством предприятий и организаций. 1 1. Понятие выборочного наблюдения При сплошном наблюдении – множество всех единиц данной совокупности носит название генеральной совокупности. Средняя арифметическая какого-либо признака, вычисленная для всех единиц этой совокупности, носит название генеральной средней и обозначается символом X . Приведенным понятиям генеральной совокупности и генеральной средней при выборочном обследовании соответствуют понятия выборочной совокупности и выборочной средней. Выборочная совокупность – это совокупность единиц, попавших в выборку. Средняя арифметическая, вычисленная на основе значений какого-либо признака у всех единиц выборочной совокупности, носит название выборочной средней и обозначается символом ~ Х i , где i – номер выборки. В зависимости от конкретных условий для выборки единиц применяются различные приемы отбора: 1) собственно случайный отбор - состоит в отборе случайно попавших единиц совокупности; 2) механический отбор – когда все единицы наблюдаемой совокупности располагают в определенной последовательности (по номерам, по алфавиту и т.д.), единицы выбирают через определенный промежуток; 3) гнездовой отбор – производится в том случае, если для изучения берут не отдельные единицы совокупности, а отдельные группы единиц или гнезда; 4) типический отбор – состоит в том, что все единицы совокупности предварительно распределяют на группы по какому-либо типичному признаку, после чего из каждой типической группы отбирают единицы для обследования; 5) комбинированный отбор – применяют сразу два вида отбора. В экономико-статистических исследованиях используют следующие способы отбора единиц из генеральной совокупности: 1) индивидуальный отбор – в выборку отбираются отдельные единицы; 2) групповой отбор – в выборку попадаются качественно однородные группы или серии изучаемых явлений; 3) комбинированный отбор – как комбинация индивидуального и группового отбора. В зависимости от способа отбора единиц различают: 1. Повторная выборка. При повторном отборе вероятность попадания каждой отдельной единицы в выборку остается постоянной, так как после отбора какой-то единицы, она снова возвращается в совокупность и снова может быть выбранной. 2. Бесповторная выборка. В этом случае каждая отобранная единица не возвращается обратно, и вероятность попадания отдельных единиц в выборку все время изменяется (для оставшихся единиц она возрастает). В данной работе для получения выборок, их обработки и анализа результатов будет применена программа STATISTICA. 2 2. Формирование выборочной совокупности Важным вопросом подготовки выборочного наблюдения является определение объема выборочной совокупности, необходимой и достаточной для оценки тех или иных свойств генеральной совокупности. В практике экономико-статистических исследований, как правило, используется процедура бесповторного отбора единиц в выборочную совокупность. Исходными данными для данной работы служат ранжированные данные из первой лабораторной работы. Таблица 2.1 Ранжированные данные. № 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Хi 60,3 62,7 73,9 75,7 76,3 83,4 90,4 90,6 91,9 93,7 94,2 95,8 97,7 101,4 109,1 111,5 112,4 118 120,2 127,2 132,3 135,4 136,4 137,4 137,5 № 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Хi 142,5 142,7 142,9 144,4 146,1 147,6 148,6 150 150 150 150,1 152,2 153 156,1 157,2 158,5 165,1 165,5 166,4 167,8 171,2 171,4 172,9 175,1 182,3 № 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 Хi № 182,4 76 182,8 77 183,9 78 184 79 184,4 80 184,5 81 189,4 82 189,7 83 191,7 84 191,9 85 192,5 86 198,7 87 198,8 88 199,1 89 199,4 90 202,1 91 204,7 92 205,9 93 207 94 207,9 95 209,5 96 211,2 97 212,1 98 213,9 99 216,4 100 Хi 217,4 219,1 221,4 226,4 226,8 226,9 227 228,6 231,9 234,3 236,3 236,9 239,8 241,3 241,8 246,1 247 248,3 252,5 253,9 255,3 258,8 259,1 261,3 261,3 № 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 Первым этапом подготовки выборочного наблюдения является выборки. Расчет, как правило, проводится по следующей формуле: n= t 2 2 , 2 t 2 2 Хi 262,5 270,1 271,7 279,1 281,1 284,1 287,4 295,6 295,8 296,3 302,5 314 314,7 320,1 323,4 325,2 327,7 335,1 337,3 337,8 345,2 351 351,6 367 375,8 расчет объема (2.1) где N – объем генеральной совокупности (в данной работе - 125); t – параметр нормального распределения; находится по таблицам интегральной функции нормального распределения в соответствии с заданным уровнем доверительной вероятности (т.к. Р = 0,95 в данной работе, то t = 1,96); 3 σ – среднее квадратическое отклонение в генеральной совокупности; его величина берется по результатам предыдущего или пилотажного исследования, при отсутствии таковых, как 1/6 (1/5) размаха вариации (в данной работе σ = 74,90602); Δ – предельная ошибка выборки; устанавливает точность результатов выборочного наблюдения. В реальных условиях значение предельной ошибки выборки устанавливается экспертным путем, исходя из требований к точности результатов выборочного наблюдения. При определении величины предельной ошибки следует учитывать то, что уменьшение величины ошибки на порядок ведет к увеличению объема выборки на два порядка. В практических исследованиях, как правило, расчет объема выборки проводят многократно, с учетом разных значений ошибки. В выполняемой лабораторной работе предельная ошибка выборки принимается равной определенной доле генеральной средней (в данной работе Δ = 5% от генеральной средней, т.о. Δ = 0,05*202,3240 = 10,12). Имея все необходимые показатели, можно посчитать объем выборки. Т. о. n = 78. Так как для решения поставленной задачи всего нужно получить 6 выборок, то произвольно положим число элементов в выборках равным 12. Т. о. n1 = n2 = n3 = n4 = n5 = 12 и n6 = 78 Таблица 2.2 Генеральная совокупность и 6 выборочных (неполная таблица). Порядковый номер 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 Название 60,3 62,7 73,9 75,7 76,3 83,4 90,4 90,6 91,9 93,7 94,2 95,8 97,7 101,4 109,1 111,5 112,4 118 120,2 127,2 132,3 135,4 136,4 137,4 137,5 142,5 142,7 142,9 144,4 146,1 147,6 148,6 150 выборка 1 76,3 97,7 165,1 182,4 184,4 209,5 209,5 219,1 270,1 302,5 327,7 351 выборка 2 60,3 83,4 157,2 171,2 191,7 198,7 207 228,6 241,3 253,9 325,2 325,2 выборка 3 93,7 120,2 150 167,8 198,7 199,1 207,9 226,8 228,6 253,9 262,5 270,1 выборка 4 90,6 109,1 146,1 156,1 165,5 209,5 209,5 228,6 259,1 279,1 287,4 337,8 выборка 5 75,7 153 156,1 158,5 165,5 199,4 212,1 217,4 246,1 246,1 261,3 351,6 болвыборка 73,9 75,7 76,3 90,6 90,6 94,2 95,8 101,4 101,4 101,4 118 118 132,3 135,4 142,5 142,9 144,4 146,1 150 152,2 156,1 158,5 167,8 171,4 172,9 182,4 182,4 183,9 183,9 184 184,4 184,4 189,7 4 3. Статистическая обработка результатов выборочного наблюдения 3.1. Обработка данных с применением программы STATISTICA Обычно обработка выборочных данных предполагает расчет основных статистических характеристик выборки, величины ошибки выборки и, затем, вероятностную оценку параметров генеральной совокупности, и проверку гипотез о значениях этих параметров. В специализированных статистических программах эти расчеты объединены в одной процедуре. Результаты анализа выводятся на экран в виде следующей таблицы: Рис. 3.1.1. Результаты обработки выборочных данных. В первом столбце (Variable) представлены имена переменных (выборок). Mean – значения выборочных средних. Std. Dev. – значения среднего квадратического (стандартного) отклонения. N – объем выборки. Std.Err. – средняя ошибка выборки. Confidence -95,000% - нижняя граница доверительного интервала при вероятности 95%. Confidence +95,000% - верхняя граница доверительного интервала при вероятности 95%. Reference – гипотетическое значение генеральной средней величины (в нашем примере это значение известно из первой работы). t-value – расчетное значение t-критерия для проверки гипотезы о значении генеральной средней. df – число степеней свободы (определяется как N – 1). p – расчетный уровень значимости t-критерия. Таким образом, по данным каждой выборки рассчитаны: среднее значение анализируемого показателя, стандартное отклонение и величина средней ошибки выборки. Эти результаты позволяют, с учетом заданной доверительной вероятности (в примере 95%), определить границы доверительных интервалов для генеральной средней (графы: Confidence -95,000% и Confidence +95,000% на рис. 4.18.). Доверительный интервал для неизвестной генеральной средней определяется: ~ ~ X X , (3.1.1.) где — генеральная средняя; ~ X — выборочная средняя; — предельная ошибка выборки. Предельная ошибка выборки вычисляется по формуле: 5 t* , (3.1.2.) где t – параметр нормального распределения (для малых выборок – распределения Стьюдента); - средняя ошибка выборки, определяемая как: 2 n , (3.1.3.) где n – объем выборки; 2 - выборочная дисперсия. Таким образом получаем из рис. 3.1. таблицу с границами доверительных интервалов: 6 3.2. Обработка данных вручную По имеющимся формулам для получения представления техники расчета полезно рассчитать границы доверительных интервалов для шести выборок вручную. Таблица 3.2.1 Границы доверительных интервалов. выборка 1 выборка 2 выборка 3 выборка 4 выборка 5 болвыборка df t ~ X ~ X ~ X 84,97778 81,19131 55,99955 75,74917 69,92642 77,8186 24,53097 23,43791 16,16568 21,8669 20,18602 8,811221 11 11 11 11 11 77 2,2 2,2 2,2 2,2 2,2 1,99 53,96814 51,56341 35,56449 48,10718 44,40924 17,53433 216,275 203,6417 198,275 206,5333 203,5667 212,0538 270,2431 255,2051 233,8395 254,6405 247,9759 229,5881 162,3069 152,0783 162,7105 158,4261 159,1575 194,5195 ~ По данной таблице следует отметить, что параметры , df и X были взяты из таблицы на рисунке 3.1.1. А параметр t был рассчитан с помощью таблицы на рисунке 3.2.1. с учетом степеней свободы (df). Параметр рассчитан по формуле 3.1.3. А параметр рассчитан по формуле 3.1.2. 1 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 .50 .25 1.000 .816 .765 .741 .727 .718 .711 .706 .703 .700 .697 .695 .694 .692 .691 .690 .689 .688 .688 .687 .686 .686 .685 .685 .684 .684 .684 .683 .683 .683 .681 .679 .677 .674 .20 .10 3.078 1.866 1.638 1.533 1.440 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.289 1.282 .10 .05 6.314 2.920 2.353 2.132 1.943 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.658 1.645 .05 .025 12.70 4.303 3.182 2.776 2.447 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.980 1.960 .02 .01 31.82 6.965 4.541 3.747 3.143 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.576 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.358 2.326 Рис. 3.2.1. Таблица критических .01 .005 63.63 9.925 5.841 4.604 3.707 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.617 2.576 .005 .0025 127.3 14.08 7.453 5.598 4.317 4.317 4.020 3.833 3.690 3.581 3.497 3.428 3.372 3.326 3.286 3.252 3.222 3.197 3.174 3.153 3.135 3.119 3.104 3.091 3.078 3.067 3.057 3.047 3.038 3.030 2.971 2.915 2.860 2.807 .002 .001 318.3 22.32 10.21 7.173 5.208 5.208 4.785 4.501 4.297 4.144 4.025 3.930 3.852 3.787 3.733 3.686 3.646 3.610 3.579 3.552 3.257 3.505 3.485 3.467 3.450 3.435 3.421 3.408 3.396 3.385 3.307 3.232 3.160 3.090 .001 .0005 636.6 31.59 12.92 8.610 5.959 5.959 5.408 5.041 4.781 4.537 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.189 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.551 3.460 3.373 3.291 значений t - критерия Studenta 7 4. Графическое представление результатов выборочного наблюдения Для наглядного и компактного представления результатов проведенного выборочного наблюдения воспользуемся графическими возможностями ППП STATISTICA. Весьма существенным, с дидактической точки зрения, является то, что последовательное выполнение рассматриваемых лабораторных работ, дает возможность наглядного сравнения результатов выборочного и сплошного наблюдений. Вполне очевидно, что, по определению, такое сравнение исключено в реальных практических условиях. Прежде чем приступить к построению графика, потребуется выполнить ряд дополнительных преобразований. А именно, создать дополнительную таблицу с необходимыми данными. Система создает электронную таблицу с десятью графами, вручную добавляется еще 9. Графы необходимо озаглавить: генеральная средняя (ген.ср.), шесть выборочных средних (выб.ср. 1-6) и нижние (н.г. 1-6) и верхние (в.г. 1-6) границы доверительных интервалов, рассчитанные по каждой выборке. Все записи делаются в одну строчку. Рис. 4.1. Таблица с данными по выборкам. Следующим этапом будет построение графика доверительных интервалов. Рис. 4.2. Графическое сравнение результатов сплошного и выборочного наблюдения. 8 График наглядно показывает, что доверительные интервалы, построенные по всем выборкам, накрывают генеральную среднюю, что естественно. Если бы, какой либо доверительный интервал, рассчитанный по результатам выборки, не включал в себя значение генеральной средней, то в реальных условиях, это означало бы получение ошибочного вывода на основе выборки, то есть ошибку репрезентативности. Диаграмма наглядно демонстрирует возможный результат выборочного зондирования исследуемой генеральной совокупности и убедительно иллюстрирует объективную неоднозначность выводов, формулируемых на основе выборочных данных. 9 5. Проверка статистических гипотез о значении генеральной средней и равенстве двух генеральных средних 5.1. Первый способ проверки Наряду с определением доверительного интервала для неизвестной генеральной средней пользователю предоставляется возможность проверки простой гипотезы о значении генеральной средней (понятия простой и сложной гипотез рассматриваются в курсе теории вероятностей). В данном примере проверяется гипотеза: H0: Mean = 202,3240, где 202,3240 – точное значение генеральной средней (берется из первой расчетной работы). Гипотеза проверяется с помощью t-критерия, который рассчитывается по следующей формуле: t расч ~ |X X| . (5.1.1.) Расчетное значение критерия сравнивается с табличным и если соблюдается неравенство: t расч t табл , то гипотеза о значении генеральной средней принимается. Рассмотрим оценку гипотезы на примере Выборки 1: t расч | 216.2750 202,3240 | 0,56871 24,53097 Теоретическое значение критерия берется из таблиц распределения Стьюдента t табл 2.201 , где df = 11. Таким образом, имеем: t расч 0.56871 t табл 2.201 . Вывод очевиден – гипотеза о значении генеральной средней не отвергается. 5.2. Второй способ проверки Вывод о результатах проверки гипотезы можно сделать также через сопоставление расчетного уровня значимости (P) с принятым исследователем (обычно задается = 0.05). Гипотеза принимается при условии, что P> . P = 0,580978 > = 0,05. Делаем вывод, что гипотеза о значении генеральной средней не отвергается. 10 5.3. Третий способ проверки Процедура испытания статистических гипотез позволяет провести оценку существенности разности двух выборочных средних. Если разность между средними величинами статистически значима, это означает, что различие вызвано неслучайными факторами, или выборки не принадлежат одной генеральной совокупности. Иначе эта задача формулируется как проверка статистической гипотезы о равенстве двух средних: 0 : 1 2 . В литературе встречается тождественная формулировка гипотезы, а именно: : 0. 0 1 2 В нашем примере содержательно гипотеза формулируется следующим образом: взяты выборки из одной или из разных генеральных совокупностей? В контексте решаемой задачи ответ очевиден – выборки взяты из одной и той же совокупности. Но следует обратить особое внимание на проявление эффекта случайной ошибки репрезентативности. Реализация процедуры проверки гипотезы может дать, в редких случаях, парадоксальный результат, а именно, показать на основе t-критерия, что выборки как бы взяты из разных генеральных совокупностей с разными значениями средних величин. С дидактической точки зрения такой результат весьма полезен для понимания существа статистических выводов и степени их условности. Для демонстрации этого эффекта рекомендуется взять такие две выборки, из ранее полученных, для которых: ~ ~ i k Max. В рассматриваемом примере - это выборки 1 и 3. Вычисления проводятся с помощью программы STATISTICA. Рис. 5.3.1. Результаты расчета t-критерия при условии равных дисперсий. В полученной таблице рассчитаны следующие показатели: Mean - выборочные средние 1 ~ j nj n i 1 ij j = 1,2 , (5.3.1.) где Хij — i – й элемент j – ой выборки ( i = 1,…,n , j = 1,2) t-value – t-критерий, необходимый для оценки существенности разности двух средних 11 t расч ~ ~ 1 2 1 1 p n1 n2 , (5.3.2.) ~ где 1 — выборочная средняя первой выборки; ~ 2 — выборочная средняя второй выборки; — гипотетическая разность между генеральными средними, которая в контексте проверяемой нулевой гипотезы принимается равной 0 ( = 0). Формула принимает вид: t расч ~ ~ 1 2 1 1 p n1 n2 . (5.3.3.) df – число степеней свободы, равное (n1 1) (n2 1) где n1 - объём первой выборки; n2 - объём второй выборки. P – расчетный уровень значимости t-критерия; Valid N – объем выборки; Std.Dev. - среднее квадратическое отклонение: ~ ~ 2 n 1 j ~ ( X ij X j ) 2 , n j 1 i 1 j = 1,2. (5.3.4.) Среднее квадратическое отклонение двух оцениваемых выборок: n 1 ~ n 1 ~ 2 p 1 1 2 n1 n2 2 2 2 , (5.3.5.) где ~12 дисперсия первой выборки; ~ 2 дисперсия второй выборки. 2 F-ratio – F-критерий (дисперсионное отношение), используемый для оценки существенности различия значений двух дисперсий: ~ 2 F ~12 2 . (5.3.6.) р – расчетный уровень значимости F-критерия. В том случае, если задача решается в предположении неизвестных и не равных дисперсий, то результаты выводятся по следующей форме (см. рис. 5.3.2) 12 Рис. 5.3.2. Результаты расчета t-критерия при условии неравных дисперсий. t-separ – расчетное значение t-критерия с учетом различных дисперсий. Очевидно, что в нашем примере оно не изменяется. df - число степеней свободы t-критерия при условии неравных дисперсий определяется по следующим формулам: если n1 ≠ n2 2 ~12 ~22 n1 n2 2, df = m (5.3.7.) 2 2 ~12 ~22 n1 n2 n1 1 n2 1 и, если n1 = n2 2n 2 m n 1 ~2 ~2 . 1 2 ~ 2 ~ 2 2 1 Расчетное значение m округляется до целого значения в силу того, что число степеней свободы есть целое число по определению. p – расчетный уровень значимости t-критерия при условии неизвестных и неравных дисперсий. Гипотеза принимается, если t расч t табл . В нашем примере t расч 216,275 198,275 0,613 . 1 1 8,39575 12 12 Табличное значение t-критерия равно t 22;0.05 2.074 (уровень значимости – 0,05, число степеней свободы - 22). Таким образом, t расч 0,613 t табл 2.074 , следовательно, испытуемая гипотеза принимается. Аналогичный вывод можно получить на основе сравнения расчетного и принятого уровней значимости: p 0.5473 0.05 . 13 Заключение В данной лабораторной работе было произведено знакомство с необходимыми приемами работы среде пакета прикладных программ «STATISTICA», владение которыми позволит быстро и эффективно обрабатывать статистические совокупности путем анализа выборочных совокупностей. Первым этапом обычно бывает проведение выборочного статистического наблюдения как этапа получения данных. В данной работе этот этап опущен и данные формируются на основе данных сплошного наблюдения. Затем были рассчитаны основные характеристики выборочных совокупностей. В последней части работы было дано представление результатов сравнения генеральной средней и выборочных средних в графическом виде и сделаны выводы об отсутствии ошибки репрезентативности. В ходе работы были сделаны выводы о том, что в большинстве случаев выборочное наблюдение дает результаты, которые не сильно отличаются от результатов сплошного наблюдения. Поэтому выборочное наблюдение все больше применяется в условиях рыночной экономики. Проблемы применения конкретных видов выборочного наблюдения для решения тех или иных теоретических или прикладных задач решаются с учетом их специфики. Выборочное наблюдение широко используется для: 1) статистического оценивания и проверки гипотез; 2) решения производственных и управленческих задач; 3) отраслевых социально-экономических исследований; 4) разрешения задач в сфере предпринимательской деятельности. Совершенствование теории и практики выборочного наблюдения, все более широкое применение различных сочетаний комбинированного, многоступенчатого отбора, современных компьютерных технологий информационной обработки в значительной мере расширяют области использования, скорость получения и качество результатов выборочного наблюдения. 14