Помощь в написании студенческих работ
Антистрессовый сервис

Принятие статистических решений

РефератПомощь в написанииУзнать стоимостьмоей работы

Затем вычисляется значение вероятности того, что изучаемые события (трудоустройство в обеих выборках) произошли случайным образом. Для этого введем данные в рабочую таблицу: 60 — в ячейку Е1, 90 — в F1, 75 — в Е2, F2. Установим курсор в свободную ячейку (например, Е3). Вызовем Мастер функций, выберем категорию Статистические и функцию ХИ2ТЕСТ. В появившемся диалоговом окне функции введем исходные… Читать ещё >

Принятие статистических решений (реферат, курсовая, диплом, контрольная)

Статистическая гипотеза — это предположение о виде или отдельных параметрах распределения вероятностей, которое подлежит проверке на имеющихся данных.

Проверка статистических гипотез — это процесс формирования решения о возможности принять или отвергнуть утверждение (гипотезу), основанный на информации, полученной из анализа выборки. Методы проверки гипотез называются критериями.

В большинстве случаев рассматривают так называемую нулевую гипотезу (нуль-гипотезу Н0), состоящую в том, что все события произошли случайно, естественным образом. Альтернативная гипотеза (Н1) состоит в том, что события случайным образом произойти не могли, и имело место воздействие некого фактора.

Обычно нулевая гипотеза формулируется таким образом, чтобы на основании эксперимента или наблюдений ее можно было отвергнуть с заранее заданной вероятностью ошибки б. Эта заранее заданная вероятность ошибки называется уровнем значимости.

Уровень значимости — максимальное значение вероятности появления события, при котором событие считается практически невозможным. В статистике наибольшее распространение получил уровень значимости, равный б = 0,05. Поэтому, если вероятность, с которой интересующее событие может произойти случайным образом р < 0,05, то принято считать это событие маловероятным, и если оно все же произошло, то это не было случайным. В наиболее ответственных случаях, когда требуется особая уверенность в достоверности полученных результатов, надежности выводов, уровень значимости принимают равным б = 0,01 или даже б = 0,001.

Величину Р, равную 1 — б, называют доверительной вероятностью (уровнем надежности), то есть вероятностью, признанной достаточной для того, чтобы уверенно судить о принятом статистическом решении. Соответственно, в качестве доверительных вероятностей выбирают значения 0,95, 0,99 или 0,999.

Интервал, в котором с заданной доверительной вероятностью Р = 1 — б находится оцениваемый параметр, называется доверительным интервалом. В соответствии с доверительными вероятностями на практике используются 95-, 99-, 99,9-процентные доверительные интервалы. Граничные точки доверительного интервала называют доверительными пределами (рис. 3.9).

Выбор того или иного уровня значимости, выше которого результаты отвергаются как статистически не подтвержденные, в общем случае является произвольным. Окончательное решение зависит от исследователя, традиций и накопленного практического опыта в данной области исследований.

Анализ одной выборки Анализ однородности выборки. Одним из важных вопросов, возникающих при анализе выборки, является вопрос: относится та или иная варианта к данной статистической совокупности? Решение вопроса не представляет сложности, если распределение в этой совокупности является нормальным. Для этого достаточно использовать правило трех сигм. Согласно этому правилу в пределах М ± 3у находится 99,7% всех вариант. Поэтому если варианта попадает в этот интервал, то она считается принадлежащей к данной совокупности. Если не попадает, то она может быть отброшена. Хотя этот метод и предполагает нормальность исходного распределения, на практике он успешно работает и может быть использован в большинстве других случаев.

При числе элементов в выборке n < 30 способ более точного определения границ доверительного интервала по формуле [M — tn, рs; M + tn, рs] (3.1) будет показан ниже в примере 8. В формуле (3.1) М — среднее значение, s — стандартное отклонение, tn, р — табличное значение распределения Стьюдента с числом степеней свободы n и доверительной вероятностью р.

Построение доверительных интервалов для среднего. Еще одной важной задачей, возникающей при анализе одной выборки, является сравнение выборочного среднего арифметического со средним значением генеральной совокупности. Эта задача решается с помощью статистических критериев. При этом выясняется, значимо ли отличие выборочного среднего значения от среднего значения генеральной совокупности, из которой предположительно взята выборка, или наблюдаемое различие является случайным.

Действительно, средние значения, получаемые по выборочным данным, обычно не совпадают с генеральным средним (математическим ожиданием). В связи с этим возникает вопрос: можно ли по результатам выборочной оценки судить о свойствах всей генеральной совокупности?

Поскольку каждую оценку, полученную в отдельной выборке, можно рассматривать как случайную величину, то при увеличении числа выборок распределение отдельных оценок будет принимать характер нормального распределения. Это значит, что в случае средних арифметических значения выборочных средних относительно генерального среднего распределяются по нормальному закону. То есть такго арифметического выборки.

Отсюда, в частности, следует, что 68,3% всех выборочных средних находятся в пределах Д = М ± m, где Д — предельная ошибка выборки, М — среднее выборочное, m — стандартное отклонение среднего значения. Иными словами, имеется вероятность 0,683, что выборочное среднее отличается от генерального не более, чем на ± m. Здесь 0,683 — доверительная вероятность, 1 — 0,683 = 0,317 — уровень значимости б, Д = М ± m — 68% доверительный интервал.

Для принятой в большинстве исследований доверительной вероятности 0,95 доверительный интервал для средних при достаточно большом числе наблюдений (n > 30) примерно равен ± 2m (см. рис. 3.9). При доверительной вероятности 0,99 доверительный интервал составит примерно ± 3m. Для более точного определения границ доверительного интервала можно воспользоваться формулой.

Принятие статистических решений.

где М — среднее значение;

s — стандартное отклонение;

Принятие статистических решений.

— табличное значение распределения Стьюдента с числом степеней свободы.

n — и доверительной вероятностью р;

n — количество элементов в выборке.

В MS Ехсеl для более точного вычисления границ доверительного интервала и при числе элементов в выборке n < 30 можно воспользоваться функцией ДОВЕРИТ или процедурой Описательная статистика.

Функция ДОВЕРИТ (альфа; станд_откл; размер) определяет полуширину доверительного интервала и содержит следующие параметры:

альфа — уровень значимости, используемый для вычисления доверительной вероятности. Доверительная вероятность равняется 100*(1 — альфа) процентам, или, другими словами, альфа, равное 0,05, означает 95-процентный уровень доверительной вероятности;

станд_откл — стандартное отклонение генеральной совокупности для интервала данных, предполагается известным;

размер — это размер выборки.

Пример 8. Найти границы 95-процентного доверительного интервала для среднего значения, если у 25 телефонных аккумуляторов среднее время разряда в режиме ожидания составило 140 часов, а стандартное отклонение — 2,5 часа.

Решение.

  • 1. Откройте новую рабочую таблицу. Установите табличный курсор в ячейку А1.
  • 2. Для определения границ доверительного интервала необходимо на панели инструментов Стандартная нажать кнопку Вставка функции (fх). В появившемся диалоговом окне Мастера функций выберите категорию Статистические и функцию ДОВЕРИТ, после чего нажмите кнопку ОК.
  • 3. В рабочие поля появившегося диалогового окна функции ДОВЕРИТ с клавиатуры введите условия задачи: Альфа — 0,05; Станд_откл — 2,5; Размер — 25 (рис. 3.10). Нажмите кнопку ОК.
Пример заполнения диалогового окна ДОВЕРИТ.

Рис. 3.10. Пример заполнения диалогового окна ДОВЕРИТ

4. В ячейке А1 появится полуширина 95-прцентного доверительного интервала для среднего значения выборки — 0,979 981. Другими словами, с 95-процентным уровнем надежности можно утверждать, что средняя продолжительность разряда аккумулятора составляет 140 ± 0,979 981 часа или от 139,02 до 140,98 часа.

Пример 9. Пусть имеется выборка, содержащая числовые значения: 13, 15, 17,19, 22, 25, 19. Необходимо определить границы 95-процентного доверительного интервала для среднего значения и для нахождения «выскакивающей» варианты.

Решение.

  • 1. В диапазон А1: А7 введите исходный ряд чисел.
  • 2. Далее вызовите процедуру Описательная статистика. Для этого выполните команду Сервис — Анализ данных. Затем в появившемся списке Инструменты анализа выберите строку Описательная статистика.
  • 3. В появившемся диалоговом окне в рабочем поле Входной интервал укажите входной диапазон — А1: А7. Переключателем активизируйте Выходной интервал и укажите выходной диапазон — ячейку В1. В разделе Группировка переключатель установите в положение по столбцам. Установите флажок Уровень надежности и справа от него задайте (%) — 95. Затем нажмите кнопку ОК.
  • 4. В результате анализа в указанном выходном диапазоне для доверительной вероятности 0,95 получаем значения доверительного интервала (рис. 3.11).
Исходная выборка (А1:А7) и результат вычислений (СЗ) для примера 9.

Рис. 3.11. Исходная выборка (А1:А7) и результат вычислений (СЗ) для примера 9

Уровень надежности — это половина доверительного интервала для генерального среднего арифметического. Из полученного результата следует, что с вероятностью 0,95 среднее арифметическое для генеральной совокупности находится в интервале 18,571 ± 3,77. Здесь 18,571 — выборочное среднее М для рассматриваемого примера, которое находится обычно процедурой Описательная статистика одновременно с доверительным интервалом.

5. Для нахождения доверительных границ для «выскакивающей» варианты необходимо полученный выше доверительный интервал умножить на n (в примере — 7, то есть 3,77· 7 = 9,975). В Ехсеl это можно выполнить следующим образом: ввести, например, в ячейку С4 формулу =С3*Корень (7). В результате получим в ячейке С4 значение доверительного интервала — 9,975.

Таким образом, варианта, попадающая в интервал 18,571 ± 9,975, считается принадлежащей данной совокупности с вероятностью 0,95. Выходящая за эти границы может быть отброшена с уровнем значимости б = 0,05.

Проверка соответствия теоретическому распределению. Следующей задачей, возникающей при анализе одной выборки, является оценка меры соответствия (расхождения) полученных эмпирических данных и каких-либо теоретических распределений. Это связано с тем, что в большинстве случаев при решении реальных задач закон распределения и его параметры неизвестны. В то же время применяемые статистические методы в качестве предпосылок часто требуют определенного закона распределения.

Наиболее часто проверяется предположение о нормальном распределении генеральной совокупности, поскольку большинство статистических процедур ориентировано на выборки, полученные из нормально распределенной генеральной совокупности.

Для оценки соответствия имеющихся экспериментальных данных нормальному закону распределения обычно используют графический метод, выборочные параметры формы распределения и критерии согласия.

Графический метод позволяет давать ориентировочную оценку расхождения или совпадений распределений.

При большом числе наблюдений (n > 100) неплохие результаты дает вычисление выборочных параметров формы распределения: эксцесса и асимметрии. Принято говорить, что предположение о нормальности распределения не противоречит имеющимся данным, если асимметрия близка к нулю, то есть лежит в диапазоне от -0,2 до 0,2, а эксцесс — от 2 до 4.

Наиболее убедительные результаты дает использование критериев согласия. Критериями согласия называют статистические критерии, предназначенные для проверки согласия опытных данных и теоретической модели. Здесь нулевая гипотеза Н0 представляет собой утверждение о том, что распределение генеральной совокупности, из которой получена выборка, не отличается от нормального. Среди критериев согласия большое распространение получил непараметрический критерий ч2 (хи-квадрат). Он основан на сравнении эмпирических частот интервалов группировки с теоретическими (ожидаемыми) частотами, рассчитанными по формулам нормального распределения.

Отметим, что сколько-нибудь уверенно о нормальности закона распределения можно судить, если имеется не менее 50 результатов наблюдений. В случаях меньшего числа данных можно говорить только о том, что данные не противоречат нормальному закону, и в этом случае обычно используют графические методы оценки соответствия. При большем числе наблюдений целесообразно совместное использование графических и статистических (например, тест хи-квадрат или аналогичные) методов оценки, естественно дополняющих друг друга.

Использование критерия согласия хи-квадрат.

Для применения критерия желательно, чтобы объем выборки n был > 40, выборочные данные были сгруппированы в интервальный ряд с числом интервалов не менее 7, а в каждом интервале находилось не менее 5 наблюдений (частот).

Отметим, что сравниваться должны именно абсолютные частоты, а не относительные. При этом, как и любой другой статистический критерий, критерий хиквадрат не доказывает справедливость нулевой гипотезы (соответствие эмпирического распределения нормальному), а лишь может позволить ее отвергнуть с определенной вероятностью (уровнем значимости).

В MS Ехсеl критерий хи-квадрат реализован в функции ХИ2ТЕСТ. Функция ХИ2ТЕСТ вычисляет вероятность совпадения наблюдаемых (фактических) значений и теоретических (гипотетических) значений. Если вычисленная вероятность ниже уровня значимости (0,05), то нулевая гипотеза отвергается и утверждается, что наблюдаемые значения не соответствуют нормальному закону распределения.

Если вычисленная вероятность близка к 1, то можно говорить о высокой степени соответствия экспериментальных данных нормальному закону распределения.

Функция имеет следующий синтаксис:

ХИ2ТЕСТ (фактический_интервал; ожидаемый_ интервал) Здесь:

фактический_интервал — это интервал данных, которые содержат наблюдения, подлежащие сравнению с ожидаемыми значениями;

ожидаемый_интервал — это интервал данных, который содержит теоретические (ожидаемые) значения для соответствующих наблюдаемых.

Пример 10. Проверить соответствие выборочных данных (64, 57, 63, 62, 58, 61,63, 60, 60, 61, 65, 62, 62, 60, 64, 61, 59, 59, 63, 61, 62, 58, 58, 63, 61, 59, 62, 60, 60, 58,61, 60, 63, 63, 58, 60, 59, 60, 59, 61, 62, 62, 63, 57, 61, 58, 60, 64, 60, 59, 61, 64, 62, 59,65) нормальному закону распределения.

Решение.

1. Заполним следующую таблицу:

Принятие статистических решений.

2. Найдем теоретические частости нормального распределения. Для этого предварительно необходимо найти среднее значение и стандартное отклонение выборки.

В ячейке I13 с помощью функции СРЗНАЧ найдем среднее значение для данных из диапазона А2: Е12 (60,855). В ячейке J13 с помощью функции СТАНДОТКЛОН найдем стандартное отклонение для этих же данных (2,05). В ячейки К1 и К2 введем название столбца — Теоретические частости. Затем с помощью функции НОРМРАСП найдем теоретические частости. Установим курсор в ячейку К4, вызовем указанную функцию и заполним ее рабочие поля: х — G4; Среднее — $I$ 13;

Стандартное_откл — $J$ 13; Интегральный — 0. Получим в ячейке К4 0,033. Далее протягиванием скопируем содержимое ячейки К4 в диапазон ячеек К5: К12. Затем в ячейки L1 и L2 введем название нового столбца — Теоретические частоты. Установим курсор в ячейку L4 и введем формулу =$Н$ 13*К4. Далее протягиванием скопируем содержимое ячейки L4 в диапазон ячеек L5: L12. Результаты вычислений представлены на рис. 3.13.

Результаты вычисления теоретических частостей и частот из примера 10.

Рис. 3.13. Результаты вычисления теоретических частостей и частот из примера 10

3. С помощью функции ХИ2ТЕСТ определим соответствие данных нормальному закону распределения. Для этого установим курсор в свободную ячейку L13 и введем функцию ХИ2ТЕСТ. В качестве фактического интервала зададим диапазон Н4: Н12, а ожидаемого интервала — диапазон L4: L12 (рис. 3.14). В ячейке L13появится значение вероятности того, что выборочные данные соответствуют нормальному закону распределения — 0,9842.

Пример заполнения рабочих полей функции ХИ2ТЕСТ.

Рис. 3.14. Пример заполнения рабочих полей функции ХИ2ТЕСТ

4. Поскольку полученная вероятность соответствия экспериментальных данных р = 0,98 много больше, чем уровень значимости б = 0,05, то можно утверждать, что нулевая гипотеза не может быть отвергнута и, следовательно, данные не противоречат нормальному закону распределения. Более того, поскольку полученная вероятность р = 0,98 близка к 1, можно говорить о высокой степени вероятности того, что экспериментальные данные соответствуют нормальному закону.

Анализ двух выборок Выявление достоверности различий Следующей задачей статистического анализа, решаемой после определения основных выборочных характеристик и анализа одной выборки, является совместный анализ нескольких выборок. Важнейшим вопросом, возникающим при анализе двух выборок, является вопрос о наличии различий между этими выборками. Обычно для этого проводят проверку статистических гипотез о принадлежности обеих выборок одной генеральной совокупности или о равенстве генеральных средних. В рассмотренном ранее примере 6 такие различия выявляются путем сравнения данных реализации турфирмой путевок за периоды до и после начала активной рекламной кампании. Если сопоставить средние значения числа реализованных за месяц путевок до (125,6) и после (145,7) начала рекламной кампании, видно, что они различаются. Можно ли по этим данным сделать вывод об эффективности рекламной кампании?

Для решения задач такого типа используются так называемые критерии различия. Для проверки одной и той же гипотезы могут быть использованы разные статистические критерии. Правильный выбор критерия определяется как спецификой данных и проверяемых гипотез, так и уровнем статистической подготовки исследователя. Статистические критерии различия подразделяются на параметрические и непараметрические критерии. Параметрические критерии служат для проверки гипотез о параметрах определенных распределений генеральной совокупности (чаще всего нормального распределения). Непараметрические критерии для проверки гипотез не используют предположений о законе распределения генеральной совокупности и не требуют знания параметров распределения.

Параметрические критерии. Параметрические критерии служат для проверки гипотез о положении и рассеивании. Из параметрических критериев наибольшей популярностью при проверке гипотез о равенстве генеральных средних (математических ожиданий) пользуется t-критерий Стьюдента (t-критерий различия). Он наиболее часто используется для проверки следующей гипотезы: «Средние двух выборок относятся к одной и той же совокупности». Критерий позволяет найти вероятность того, что оба средних относятся к одной и той же совокупности. Если эта вероятность р ниже уровня значимости (р < 0,05), то принято считать, что выборки относятся к двум разным совокупностям.

При использовании t-критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух не зависимых, несвязанных выборок (так называемый двухвыборочный t-критерий).

В этом случае есть контрольная группа и опытная группа, состоящие, например, из разных пациентов, количество которых в группах может быть различно.

Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными. Например, измеряется содержание лейкоцитов у здоровых животных, а затем у тех же самых животных после облучения определенной дозой излучения.

В обоих случаях в принципе должно выполняться требование нормальности распределения исследуемого признака в каждой из сравниваемых групп и равенства дисперсий в сравниваемых совокупностях. Однако на практике по большому счету корректное применение t-критерия Стьюдента для двух групп часто бывает затруднительно, поскольку достоверно проверить эти условия удается далеко не всегда.

Для оценки достоверности отличий по критерию Стьюдента принимается нулевая гипотеза, что средние выборок равны между собой. Затем вычисляется значение вероятности того, что изучаемые события (например, количества реализованных путевок в обеих выборках) произошли случайным образом.

В MS Ехсеl для оценки достоверности отличий по критерию Стьюдента используются специальная функция ТТЕСТ и процедуры Пакета анализа. Эти перечисленные инструменты вычисляют вероятность, соответствующую критерию Стьюдента, и используются, чтобы определить, насколько вероятно, что две выборки взяты из генеральных совокупностей, которые имеют одно и то же среднее.

Функция ТТЕСТ имеет следующий синтаксис:

ТТЕСТ (массив1; массив2; хвосты; тип) Здесь:

  • · массив1 — это первое множество данных;
  • · массив2 — это второе множество данных;

хвосты — число хвостов распределения. Обычно число хвостов равно 2; тип — это вид исполняемого t-теста. Возможны 3 варианта выбора:

  • 1 — парный тест,
  • 2 — двухвыборочный тест с равными дисперсиями,
  • 3 — двухвыборочный тест с неравными дисперсиями.

Пример 11. Выявить, достоверны ли отличия при сравнении данных реализации турфирмой путевок за периоды до и после начала активной рекламной кампании (см. пример 6).

Решение.

1. Введите данные так, как показано в следующей таблице.

Принятие статистических решений.
  • 2. Для выявления достоверности отличий установим курсор в свободную ячейку (например, А11). Вызовем Мастер функций, выберем категорию Статистические и функцию ТТЕСТ. В появившемся диалоговом окне функции ТТЕСТ введем исходные данные: в поле Массив1 введем диапазон А2: А8; в поле Массив2 — диапазон данных исследуемой группы В2: В8. В поле Хвосты всегда вводится с клавиатуры цифра 2 (без кавычек), а в поле Тип с клавиатуры введем цифру 3. Нажмем кнопку ОК. В ячейке А11 появится значение вероятности — 0,6 295.
  • 3. Поскольку величина вероятности случайного появления анализируемых выборок (0,6 295) меньше уровня значимости (б = 0,05), то нулевая гипотеза отвергается. Следовательно, различия между выборками не случайные и средние выборок считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия Стьюдента можно сделать вывод о большей эффективности реализации путевок после начала рекламной кампании (р < 0,05).

Как указывалось выше, при использовании t-критерия выделяют два основных случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть две различные выборки, количество элементов в которых может быть также различно. При заполнении диалогового окна ТТЕСТ при этом указывается Тип, равный 3.

Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными (при заполнении диалогового окна ТТЕСТ указывается Тип, равный 1). Например, сравнивается реализация путевок двумя фирмами в соответствующие месяцы.

В качестве упражнения рассмотрим пример.

Пример 12. Сравнивается количество наличных денег у двух групп студентов (в тыс. рублей):

Необходимо определить достоверность различия между группами при двух вариантах постановки задачи:

группы состоят из различных студентов (тип 3);

группы состоят из одних и тех же студентов, но первая — до посещения буфета, а вторая — после (тип 1).

Решение В ячейки С1: С5 введите количество денег у студентов первой группы. В ячейки D1: D5 введите количество денег у студентов второй группы.

1. Установим курсор в свободную ячейку (например, С6). Вызовем Мастер функций, выберем категорию Статистические и функцию ТТЕСТ. В появившемся диалоговом окне функции ТТЕСТ введем исходные данные. Указателем мыши введем диапазон данных первой группы в поле Массив1 (С1:С5). В поле Массив2 введем диапазон данных второй группы (D1:D5). В поле Хвосты всегда вводится цифра 2 (без кавычек), а в поле Тип введем цифру 3. Нажмем кнопку ОК. В ячейке С6 появится значение вероятности — 0,228 053.

Принятие статистических решений.

Поскольку величина вероятности случайного появления анализируемых выборок (0,228 053) больше уровня значимости (б = 0,05), то нулевая гипотеза не может быть отвергнута (принимается). Следовательно, различия между выборками могут быть случайными и средние выборок не считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия Стьюдента нельзя сделать вывод о достоверности отличий двух групп студентов по количеству карманных денег, имеющихся у них (р > 0,05).

2. Установим курсор в свободную ячейку (например, D6). Вызовем Мастер функций, выберем категорию Статистические и функцию ТТЕСТ. В появившемся диалоговом окне функции ТТЕСТ введем исходные данные. Указателем мыши введем диапазон данных первой группы в поле Массив1 (С1:С5).

В поле Массив2 введем диапазон данных второй группы (D1:D5). В поле Хвосты всегда вводится цифра 2 (без кавычек), а в поле Тип введем цифру 1. Нажмем кнопку ОК. В ячейке D6 появится значение вероятности — 0,3 883.

Принятие статистических решений.

Поскольку величина вероятности случайного появления анализируемых выборок (0,3 883) меньше уровня значимости (б = 0,05), то нулевая гипотеза отвергается. Следовательно, различия между выборками не могут быть случайными и средние выборок считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия Стьюдента можно сделать вывод о том, что в двух группах студентов выявлены достоверные отличия по количеству карманных денег (р < 0,05), что явилось результатом посещения буфета.

Таким образом, ясно, что применение различных типов критерия Стьюдента может приводить к различным результатам на основании одних и тех же исходных данных. Можно предложить следующий приблизительный способ выбора типа критерия: если не ясно, какой тип критерия выбирать, выбирается тип 3; если очевидно, что выборки зависимы, связаны (например, это одни и те же студенты), то следует выбирать тип 1.

Критерий Фишера. Критерий Фишера используют для проверки гипотезы о принадлежности двух дисперсий одной генеральной совокупности и, следовательно, их равенстве. При этом предполагается, что данные независимы и распределены по нормальному закону. Гипотеза о равенстве дисперсий принимается, если отношение большей дисперсии к меньшей меньше критического значения распределения Фишера:

Принятие статистических решений.

где Fкрит зависит от уровня значимости и числа степеней свободы для дисперсий в числителе и знаменателе.

В MS Ехсеl для расчета уровня вероятности выполнения гипотезы о равенстве дисперсий могут быть использованы функция ФТЕСТ (массив1; массив2) и процедура Пакета анализа Двухвыборочный F-тест для дисперсий.

Непараметрические критерии. Непараметрические критерии используются в тех случаях, когда закон распределения данных отличается от нормального или неизвестен. Из большого числа непараметрических критериев рассмотрим критерий хи-квадрат.

Критерий согласия ч2. Бывают ситуации, когда необходимо сравнить две относительные или выраженные в процентах величины (доли). Примером может служить случай проверки успешности трудоустройства молодых специалистов, когда известен процент трудоустроившихся выпускников двух институтов. Для проверки достоверности различий здесь критерий Стьюдента применить не удастся. В таких задачах обычно используют критерий ч2 (хи-квадрат). Критерий хи-квадрат относится к непараметрическим критериям.

Здесь, как и в случае с критерием Стьюдента, принимается нулевая гипотеза о том, что выборки принадлежат к одной генеральной совокупности. Кроме того, определяется ожидаемое значение результата. Обычно это среднее значение между выборками рассматриваемого показателя. Затем оценивается вероятность того, что ожидаемые значения и наблюдаемые принадлежат к одной генеральной совокупности.

В MS Ехсеl критерий хи-квадрат реализован в функции ХИ2ТЕСТ. Функция ХИ2ТЕСТ вычисляет вероятность совпадения наблюдаемых (фактических)значений и теоретических (гипотетических) значений. Если вычисленная вероятность ниже уровня значимости (0,05), то нулевая гипотеза отвергается и утверждается, что наблюдаемые значения не соответствует теоретическим (ожидаемым) значениям.

Пример 13. Пусть после окончания двух институтов экономического профиля трудоустроилось по специальности из первого института 90 человек, а из второго — 60 (обе группы молодых специалистов включали по 100 человек).

Решение.

  • 1. Принимается нулевая гипотеза, что выборки принадлежат к одной генеральной совокупности.
  • 2. Определяется ожидаемое значение результата (среднее значение между выборками): (60 + 90) / 2 = 75, то есть мы ожидали, что разницы между группами нет и в обоих случаях должно было трудоустроиться по 75 человек.
  • 3. Затем вычисляется значение вероятности того, что изучаемые события (трудоустройство в обеих выборках) произошли случайным образом. Для этого введем данные в рабочую таблицу: 60 — в ячейку Е1, 90 — в F1, 75 — в Е2, F2. Установим курсор в свободную ячейку (например, Е3). Вызовем Мастер функций, выберем категорию Статистические и функцию ХИ2ТЕСТ. В появившемся диалоговом окне функции введем исходные данные. Указателем мыши введем в поле Фактический интервал диапазон данных наблюдавшегося количества трудоустроившихся (Е1:F1). В поле Ожидаемый интервал введем диапазон данных предполагаемого количества трудоустроившихся (Е2:F2). Нажмем кнопку ОК. В ячейке Е3появится значение вероятности — 0,14 306.
Принятие статистических решений.

Поскольку величина вероятности случайного появления анализируемых выборок (0,0143) меньше уровня значимости (б = 0,05), то нулевая гипотеза отвергается. Следовательно, различия между выборками не могут быть случайными и выборки считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия хи-квадрат можно сделать вывод о том, что в двух группах выпускников выявлены достоверные отличия по успешности трудоустройства (р < 0,05), что, по-видимому, явилось результатом более высокой репутации выпускников первого института.

Использование инструмента «Пакет анализа» для выявления различий между выборками Для анализа двух выборок с помощью t-теста Стьюдента могут быть использованы следующие процедуры: Парный двухвыборочный t-тест для средних; Двух выборочный t-тест с одинаковыми дисперсиями и Двух выборочный t-тест с различными дисперсиями. Как указывалось в пункте «Анализ двух выборок», в общем случае необходимо воспользоваться процедурой. Двухвыборочный t-тест с различными дисперсиями, так как процедуры Парный двух выборочный t-тест с одинаковыми дисперсиями относятся к частным, специальным случаям.

Для выполнения процедуры анализа необходимо: выполнить команду Сервис — Анализ данных; в появившемся списке Инструменты анализа выбрать строку Двухвыборочный t-тест с различными дисперсиями, щелкнуть по кнопке ОК;в появившемся диалоговом окне указать Интервал переменной 1, то есть ввести ссылку на первый диапазон анализируемых данных, содержащий один столбец данных; указать Интервал переменной 2, то есть ввести ссылку на второй диапазон анализируемых данных, содержащий один столбец данных; указать Выходной диапазон; нажать кнопку ОК.

Результаты анализа. В выходной диапазон будут выведены: средняя, дисперсия и число наблюдений для каждой переменной, гипотетическая разность средних, df (число степеней свободы), значение t-статистики, Р (Т <= t) одностороннее, t критическое одностороннее, Р (Т <= t) двухстороннее, t критическое двухстороннее.

Интерпретация результатов. Если величина вероятности случайного появления анализируемых выборок (Р (Т <= t) двухстороннее) меньше уровня значимости (б = 0,05), принято считать, что различия между выборками не случайные, то есть различия достоверные.

Пример 14. Рассматривается заработная плата обслуживающего персонала и работников ресторана гостиницы (из примера 7).

Персонал.

Ресторан.

Можно ли по этим данным сделать вывод о большей зарплате работников ресторана?

Решение Для решения задач такого типа используются так называемые критерии различия, в частности, t-критерий Стьюдента.

  • 1. Введите данные: для персонала — в диапазон А1: А8; для работников ресторана — в диапазон В1: В6.
  • 2. Выбор процедуры осуществляется из трех вариантов t-теста. Поскольку данные не имеют попарного соответствия, число их различно и говорить о равенстве дисперсий затруднительно, выберите процедуру Двухвыборочный t-тест с различными дисперсиями.

Для реализации процедуры в пункте меню Сервис выберите строку Анализ данных и далее укажите курсором мыши на строку Двухвыборочный t-тест с различными дисперсиями.

  • 3. В появившемся диалоговом окне задайте Интервал переменной 1, указывая диапазон А1: А8.
  • 4. Аналогично укажите Интервал переменной 2, то есть введите ссылку на диапазон второго столбца В1: В6.
  • 5. Далее укажите выходной диапазон. Для этого поставьте переключатель в положение Выходной диапазон и введите в качестве выходного диапазона ссылку на ячейку С1. Щелкните по кнопке ОК.

Результаты анализа. В выходном диапазоне С1: Е13 появятся результаты процедуры Двухвыборочный t-тест с различными дисперсиями (рис. 3.15).

Исходные данные (А1:В8) и результаты анализа (С1:Е13).

Рис. 3.15. Исходные данные (А1:В8) и результаты анализа (С1:Е13)

Интерпретация результатов. Средние значения заработной платы (1962 руб. для персонала и 2400 руб. для работников ресторана) довольно сильно отличаются. Тем не менее нулевая гипотеза о том, что разницы между группами нет (то есть средние выборок равны между собой), отвергнута быть не может. Это следует из того, что вероятность реализации нулевой гипотезы достаточно велика (р = 0,1389, что больше чем уровень значимости 0,05, то есть р > 0,05) и величина вероятности случайного появления анализируемых выборок (Р (Т <= t) двухстороннее) больше уровня значимости (б = 0,05). А это позволяет говорить, что различия между выборками могут быть случайными, то есть различия недостоверные.

Таким образом, из полученных результатов исследования вытекает, что на основании приведенных данных нельзя сделать вывод о достоверно большей зарплате работников ресторана.

Показать весь текст
Заполнить форму текущей работой