Сравнение дисперсий двух выборок
Рис. 2.5). Следует отметить, что с F-распределением имеют дело всякий раз, когда и числитель, и знаменатель дроби описывается распределением ?2. Поскольку, как мы знаем, распределение ?2 характеризуется числом степеней свободы, F-распределение также определяется числом степеней свободы, причем как для числителя, так и для знаменателя. В рассматриваемом случае мы имеем дело при условии истинности… Читать ещё >
Сравнение дисперсий двух выборок (реферат, курсовая, диплом, контрольная)
В ряде случаев статистический анализ осуществляется не только ради проверок тех гипотез, которые непосредственно отражают логику экспериментатора, но и выполняют вспомогательную роль. Необходимо выяснить, насколько правомерным окажется применение тех или иных статистических тестов до того, как они будут использованы. Таким образом, исследователь проводит специальные тесты, которые принято обозначать как предварительные. Сами по себе предварительные тесты не важны для исследователя, поскольку не затрагивают его экспериментальных гипотез, но успешное прохождение этих тестов позволяет повысить валидность тех выводов, которые будут сделаны по итогам основных тестов, непосредственно затрагивающих экспериментальные гипотезы.
Поскольку сравнение средних с помощью вычисления t-статистики предполагает гомогенность дисперсий для двух распределений, применение этого метода должно сопровождаться предварительным тестом такой гипотезы. Также следует отметить, что сравнение дисперсий может быть важным и само по себе. Тогда эта процедура будет выступать в качестве основной, а не предварительной.
Понятно, что непосредственно знание о том, действительно ли мы имеем дело с одной и той же дисперсией в двух выборках, нам не дано. Как неоднократно отмечалось, дисперсия — это теоретический параметр, который вряд ли когда-нибудь станет известным экспериментатору. Но дисперсия практически всегда может быть оценена с помощью эмпирических данных уже известным нам способом по формулам (1.3) и (1.5).
Предположим, мы считаем, что равны дисперсии двух распределений, из которых извлечены выборочные данные, представленные векторами X и Y. Это значит, что можно выдвинуть статистическую гипотезу, которая формально может быть выражена следующим образом:
Альтернативная гипотеза может быть сформулирована различным способом. Например, она может утверждать, что дисперсии двух распределений неравны. Лучше, однако, если эта гипотеза будет сформулирована более конкретно. Можно, например, предполагать, что дисперсия X превышает дисперсию Y:
Дисперсии выборок оценить несложно. Пусть выборка X состоит из п значений, выборка Y — из т значений. Тогда, пользуясь формулой (1.5), получим.
Далее, оценки дисперсий можно будет соотнести в результате построения следующего отношения:
Если верпа нулевая гипотеза, тогда построенная таким образом статистика будет описываться так называемым F-распределением.
(рис. 2.5). Следует отметить, что с F-распределением имеют дело всякий раз, когда и числитель, и знаменатель дроби описывается распределением ?2. Поскольку, как мы знаем, распределение ?2 характеризуется числом степеней свободы, F-распределение также определяется числом степеней свободы, причем как для числителя, так и для знаменателя. В рассматриваемом случае мы имеем дело при условии истинности нулевой гипотезы с F- распределением, которое характеризуется n — 1 степенями свободы в числителе и т — 1 степенями свободы в знаменателе. Этот факт фиксируется в скобках после F.
Рис. 2.5. F-раснределение (df = 5, 20)
На рис. 2.5 представлена иллюстрация характера зависимости для F-распределения с пятью степенями свободы в числителе и десятью степенями свободы в знаменателе. Как видно, F-распределение имеет ярко выраженную положительную асимметрию. Его медианная точка соответствует единице. Поэтому стратегия оценки статистики, предположительно описываемой этим распределением, сводится к оценке того, насколько значимо вычисленное значение отличается от единицы в положительную сторону. Иными словами, при оценке F-статистики необходимо прежде всего установить, какова вероятность получить наблюдаемое или еще большее значение при условии истинности нулевой гипотезы и того, что эмпирически мы имеем число, превосходящее единицу.
Конечно, на практике также возможен случай, когда в числитель ставится значение, соответствующее меньшей величине дис;
Персии. В этом случае необходимо провести обратную процедуру, т. е. выяснить, насколько вероятно получить такое или еще меньшее значение статистики при условии истинности нулевой гипотезы и того, что в эксперименте получена величина F меньше 1.
Однако при использовании статистических таблиц (см. приложение 4) возможна только первая процедура. Это связано с тем, что в этих таблицах отражены лишь левосторонние квантили распределения. Поэтому нет большого смысла выдвигать гипотезу о том, что величина дисперсии в числителе на самом деле меньше величины в знаменателе. В крайнем случае можно воспользоваться следующим преобразованием:
Как отмечалось выше, тест однородности дисперсий в том виде, в котором он был рассмотрен в этой части данного параграфа, как правило, не имеет самостоятельного значения, а используется в качестве предварительного (вспомогательного) теста при проверке однородности двух выборок с помощью t-теста Стьюдента. В случаях, когда один или несколько тестов используются для оценки корректности использования другого теста, говорят о предварительных тестах.
Важно иметь в виду, что сами по себе предварительные тесты не могут оценить степень адекватности используемой в обработке данных структурной модели. Также отметим, что в случае применения t-теста Стьюдента для сравнения двух выборок на однородность средних значений предварительные тесты не являются абсолютно необходимыми вследствие устойчивости самого t-теста.
Современные статистические пакеты, как правило, осуществляют предварительный тест однородности дисперсий для теста Стьюдента с помощью более тонких современных статистических процедур, как, например, теста Ливиня (Levene). Однако знание F-теста оказывается важным для понимания тех статистических процедур, которые лежат в основе различных разновидностей дисперсионного анализа. Этот вид анализа подробно рассматривается в следующих главах.