Анализ компонент многомерного случайного вектора
Весь промежуток наблюдённых значений разобьём на m интервалов, вначале равной длины. Определим число интервалов как m=log2n+1. Интервалы будем обозначать как Ii, причём первый интервал содержит крайнюю левую точку, а последний — крайнюю правую. ni — число вариант, попавших в i-тый интервал. Наблюдённые значения включаются в интервал, лежащий правее точки (если точка лежит на границе интервалов… Читать ещё >
Анализ компонент многомерного случайного вектора (реферат, курсовая, диплом, контрольная)
Курсовая работа По курсу математическая статистика Анализ компонент многомерного случайного вектора
Задание
статистический многомерный вектор Исходные данные: результаты обследования 50 объектов по пяти показателям.
Задание 1.
Провести анализ компонент многомерного случайного вектора признаков:
осуществить точечное оценивание основных числовых характеристик, функции и плотности распределения;
проверить гипотезы о характере распределения;
проверить гипотезы о значении параметров нормально распределенной генеральной совокупности;
осуществить интервальное оценивание основных параметров распределения.
Задание 2.
Провести корреляционный анализ компонент многомерного случайного вектора признаков:
1. осуществить точечное оценивание параметров многомерного нормально распределенного вектора признаков;
2. рассчитать точечные оценки парных, частных и множественных коэффициентов связи;
3. проверить значимость коэффициентов связи;
4. для значимых парных и частных коэффициентов корреляции простроить доверительные интервалы.
Глава 1. Анализ компонент многомерного случайного вектора
1) Постановка задачи
Провести анализ компонент многомерного случайного вектора :
1) Представить выборочные данные в виде интервального вариационного ряда и в виде дискретного вариационного ряда;
2) Построить эмпирическую функцию распределения (аналитически и графически), полигон и гистограмму (для непрерывных случайных величин);
3) Рассчитать точечные оценки основных числовых характеристик распределения: математического ожидания, дисперсии, среднего квадратического отклонения, начальные и центральные моменты третьего и четвёртого порядков;
4) Проверить гипотезу о характере распределения генеральной совокупности.
2) Краткие теоретические сведения
Пусть мы имеем апостериорную выборку х1,n. Упорядочим результаты наблюдений в порядке возрастания. Пусть х(1)=min{xi}. Получим выборку х(1)<=x(2)<=…<=x(n). Она также называется апостериорным вариационным рядом. Этому ряду будет соответствовать упорядоченный ряд о(1)<= о(2)<=…<=о(n) (априорный вариационный ряд). Апостериорный вариационный ряд используется для вычислений тех или иных числовых характеристик выборочной совокупности, а априорный — для теоретических доказательств. Элементы апостериорного ряда будем называть вариантами, а элементы априорного — порядковыми статистиками.
На основе построенного апостериорного вариационного ряда построим упорядоченный вариационный ряд с учётом повторений. z(1) — наименьшее наблюдённое значение с учётом повторений (z(1)=x(1)), которое будем называть вариантой, k1 — частота повторений z(1)=x(1). z(2) — следующее по величине значение вариационного ряда. ki — частота повторений z(i)=x(i) Получим ряд z(1)<=z(2)<=…<=z(l), l<=n=. Построим дискретный вариационный ряд, где Pi* — относительная частота, в силу теоремы Бернулли по вероятности сходящаяся к Pi (вероятности того, что случайная величина примет то или иное значение).
Таблица 1 — дискретный вариационный ряд
zi | z(1) | z(2) | … | z(l) | |
ki | k1 | k2 | … | kl | |
Pi* | … | ||||
Для построения эмпирической функции распределения введём в рассмотрение величину, где. Пусть n (x) — число вариант, меньших х. Эмпирической функцией распределения будем называть функцию, которая для:. Очевидно, что
Она по вероятности сходится к вероятности события о
Пусть мы имеем непрерывную генеральную совокупность. Строить эмпирическую функцию распределения в данном случае неудобно, так как варианты, с одной стороны, не совпадают, а с другой — их много. Поэтому используем эмпирическую плотность распределения. Для её построения нам необходим большой объём совокупности (n>=50).
Весь промежуток наблюдённых значений разобьём на m интервалов, вначале равной длины. Определим число интервалов как m=log2n+1. Интервалы будем обозначать как Ii, причём первый интервал содержит крайнюю левую точку, а последний — крайнюю правую. ni — число вариант, попавших в i-тый интервал. Наблюдённые значения включаются в интервал, лежащий правее точки (если точка лежит на границе интервалов, то прибавляем 0,5 к частоте левого интервала и 0,5 — к частоте правого интервала). Также находим плотности относительных частот — отношения относительных частот к длинам соответствующих интервалов. Построим интервально-вариационный ряд.
Таблица 2 — интервальный вариационный ряд
Ii | I1 | I2 | … | Im | |
ni | n1 | n2 | … | nm | |
Pi* | … | ||||
fi | … | ||||
Pi* — относительная частота попадания элементов апостериорной выборки в i-тый интервал, fi — плотность относительных частот, а — длина каждого интервала. При этом выполняется соотношение .
График fi — гистограмма — приближённая оценка плотности распределения.
Таблица 3 — таблица формул для вычислений числовых характеристик выборочной совокупности.
Характеристика | Апостериорная выборка | Сгруппированный дискретный вариационный ряд | Интервальный вариационный ряд | |
Оценка математического ожидания | ||||
Оценка дисперсии (смещенная) | ||||
Оценка дисперсии (несмещенная) | ||||
Оценка среднего квадр. отклонения | ||||
Оценка коэффициента асимметрии | ||||
Оценка коэффициента эксцесса | ||||
Оценка начального момента j-того порядка | ||||
Оценка центрального момента j-того порядка | ||||
Перейдём к выдвижению гипотез о характере распределения генеральной совокупности.
Пусть о — случайная величина с неизвестным законом распределения Ро(х). Для исследования проведено n наблюдений по схеме Бернулли. Получим апостериорную выборку х1,n, которая соответствует априорной выборке о1,n. По этим данным построим эмпирическую плотность распределения и эмпирическую функцию распределения. По их наглядным отображениям (гистограмме или полигону) мы можем предположить, что выборка х1,n получена из генеральной совокупности с функцией распределения F0о или законом распределения Р0о.
Утверждение о виде или свойствах закона распределения наблюдаемых в эксперименте случайных величин называется статистической гипотезой и обозначается Н0: оєF0о или Н0: оєР0о (следует понимать, что случайная величина о имеет закон распределения Р0о или функцию распределения F0о). Также наряду с H0 ставится альтернативная гипотеза Н1: случайная величина о имеет закон распределения, отличный от Р0о.
Задача — проверить гипотезу с имеющейся апостериорной выборкой х1,n, на основе которой построили гипотетический закон распределения.
Правило, с помощью которого принимается решение о принятии или отклонении гипотезы — статистический критерий. Для его реализации вводят меру расхождения между эмпирическим и гипотетическим законами распределения. Обозначим эту меру расхождения как T (х1,n) — наблюдённое значение статистики критерия. Тогда T (о1,n) — случайная величина, статистика критерия. Мы будем пытаться определить закон распределения статистики критерия, а дальше проверять гипотезу следующим образом:
Выберем некоторое б из диапазона [0; 0,1] - значимость гипотезы. Затем, «зная» закон распределения статистического критерия, будем искать критическую точку tб. Она будет отделять область малых значений статистического критерия от области больших значений. Критическую точку найдём исходя из уравнения .
В итоге возможны две ситуации. Если T (х1,n) окажется левее tб, то мы принимаем гипотезу H0, а иначе — отвергаем.
Рассмотрим два основных статистических критерия — критерий Колмогорова и критерий Пирсона («хи-квадрат»).
Колмогоров предложил в качестве меры расхождения взять, где F0о — гипотетическая функция распределения, относительно которой сформирована гипотеза H0. Также Колмогоров показал, что, где k (t) является функцией распределения статистики Колмогорова. Также, используя функцию Колмогорова, мы можем найти tб. — квантиль уровня 1-б. Также можно встретить функцию k1(tб)=б. По таблицам для функции k1 находят tб.
Также существует другая мера расхождения — критерий Пирсона.
Пусть мы имеем выборку х1,n. На основе гистограммы или полигона высказана гипотеза H0.. Пирсон предложил в качестве меры расхождения Тп(х1,n)=ч2 (хи-квадрат), где. l — число различных вариант (если строим меру расхождения по дискретному вариационному ряду) или число разрядов (если строим меру расхождения по интервальному вариационному ряду), ki — кратность варианты (если строим меру расхождения по дискретному вариационному ряду) или число вариант, попавших в данных интервал (если строим меру расхождения по интервальному вариационному ряду), Р0i — гипотетическая вероятность того, что генеральная совокупность принимает значение, совпадающее с i-той вариантой, либо, в случае непрерывной генеральной совокупности, вероятность попадания в i-тый интервал., где l — число степеней свободы. l=m-r-1, где m — число интервалов (либо вариант в случае дискретного вариационного ряда), r — число параметров, от которых зависит закон распределения.
Для того, чтобы критерий Пирсона давал удовлетворительные результаты оценки меры расхождения, необходимо соблюдение двух условий:
1) n>=50;
2) ki>=5.
В случае, если ki<5, нам следует укрупнить интервалы. После этого будем иметь гистограмму с разной длиной интервалов.
Иногда при использовании программ возникает ситуация, что гистограмма содержит пустые интервалы. Это недопустимо. Тогда мы представляем не гистограмму, а так называемую «нормальную бумагу». В результате преобразования график НР СВ представляется в виде прямой.
3) Порядок выполнения задания
Сначала необходимо сгенерировать выборки значений случайных величин о1 и о2, где о1— дискретная случайная величина, распределенная по закону Пуассона, а о2 — случайная величина, распределённая по равномерному закону. Построим их с помощью программы Microsoft Excel.
Определим число интервалов для интервальных вариационных рядов. Для этого используем формулу m=log2n+1. Приближённое значение m равно 7. Следовательно, первоначально будем разбивать совокупности на 7 интервалов.
Перейдём к дискретной случайной величине. Отсортируем значения по возрастанию. Посчитаем частоты каждого наблюдённого значения, затем — относительные частоты. Получим дискретный вариационный ряд.
Таблица 4 — дискретный вариационный ряд для случайной величины о1.
Суммы | ||||||||||
xi | ||||||||||
ki | ||||||||||
ki/n | 0,16 | 0,22 | 0,22 | 0,14 | 0,16 | 0,06 | 0,02 | 0,02 | ||
Сумма относительных частот равна единице, сумма частот равна 50, следовательно, мы верно построили дискретный вариационный ряд. Построим полигон для данного дискретного вариационного ряда.
Рисунок 2 — полигон распределения относительных частот случайной величины о1.
Построим кусочно-постоянную функцию распределения случайной величины о1 аналитически и графически.
Рисунок 3 — график кусочно-постоянной функции распределения дискретной случайной величины о1
Найдём числовые характеристики данной апостериорной выборки, используя расчётные формулы, приведённые в таблице 3 (страница 7). Порядок нахождения числовых характеристик смотри в приложении.
В итоге получим ряд числовых характеристик данной выборочной совокупности (результаты приведёны в таблице 9, страница 18).
Затем выдвинем гипотезу Н0:оєPо, где (данная случайная величина распределена по закону Пуассона с параметром л=2,28 (т.к. мат. ожидание случайной величины, распределённой по закону Пуассона, равно л)). Также построим альтернативную гипотезу Н1: (данная случайная величина имеет распределение, отличное от закона Пуассона с параметром л=2,28). Построим гипотетическую плотность распределения для каждого значения дискретного вариационного ряда. Затем, используя для каждого значения дискретного вариационного ряда в качестве эмпирической плотности распределения относительную частоту, найдём значения критерия «хи-квадрат» для каждого значения дискретного вариационного ряда и просуммируем их. Формула для вычисления статистики критерия «хи-квадрат»:
.
Но варианты 5,6,7 имеют частоты менее 5. Объединим три последних варианты. Рассчитав значение критерия «хи-квадрат», получим ч2=4,16 651. Полагая б=0,01, по таблице находим ч2кр для нашего случая — левостороннее и правостороннее критические значения: ч2кр.лев.1=1,145, ч2кр.пр.1=11,07. ч2кр.лев.1 <�ч2набл.1< ч2кр.пр.1, следовательно, наша гипотеза принимается и она верна с вероятностью 0,99.
Затем вычислим значение меры расхождения по Колмогорову. Для этого предварительно вычислим значения эмпирической (как сумму предшествующих относительных частот) и гипотетической функций распределения (как сумму предшествующих плотностей распределения). Затем для каждой варианты посчитаем разность эмпирической и гипотетической функций распределения, умноженную на корень объёма выборки. Максимальное значение этой величины будет являться мерой расхождения по Колмогорову. В результате расчётов получим значение 0,4483. По таблице находим tкр при б=0,01 — значение критической точки равно 1,63. Так как вычисленное значение не превышает критическое, наша гипотеза принимается и будет верна с вероятностью в 0,99.
Перейдём к рассмотрению непрерывной случайной величины о2.
Сначала построим интервально-вариационный ряд. За левую границу примем округлённое в меньшую сторону значение минимальной варианты, за длину интервала — округлённую в большую сторону разницу между значением минимальной и максимальной варианты. Получим интервально-вариационный ряд, изображённый на таблице 6.
Таблица 6 — Интервальный вариационный ряд для случайной величины о2.
Ji | [0,065;0,765) | [0,765;1,465) | [1,465;2,165) | [2,165;2,865) | [2,865;3,565) | [3,565;4,265) | [4,265;4,965) | |
ki | ||||||||
ki/n | 0,2 | 0,1 | 0,1 | 0,16 | 0,1 | 0,12 | 0,22 | |
fi | 0,28 571 429 | 0,14 285 714 | 0,14 285 714 | 0,22 857 143 | 0,14 285 714 | 0,17 142 857 | 0,31 428 571 | |
Затем, используя расчётные формулы, приведённые в таблице 3, найдём числовые характеристики. Результаты — в таблице 9 (стр. 18). Затем найдём оценку плотности распределения:
На основании этих оценок построим гистограмму.
Рисунок 4 — гистограмма плотности относительных частот случайной величины о2.
После этого построим кусочно-непрерывный график эмпирической функции распределения. Для этого выразим сначала её аналитически:
По имеющимся значениям построим график эмпирической функции распределения. Результат показан на рисунке 5.
Рисунок 5 — график эмпирической функции распределения случайной величины о2.
Затем построим меры расхождения для этой случайной величины аналогично тому, как мы делали это для дискретной случайной величины.
Выдвинем гипотезу Н0:о2 распределена по равномерному закону с параметрами a=0.065, b=4.965. Получим значение статистики критерия Пирсона 3,35 714 (при критических значениях ч2кр.лев.2=0,71, ч2кр.пр.2=9,49, б=0,01, расчёты приведены в приложении 3) и значение статистики критерия Колмогорова 0,54 548 (при критическом значении 1,63, б=0,01). Следовательно, мы принимаем гипотезу Н0.
Перейдём к проверке гипотез с помощью программного пакета Statistica.
Таблица 6 — Интервальный вариационный ряд для случайной величины о3.
Ji | [0,14;0,258) | [0,258;0,376) | [0,376;0,494) | [0,494;0,612) | [0,612;0,73) | [0,73;0,848) | [0,848;0,966) | |
ki | ||||||||
ki/n | 0,08 | 0,14 | 0,26 | 0,22 | 0,14 | 0,06 | 0,1 | |
fi | 0,6 779 661 | 1,18 644 068 | 2,20 338 983 | 1,86 440 678 | 1,18 644 068 | 0,50 847 458 | 0,84 745 763 | |
Рисунок 5 — гистограмма частот для случайной величины о3.
Выдвинем гипотезу H0: с оценками параметров распределения .
Получая в Statistica значение критерия «хи-квадрат», равное 0,49 (при критических значениях ч2кр.лев.3=0,1, ч2кр.пр.3=5,991, б=0,01), принимаем гипотезу H0.
Рисунок 6 — гистограмма частот случайной величины о4.
Таблица 7 — Интервальный вариационный ряд для случайной величины о4.
Ji | [4,95;6,6) | [6,6;8,25) | [8,25;9,9) | [9,9;11,55) | [11,55;13,2) | [13,2;14,85) | [14,85;16,5) | |
ki | ||||||||
ki/n | 0,16 | 0,08 | 0,1 | 0,24 | 0,2 | 0,08 | 0,14 | |
fi | 1,3 559 322 | 0,6 779 661 | 0,84 745 763 | 2,3 389 831 | 1,69 491 525 | 0,6 779 661 | 1,18 644 068 | |
Выдвинем гипотезу H0: с оценками параметров распределения .
Получая в Statistica значение критерия «хи-квадрат», равное 1,076 (при критических значениях ч2кр.лев.4=0,1, ч2кр.пр.4=5,991, б=0,01), принимаем гипотезу H0.
Рисунок 7 — гистограмма частот случайной величины о5.
Таблица 8 — Интервальный вариационный ряд для случайной величины о5.
Ji | [0,18;0,27) | [0,27;0,36) | [0,36;0,45) | [0,45;0,54) | [0,54;0,63) | [0,63;0,72) | [0,72;0,81) | |
ki | ||||||||
ki/n | 0,04 | 0,02 | 0,2 | 0,28 | 0,28 | 0,14 | 0,04 | |
fi | 0,33 898 305 | 0,16 949 153 | 1,69 491 525 | 2,37 288 136 | 2,37 288 136 | 1,18 644 068 | 0,33 898 305 | |
Выдвинем гипотезу H0: с оценками параметров распределения .
Получая в Statistica значение критерия «хи-квадрат», равное 1,076 (при крит. значениях ч2кр.лев.5=0,004, ч2кр.пр.5=3,841, б=0,01), принимаем гипотезу H0.
Таблица 9 — оценки основных числовых характеристик компонент вектора о.
о1 | 2,28 | 2,92 | 2,9812 | 1,709 | 0,569 | 2,741 | 34,68 | 167,48 | 2,844 | 23,4 | |
о2 | 2,585 | 1,964 | 2,0045 | 1,402 | — 0,094 | 2,349 | 35,44 | 146,31 | — 0,259 | 9,064 | |
о3 | 0,524 | 0,04 | 0,0415 | 0,202 | 0,26 | 2,437 | 0,21 | 0,15 | 0,002 | 0,004 | |
о4 | 10,77 | 10,536 | 10,751 | 3,246 | — 0,095 | 2,126 | — 3,24 | ||||
о5 | 0,521 | 0,0134 | 0,0137 | 0,116 | — 0,508 | 3,775 | 0,21 | 0,09 | — 0,0008 | 0,0007 | |
По данным таблицы 9 мы можем сделать следующие выводы:
Наиболее однородной является генеральная совокупность о5, так как она имеет наименьшую оценку дисперсии. Наименее однородной является совокупность о4, имеющая наибольшую дисперсию.
Наименее симметрично распределенной относительно оценки математического ожидания является генеральная совокупность о1, имеющая наибольшую по модулю оценку коэффициента асимметрии. Наиболее симметрично распределенной относительно оценки математического ожидания является генеральная совокупность о2, имеющая наименьшую по модулю оценку коэффициента асимметрии.
Наиболее острый пик распределения около математического ожидания имеет генеральная совокупность о5, имеющая наибольшее значение оценки коэффициента эксцесса. Наиболее гладкий пик распределения около математического ожидания имеет генеральная совокупность о4, имеющая наименьшее значение оценки коэффициента эксцесса.
Все выдвинутые нами гипотезы были подтверждены, следовательно, по апостериорной выборке можно судить о характере закона распределения генеральной совокупности.
Глава 2. Построение доверительных интервалов.
1) Постановка задачи
Для компонент многомерного случайного вектора из предыдущей лабораторной работы найти доверительные интервалы для оценок параметров законов распределения этих компонент многомерного случайного вектора.
2) Краткие теоретические сведения
Так как точечные оценки являются случайными величинами, то мы не можем говорить о величине погрешности между реальным значением параметра закона распределения и его оценкой (из-за того, что оценка является случайной величиной, зависящей от конкретной апостериорной выборки).
Пусть и — оцениваемый параметр генеральной совокупности (не обязательно входящий в её закон распределения) и имеется априорная выборка о1,n. Формируем апостериорную выборку х1,n.
Доверительным интервалом для параметра и будем называть интервал, который с заданной надёжностью (доверительной вероятностью г) содержит внутри себя («накрывает») оцениваемый параметр.
— основное уравнение для нахождения нижней и верхней границ интервалов.
Точность нахождения оценки характеризуется длиной интервала.
Также существует другое определение. Пусть — некоторая оценка параметра и. Тогда доверительным интервалом для параметра и будем называть интервал с серединой, в который с заданной вероятностью г входит и.
где д — радиус доверительного интервала.
г — доверительная вероятность. Обычно ей задают значение в интервале (0.9; 0.995).
При построении доверительных интервалов сначала строим некоторую статистику, которая содержит оцениваемый параметр (для которого строим доверительный интервал). При этом:
1) Статистика строится так, чтобы был известен её закон распределения, но он не содержал бы оцениваемого параметра;
2) Как правило, статистика строится в таком виде, чтобы оцениваемый параметр и его оценка входили в эту статистику либо в виде разности, либо в виде отношения.
Например, при расчёте математического ожидания при известной дисперсии используем следующую статистику:
.
Пусть известно, что генеральная совокупность имеет нормальный закон распределения с неизвестным математическим ожиданием m и известной дисперсией у2. Построим статистику U. Она будет иметь нормальный закон распределения с параметрами (0; 1). В результате вычислений получим реализованный доверительный интервал для данной апостериорной выборки.
где, (Ф-1(х) — квантиль уровня х для нормально распределённой случайной величины с параметрами (0;1)) (формула 1).
Если дисперсия неизвестна, то доверительный интервал для математического ожидания имеет следующий вид:
где — квантиль уровня х для случайной величины, распределённой по закону Стьюдента с (n-1) степенями свободы. (формула 2)
Также для вычисления доверительного интервала для оценки математического ожидания можно использовать функцию St (x), где .
— доверительный интервал для математического ожидания. (формула 3)
В случае, если нам необходимо построить доверительный интервал для оценки дисперсии при неизвестном математическом ожидании генеральной совокупности, распределённой по нормальному закону, воспользуемся следующей формулой:
где, с числом степеней свободы n-1. (формула 4)
В случае, если закон распределения генеральной совокупности неизвестен, но известна её дисперсия, а также мы имеем большой объём выборки, то математическое ожидание можно найти по формуле:
где .
(формула 5) Если дисперсия неизвестна, то воспользуемся формулой:
где — квантиль уровня х для случайной величины, распределённой по закону Стьюдента с (n-1) степенями свободы. (формула 6)
Для нахождения дисперсии генеральной совокупности с неизвестным законом распределения воспользуемся формулой
где. (формула 7)
При нахождении доверительного интервала для параметра л дискретной случайной величины, распределённой по закону Пуассона следует решить относительно л1, л2 следующие уравнения:
и ,
где л1, л2 — нижняя и верхняя границы доверительного интервала соответственно, л* — оценка параметра л. (формулы 8 и 9)
При построении доверительного интервала для вероятности имеем формулу
где. (формула 10)
3) Порядок выполнения задания
Положим г=0,95.
Рассмотрим сначала нормально распределённые генеральные совокупности.
Для вычисления доверительного интервала для математического ожидания нормально распределённой генеральной совокупности сначала найдём по таблице квантилей распределения Стьюдента квантиль уровня (1+г)/2 при (n-1) степенях свободы. Для г=0,95 и n=50 этот квантиль примерно равен 2,01. Рассмотрим построение доверительных интервалов на примере генеральной совокупности о3. Оценки её числовых характеристик:
Таблица 1 — оценки числовых характеристик генеральной совокупности о3.
Оценка математического ожидания | 0,5238 | |
Оценка дисперсии | 0,40 648 | |
Оценка СКО | 0,201 612 | |
Построим доверительный интервал для математического ожидания. Воспользуемся формулой 2:
.
Имеем:,. По таблице квантилей функции распределения Стьюдента находим. Подставляя эти значения в неравенство, получаем интервал: .
Затем построим доверительный интервал для дисперсии. Воспользуемся формулой 4:. Имеем. Из таблицы квантилей функции распределения находим,. Подставляя эти значения в неравенство, получаем интервал:. Аналогичным образом найдём доверительные интервалы для математического ожидания и дисперсии остальных нормально распределённых генеральных совокупностей.
Таблица 2 — оценки числовых характеристик генеральной совокупности о4.
Оценка математического ожидания | 10,7712 | |
Оценка дисперсии | 10,53 594 | |
Оценка СКО | 3,245 912 | |
Доверительный интервал для математического ожидания:. Доверительный интервал для дисперсии: .
Таблица 3 — оценки числовых характеристик генеральной совокупности о5.
Оценка мат. ожид. | 0,5206 | |
Оценка дисперсии | 0,1 341 | |
Оценка СКО | 0,1158 | |
Доверительный интервал для математического ожидания:. Доверительный интервал для дисперсии: .
Рассмотрим равномерно распределённую генеральную совокупность о2.
Таблица 4 — оценки числовых характеристик генеральной совокупности о2.
Оценка математического ожидания | 2,585 | |
Оценка дисперсии | 1,96 441 | |
Оценка СКО | 1,40 157 412 | |
Для построения доверительного интервала для математического ожидания воспользуемся формулой 6 (т.к., скорее всего, закон распределения отличается от нормального, считаем закон распределения стремящимся к нормальному при n->?):
.
Имеем:,. По таблице квантилей функции распределения Стьюдента находим. Получаем доверительный интервал для математического ожидания: .
Для построения доверительного интервала для дисперсии воспользуемся формулой 7:
где. Имеем. Находим. Подставляя значения, находим доверительный интервал: .
Также, используя найденные доверительные интервалы математического ожидания и дисперсии, мы можем найти доверительные интервалы для параметров, а и b из системы неравенств:
Выразим b через a и найдём приближённо границы области доверительных интервалов:
Построив эту область на плоскости, находим её границы по оси a:. Её границы по оси b: .
Рассмотрим дискретную генеральную совокупность о1.
Таблица 4 — оценки числовых характеристик генеральной совокупности о1.
Оценка мат. ожид. | 2,28 | |
Оценка дисперсии | 2,9216 | |
Оценка СКО | 1,70 926 885 | |
Решая уравнения и (считаем г=0,95), получаем приближённые значения л1=0,25, л2=8. Следовательно, (0,25; 8) — доверительный интервал для л.
Глава 3. Проверка параметрических гипотез
1) Постановка задачи
Для компонент многомерного случайного вектора проверить параметрические гипотезы относительно закона распределения этих компонент многомерного случайного вектора.
2) Краткие теоретические сведения
Пусть о — генеральная совокупность, закон распределения которой принципиально известен (найден по полигону или гистограмме). и — неизвестно. В качестве параметров обычно берём их оценки. Из косвенных соображений считаем, что параметр принимает другое, более точное значение. Нас интересует обоснование утверждения «Параметр принимает значение и0 (или и1)». В качестве инструмента обоснования применим параметрическую проверку гипотез.
Статистическая гипотеза называется простой, если она имеет вид и=и0. Если же она имеет вид, где D — некоторая область значения параметра.
Рассмотрим проверку двух простых гипотез.
Пусть нам принципиально известен закон распределения, а также выдвинуты гипотезы Н0: и=и0 и Н1: и=и1. Нам требуется по данным апостериорной выборки принять решение о справедливости Н0 или Н1. Статистическим критерием проверки гипотез называют правило, по которому по данным апостериорной выборки принимают решение о справедливости Н0 или Н1.
Множество всех возможных значений апостериорной выборки (для априорной выборки это множество возможных значений) называется выборочным пространством (оно также является n-мерным эвклидовым пространством).
Обозначим Хn — выборочное пространство размерности n, W — критическое множество (область, в которой Н0 отвергается). Через обозначим дополнение области W до Хn. — область принятия Н0.
Задача проверки гипотезы с помощью статистического критерия заключается в построении критической области и последующей проверки принадлежности конкретной апостериорной выборки к W (если принадлежит, то Н0 отвергаем, Н1 принимаем).
Построить W однозначно невозможно. Возможны ситуации, когда верна Н0, а x1,n принадлежит области W, и Н0 ошибочно отвергается (ошибка первого рода). Если верна гипотеза Н1, а, и мы ошибочно принимаем Н0, то мы имеем ошибку второго рода.
Если нам принципиально известен закон распределения генеральной совокупности, то мы знаем и закон распределения о1,n. Тогда можно вычислить вероятность совершить ошибку первого рода, где б называется значимостью нулевой гипотезы.
Через в обозначим вероятность совершить ошибку второго рода.. Предпочтительнее совершить ошибку первого рода, чем второго (т.к. бездействие лучше неверного решения).
Для нормально распределённой генеральной совокупности справедливы формулы:
;
(1- в) — мощность статистического критерия (вероятность отвергнуть нулевую гипотезу при условии, что верна H1).
Построенный критерий должен иметь максимальную мощность при заданном уровне значимости, б обычно задают и на его основе строят области W и так, чтобы мощность была максимальна.
Пусть о — генеральная совокупность с законом распределения, где и — неизвестный параметр. Выдвигаем Н0:и=и0 и Н1:и=и1.
Пусть априорная выборка построена по всем правилам. Через L (о1,n;и) обозначим функцию максимального правдоподобия.
Составим функцию
.
Если верна нулевая гипотеза, то .
— отношение правдоподобия, которое при истинности нулевой гипотезы стремится к своему минимуму. Мы ожидаем наиболее мощный критерий Неймана-Пирсона при заданном уровне значимости.
В критическое множество включают те апостериорные выборки, для которых, где, которая выбирается из условия .
Имеем
— критерий Неймана-Пирсона для гипотезы m01 и
— критерий Неймана-Пирсона для гипотезы m0>m1.
Другая идея проверки гипотез заключается в том, что мы строим скалярную функцию T (о1,n), которую будем называть статистикой критерия. Она будет строиться из следующих соображений:
1) Закон распределения статистики не должен зависеть от параметров генеральной совокупности;
2) Статистика, как и при построении доверительных интервалов, должна содержать оценку исследуемого параметра и его гипотетическое значение либо в виде разности, либо в виде отношения.
Пусть эта статистика построена и имеет известный закон распределения. Она отображает точки выборочного пространства в точки на числовой оси T (х1,n). При этом критическая область W отобразится во множество точек W0 и будет называться «критическим множеством». отобразится в W1 — область принятия решения. Области W0 и W1 разделены точкой tкр. Наша задача — найти эту критическую точку. Затем, вычисляя Tнабл(Х1,n), смотрим, попадает ли значение статистики критерия в W0 или W1.
В зависимости от свойств случайной величины, её закона распределения и, в первую очередь, формулировки гипотезы, возможны три случая.
1) Имеем правостороннюю критическую область.
.
2) Имеем левостороннюю критическую область.
.
3) Имеем двустороннюю критическую область.
.
Перейдём к проверке гипотез относительно параметров распределения нормально распределённой генеральной совокупности.
Пусть, где у2 известна. Проверяется гипотеза H0:m=m0, а также альтернативная гипотеза H1:m=m1. Получаем выборку. Строим оценку математического ожидания. Строим статистику
.
1) Для гипотезы m1>m0 имеем, где U1-б — квантиль распределения стандартизованной нормально распределённой случайной величины уровня (1-б).
2) Для гипотезы m10 имеем .
3) Для двусторонней критической области имеем
.
Рассмотрим случай, когда у2 неизвестна. Для этого случая также проверим гипотезу о значении математического ожидания с учётом всех трёх возможных ситуаций.
Статистика будет иметь вид
и будет распределена по закону распределения Стьюдента с (n-1) степенью свободы.
1) Для гипотезы m1>m0 имеем
где U1-б — квантиль распределения Стьюдента с (n-1) степенью свободы уровня (1-б).
2) Для гипотезы m10 имеем
.
3) Для двусторонней критической области имеем
.
Теперь проверим гипотезу относительно значения параметра у2 нормально распределённой генеральной совокупности при неизвестном математическом ожидании.
Проверяется гипотеза
H0:у2=,
а также альтернативная гипотеза
H1: у2= .
Получаем выборку. Строим оценку математического ожидания. Строим статистику
.
1) Для гипотезы > имеем
где U1-б — квантиль распределения «хи-квадрат» с (n-1) степенью свободы уровня (1-б).
2) Для гипотезы < имеем .
3) Для двусторонней критической области имеем
.
Затем проверим гипотезу о равенстве математических ожиданий двух генеральных совокупностей о и з. Выдвинем гипотезы H0:mо=mз и H1:mо<>mз
Будем считать, что дисперсии сравниваемых генеральных совокупностей равны и известны. Построим статистику
.
Если H0 верна, то .
1) Если H1 имеет вид mо>mз, то строим правостороннюю критическую область. Получаем, где U1-б — квантиль распределения стандартизованной нормально распределённой случайной величины уровня (1-б).
2) Для гипотезы mоз имеем
.
3) Для двусторонней критической области имеем
.
Если неизвестны значения дисперсий генеральных совокупностей, то строим статистику
которая имеет распределение Стьюдента с числом степеней свободы .
1) Для гипотезы mо>mз имеем
где U1-б — квантиль распределения Стьюдента с степенями свободы уровня (1-б).
2) Для гипотезы mоз имеем
.
3) Для двусторонней критической области имеем
.
Проверим гипотезу об однородности дисперсий двух генеральных совокупностей.
ГС о и з. Имеем. Находим и. Для определённости положим, что. Выдвигаем гипотезу Н0:; Н1: .
Построим статистику
В случае справедливости Н0 эта статистика имеет распределение Фишера с числом степеней свободы числителя (nx-1 и ny-1). Если Fнабл>Fкр,(б, nx-1, ny-1) то Н0 отвергаем.
Проверим гипотезу об однородности дисперсий нескольких генеральных совокупностей.
Пусть мы имеем нормально распределённых генеральных совокупностей, дисперсии которых соответственно равны и выборок из этих совокупностей объёмами .
Выдвинем гипотезу H0:, где i=1,., l. Для проверки этой гипотезы мы можем использовать критерий Бартлетта.
где, .
Критерий Бартлетта имеет ч2 — распределение с (l-1) степенями свободы. Гипотеза H0 отвергается, если ч2набл>Uб, где Uб — квантиль распределения «хи-квадрат» уровня б с числом степеней свободы (l-1).
Проверим гипотезу об однородности математических ожиданий нескольких генеральных совокупностей.
Используем критерий дисперсионного анализа, который применяется для выборок нормально распределённых генеральных совокупностей с одинаковой, но неизвестной дисперсией.
где, .
Выдвинем гипотезу Н0:m1=…=ml. В случае справедливости этой гипотезы статистика распределена по закону Фишера с числом степеней свободы числителя (l-1) и числом степеней свободы знаменателя. Если, где Fб, — квантиль уровня б случайной величины, распределённой по закону Фишера с числом степеней свободы числителя (l-1) и числом степеней свободы знаменателя, то гипотезу H0 отвергаем.
3) Порядок выполнения задания
Рассмотрим проверку гипотезы относительно значения математического ожидания генеральной совокупности.
Покажем процесс проверки на примере нормально распределённой генеральной совокупности
с оценками параметров распределения .
Выдвинем гипотезу H0:m=m0=0,5. H1:m1>m0, m1=0,7. Здесь и далее б=0,05. Проверим справедливость гипотезы H0, используя статистику
.
Воспользуемся формулами для вычисления критических точек (границ правосторонних, левосторонних и двусторонних критических областей) при неизвестных дисперсиях:
и ,
соответственно, где U1-б — квантиль распределения Стьюдента с (n-1) степенью свободы уровня (1-б).
Вычисляем T (X1,n) по формуле. Получаем T (X1,n)=0,82 633 806. tкр=1,678 (для правосторонней критической области). T (Х1,n)кр, значит, гипотезу H0 принимаем, H1 отвергаем.
Таблица 1 — проверка гипотез о значениях математических ожиданий генеральных совокупностей.
ГС | H0 | H1 | T (X1,n) | tкр | Вывод | ||
о2 | m=m0=2,5 | m10 | 0,42 | — 2,01 | T (Х1,n)>tкр, значит, H0 принимаем, H1 отвергаем | ||
о4 | m=m0=10 | 1,6631 | (-2,31; 2,31) | Tкр.лев.1,n)кр.пр., H0 принимаем, H1 отвергаем | |||
о5 | m=m0=0,5 | m1>m0 | 1,2453 | 2,01 | T (Х1,n)кр, H0 принимаем, H1 отвергаем | ||
Проверим гипотезы об однородности математических ожиданий двух нормально распределённых генеральных совокупностей.
Рассмотрим проверку гипотезы на примере генеральных совокупностей с оценками параметров распределения. и с оценками параметров распределения. Выдвинем гипотезы H0: и H1:. Проверим справедливость гипотезы H0, используя статистику
.
Построим статистику t, имеющую распределение Стьюдента с числом степеней свободы. Найдём T (X1,n)=22,5 662. Значение tкр для левосторонней критической области: 0,62 868. T (X1,n)>tкр, следовательно, гипотезу H0 отвергаем в пользу гипотезы H1.
Таблица 2 — проверка гипотез об однородности математических ожиданий двух генеральных совокупностей.
H0 | H1 | T (X1,n) | tкр | Вывод | |||
mо4=mо5 | mо4>mо5 | 22,092 | 1,98 | T (X1,n)>tкр, значит, H0 отвергаем в пользу H1 | |||
mо3=mо5 | 0,096 | (-2,28; 2,28) | Tкр.лев.1,n)кр.пр, H0 принимаем | ||||
Проверим гипотезу однородности математических ожиданий трёх нормально распределённых генеральных совокупностей.. Найдём критическую точку (границу правосторонней критической области), используя критерий дисперсионного анализа:
где, .
Вычисляем. По таблице квантилей распределения Фишера находим
. ,
следовательно, гипотезу H0 отвергаем.
Перейдём к проверке гипотез относительно значений дисперсии генеральной совокупности.
Покажем процесс проверки на примере нормально распределённой генеральной совокупности с оценками параметров распределения .
Выдвинем гипотезу
Н0:. Н1:.
Проверим справедливость гипотезы H0, используя статистику. Воспользуемся формулами для вычисления критических точек (границ правосторонних, левосторонних и двусторонних критических областей):, и, соответственно,
где U1-б — квантиль распределения «хи-квадрат» с (n-1) степенью свободы уровня (1-б).
Вычисляем. , значит, гипотезу H0 принимаем.
Таблица 3 — проверка гипотез о значениях дисперсий генеральных совокупностей.
ГС | H0 | H1 | ч2(X1,n) | ч2кр | Вывод | ||
о2 | 1,964 | 49,11 | 34,76 | ч2(X1,n)>ч2кр, значит, H0 принимаем. | |||
о4 | 10,5359 | 47,89 | 56,44 | ч2(X1,n)<�ч2кр, значит, H0 принимаем. | |||
о5 | 0,0134 | 67,05 | (32,36; 70,22) | ч2кр.лев.<�ч2(X1,n)<�ч2кр.пр., значит, H0 принимаем. | |||
Проверим гипотезу об однородности дисперсий пары генеральных совокупностей.
Рассмотрим проверку гипотез на примере генеральных совокупностей о3 и о4.
Выдвинем Н0:, Н1:. Построим статистику. Fкр=1,6. F=259,2023. Fнабл>Fкр, следовательно, гипотезу об однородности дисперсий генеральных совокупностей о3 и о4 отвергаем.
Аналогично проверим другие пары генеральных совокупностей.
Таблица 3 — проверка гипотез об однородности дисперсий генеральных совокупностей.
H0 | H1 | F (X1,n) | Fкр | Вывод | |||
10,5359 | 0,0134 | 785,699 | 1,6 | Fнабл>Fкр, значит, Н0 отвергаем | |||
0,0134 | 3,0312 | 1,6 | Fнабл>Fкр, значит, Н0 отвергаем | ||||
Проверим однородность дисперсий нормально распределённых генеральных совокупностей о3, о4 и о5.
Используем критерий Бартлетта.
где,
Находим по таблице квантилей ч2крит=5,99. Вычисляем ч2набл=434,2903. ч2набл>ч2кр, следовательно, гипотезу об однородности дисперсий генеральных совокупностей о3, о4 и о5 отвергаем.
Глава 4. Корреляционный анализ компонент многомерного вектора
1) Постановка задачи
Для нормально распределённых компонент многомерного случайного вектора построить множественные, парные и частные коэффициенты корреляции, функции регрессии и проверить полученные функции и коэффициенты на значимость и построить для них доверительные интервалы.
2) Краткие теоретические сведения
Будем рассматривать только нормально распределённые случайные величины.
Парная функция регрессии устанавливает зависимость условной средней одной случайной величины от текущего значения другой случайной величины.
О силе парной связи судят, используя корреляционное отношение, вычисляемое по формуле
где факторная дисперсия — безразмерная величина, характеризующая отклонение значение результативной переменной, вычисленного с помощью функции регрессии от её реального значения.
Если, то мы имеем функциональную зависимость значения результативной переменной от текущего значения объясняющей переменной. Если же — отсутствие зависимости значения результативной переменной от текущего значения объясняющей переменной. Верны и обратные утверждения.
Коэффициент детерминации используется в качестве показателя степени тесноты статистической связи. Его нулевое значение соответствует полному отсутствию какой бы то ни было связи между результативным и объясняющим признаками. Единичное значение — наличию чисто функциональной связи между результативным и объясняющим признаками. Численное значение коэффициента детерминации отражает долю общей вариации результирующего признака, обусловленной изменением значения объясняющей переменной. Частным коэффициентом корреляции между случайными величинами о1, о2, освобождёнными от влияния всех остальных, будем называть парный коэффициент корреляции между парой новых случайных величин, получаемых из о1, о2 удалением из них функций регрессии Mо1/(.) Mо2/(.), где запись (.) означает «по всем остальным переменным». Пусть над всеми k признаками сделали выборки объёма n. Получим матрицу «объект-свойство». Элемент хij — наблюдённое значение i-того признака на j-том объекте.
По значениям элементов матрицы «объект-свойство» мы можем найти оценки числовых характеристик признаков.
— оценка математического ожидания j-того признака.
— смещённая и несмещённая оценки дисперсии j-того признака.
— оценка ковариации между i-тым и j-тым признаками. — оценка ковариационной матрицы.
Из ковариационной матрицы получаем корреляционную, поделив элементы каждой i-той строки и каждого i-того столбца на элемент ковариационной матрицы.
Обозначим — определитель корреляционной матрицы. — алгебраическое дополнение элемента (i, j) корреляционной матрицы. Тогда множественный коэффициент корреляции (оi по всем остальным) найдём по формуле
.
Частный коэффициент корреляции между параметрами оi и оj (очищенный от влияния всех остальных) найдём по формуле. Найдя коэффициенты, сможем получить уравнение регрессии.. Оценку коэффициентов уравнения регрессии находим следующим образом:, где, а — остаточная дисперсия j-того признака, находимая по формуле .
— частное уравнение регрессии, показывающее влияние (l-1) объясняющей переменной на результирующую переменную.
— оценка коэффициента детерминации.
Рассмотрим построение доверительных интервалов для уравнения регрессии.
Выдвинем гипотезу Н0: — объясняющие переменные не оказывают влияния на вариацию результативного признака. Н1: — хотя бы один признак является факторным.
Пусть рассматривается оценка коэффициента детерминации, где l — количество факторных признаков, связь оj с которыми мы желаем исследовать.
Для проверки гипотезы построим статистику
.
В случае справедливости Н0 эта статистика распределена по закону Фишера с числом степеней свободы числителя l и числом степеней свободы знаменателя (n-l-1). Если Fнабл>Fкр, то Н0 отвергаем, а множественный коэффициент корреляции (детерминации) значимо отличен от нуля и уравнение регрессии значимо.
Для проверки парных коэффициентов корреляции используем статистику (для частного коэффициента корреляции имеем статистику). В случае справедливости Н0 статистика распределена по закону Стьюдента (n-l-1) степенями свободы. Если |tнабл|>tкр, то Н0 отвергаем, а исследуемый парный либо частный коэффициент корреляции (детерминации) значимо отличен от нуля и уравнение регрессии значимо.
Перейдём к построению доверительных интервалов для значимых характеристик линейной зависимости.
Если значимо отличен от нуля и имеет выборочную оценку, то для построения доверительного интервала мы осуществим на Z-преобразование Фишера.
Получаем двойное неравенство:
где. Осуществляя обратное преобразование Фишера, получаем доверительный интервал для
: .
Для нахождения оценки точности оценок коэффициентов уравнения регрессии построим доверительный интервал, используя статистику
.
Она распределена по закону Стьюдента с числом степеней свободы (N-l-1). Получим доверительный интервал:
где, .
3) Порядок выполнения задания
Так как корреляционный анализ применим только для нормально распределённых генеральных совокупностей, то ограничимся исследованием взаимосвязей между случайными величинами о3, о4, о5.
Имеем матрицу «объект-свойство» размерности 3×50. По этой матрице, имея оценку вектора математических ожиданий, построим ковариационную матрицу размерности 3×3, используя формулы
и .
Получаем оценку ковариационной матрицы
.
Затем получим оценку корреляционной матрицы, поделив элементы каждой i-той строки и каждого i-того столбца на элемент ковариационной матрицы. Получим матрицу
.
Затем найдём частные коэффициенты корреляции, используя возможности пакета Statistica, либо формулу
.
Получим значения, , (вычисление всех коэффициентов корреляции с помощью программного пакета «Statistica» приведено в приложении).
следовательно, случайная величина о5 усиливает взаимосвязь между случайными величинами о3 и о4., следовательно, случайная величина о4 усиливает взаимосвязь между случайными величинами о3 и о5., следовательно, случайная величина о3 усиливает взаимосвязь между случайными величинами о4 и о5.
Проверим полученные оценки парных и частных коэффициентов корреляции на значимость. Выдвинем гипотезу Н0: — гипотезу о незначимости парного коэффициента корреляции между о3 и о4. Проверим гипотезу с помощью статистики (для частного коэффициента корреляции имеем статистику). Получим tкр(0,05;47)= 2,01. tнабл=41,32. |tнабл|>tкр, следовательно, гипотезу H0 отвергаем, — значимо.