Выборочные характеристики.
Теория вероятностей и математическая статистика
Выборочными характеристиками называются функции от наблюдений (точечные оценки), приближенно оценивающие соответствующие числовые характеристики случайной величины. В случае равноточных измерений в качестве оценок математического ожидания, дисперсии, функции распределения, начальных и центральных моментов и т. д. используются выборочное среднее, выборочные дисперсии, эмпирическая функция… Читать ещё >
Выборочные характеристики. Теория вероятностей и математическая статистика (реферат, курсовая, диплом, контрольная)
Выборочными характеристиками называются функции от наблюдений (точечные оценки), приближенно оценивающие соответствующие числовые характеристики случайной величины. В случае равноточных измерений в качестве оценок математического ожидания, дисперсии, функции распределения, начальных и центральных моментов и т. д. используются выборочное среднее, выборочные дисперсии, эмпирическая функция распределения, выборочные начальные и центральные моменты к-го порядка, выборочная мода, выборочная медиана и др. (табл. 11.1, где N — объем генеральной совокупности; п — объем выборки).
Для краткости в дальнейшем будем считать, что Мс, = оЛ = a, Dt = ц2 = о2.
Замечание 11.1. Все выборочные характеристики являются случайными величинами. Все теоретические характеристики есть точные величины. Поэтому выборочные характеристики в общем случае не совпадают с теоретическими, а являются всего лишь их оценками. Итак, еще раз: точечными оценками параметров называются функции от наблюдений, предназначенные для приближенного оценивания этих параметров.
Несмещенность и состоятельность точечных оценок основных параметров законов распределения
Чтобы статистические точечные оценки были близки по числовым значениям к своим теоретическим (генеральным) оцениваемым характеристикам, они должны удовлетворять определенным требованиям, а именно: быть несмещенными, состоятельными, эффективными.
Точечная статистическая оценка 0″ называется несмещенной, если ее математическое ожидание при любом п равно оцениваемому параметру 0, т. е.
Выборочные характеристики.
Числовые характеристики случайной величины | Теоретические (генеральные) характеристики | Выборочные характеристики (точечные оценки) | |
— дискретная случайная величина | 4 — непрерывная случайная величина | ||
Математическое ожидание. | Mi=Y.xiPi i=1. | М%= } xp=(x)dx. — 00. | 1 п х = — Ух, — выборочное среднее. |
Начальные моменты к-го порядка. | «к = Z4Pi i=l. | со. «к = I xkp^x)dx —со. | 1 П " k=-Zxf 71 1=1 |
Дисперсия. | D$ = X (xi-MZ)2pi i=1. | Щ = J (jc — му2 p, (x)dx. — oo. | 1 «. а2 = —У (х, -х)2 — смещенная оценка; " Ы1 1 «. а2 а =—У (х,—Му2 — несмещенная оценка; ' ni=i я 1 «. s2 =-У (х, -х)2 — исправленная оценка. n-li=i. |
Функция распределения. | F (x) | F (x)=—, где nY— число наблюдений, меньших п произвольного числа х. | |
Центральные моменты к-го порядка. | Pk = -M%)kPi i=1. | Pk = j (x — M6)kp-^wdx — 30. | 1п щ. = — У (х; -х)к — смещенные оценки при к > 2. |
Коэффициент вариации. | ME, | уЛ. X |
Числовые характеристики случайной величины | Теоретические (генеральные) характеристики | Выборочные характеристики (точечные оценки) | |
? — дискретная случайная величина | 5 — непрерывная случайная величина | ||
Коэффициент ковариации. | cov (?, Г|) = М ((?, — Мс)(л — Мл)). | — 1 п cov (^, л)"есм = —г ZU. — *) (у. — у) — несмещенная Н — 1 i=l. оценка парной выборочной ковариации. | |
Асимметрия. | Р= р- (л/Щ)3 | S3. | |
Эксцесс. | Щ о v = -3. (DZ)2 | v=*±-3. sn4 | |
Мода. | P?=xmod) = max (наиболее вероятное значение). | PUxmod) = max. (точка xmod локального максимума функции плотности распределения вероятностей). | Выборочная мода xmod — значение варианты с наибольшим числом наблюдений (с наибольшей частотой). |
Медиана. | Число xmed, такое что Р (^ < Xmed) — = P (q>Xmcd) = i. | Число xmed, такое что. х tried p,(x)dx = — ОО. = ] p=(x)dx = |. xmed | Число хтеф стоящее в середине вариационного ряда. Оно может не совпадать ни с одним значением наблюдений. |
Точечная статистическая оценка 0″ называется состоятельной, если при неограниченном увеличении выборки она сходится по вероятности к оцениваемому параметру 0, т. е.
для любого е > 0.
Точечная несмещенная статистическая оценка 0″ называется эффективной, если она имеет минимальную дисперсию в классе всех несмещенных оценок рассматриваемого параметра.
Напоминание. Математическая статистика в своих расчетах использует простой прием математического анализа, на который обратим внимание. Пусть дана функция F (x) = 2х3. Требуется найти F'(l) х х F'(-l). Введем обозначения: (х^ х2) = (1; -1). Рассмотрим х1; х2 как переменные и продифференцируем по ним. Получим F'(x1)F'(х2) = = 6Xj2. бх| = 6 • I2 • 6 • (-1)2 =36.
Используем этот прием в математической статистике. Пусть случайная величина? ~ N (a, а2) приняла значение 2. Требуется найти М2 (мы разыскиваем математическое ожидание от случайной величины, которая приняла в одном из наблюдений значение 2). Обозначим наше наблюдение через х,. Рассмотрим теперь х, как переменную и проведем с ней все необходимые преобразования:
Следовательно, математическое ожидание одного наблюдения есть М2 = Мх; = а = М?, т. е. в тех случаях, где при суммировании или интегрировании х, исчезает, будем иметь теоретическую характеристику.
Например:
Перейдем к исследованию вопросов несмещенности и состоятельности выборочных характеристик, а затем, сформулировав и доказав теорему Рао — Фреше — Крамера, изучим вопросы эффективности. Несмещенность будем доказывать, беря математическое ожидание от выборочной характеристики. Для доказательства состоятельности используем неравенство Чебышёва.
- 1. Выборочное среднее.
- 1.1. Точечная оценка х является несмещенной оценкой математического ожидания а.
- 1.2. Точечная оценка х является состоятельной.
- ?Чтобы воспользоваться неравенством Чебышёва, предварительно найдем дисперсию. Учтем независимость наблюдений:
Полученный результат — дисперсия выборочного среднего в п раз меньше дисперсии одиночного наблюдения — будет неоднократно использован в дальнейшем.
В соответствии с неравенством Чебышёва.
т.е. оценка х является состоятельной оценкой (!.?
- 2. Выборочные начальные моменты к-го порядка ак.
- 2.1. Точечная оценка ак является несмещенной оценкой теоретического момента ак.
- 2.2. Точечная оценка ак является состоятельной оценкой.
- ?Найдем дисперсию выборочного начального момента ак, используем при этом независимость наблюдений х:
В силу неравенства Чебышёва.
т.е. оценка выборочного начального момента ак является состоятельной оценкой ак. ?
- 3. Выборочная дисперсия а2.
- 3.1. Точечная оценка а2, построенная по п наблюдениям, является смещенной оценкой теоретической дисперсии а2.
- ?Преобразуем а2:
Найдем математическое ожидание от выборочной дисперсии, используя формулу М (?, — Me)2 = Dt:
л о О СУ^.
Полученный результат Ма2=а2—указывает на смещенность.
п
(заниженность) выборочной дисперсии. С ростом п смещение убывает, но при малых значениях п неучет этого обстоятельства приводит к ошибкам. ?
Найдем несмещенную оценку дисперсии. Из равенства Мст2 =——о2 выделим а2: п
Отсюда несмещенная, или исправленная, дисперсия S2 будет равна.
Если математическое ожидание генеральной совокупности = а известно до проведения наблюдений, то.
В этом случае выборочная дисперсия не будет смещена. Причина смещения выборочной дисперсии состоит в том, что она вычислиется как отклонение от выборочного среднего х, а не от теоретического значения (математического ожидания а). Так как х находится в центре выборки, в отличие от а, то отклонения от х в среднем меньше отклонений от а.
Смещенность присуща не только выборочной дисперсии (центральному моменту 2-го порядка). Например, несмещенный выборочный коэффициент ковариации рассчитывается по формуле.
Для выборочного несмещенного центрального момента 3-го порядка справедлива формула.
Доказательство состоятельности дисперсии с помощью неравенства Чебышёва потребует нахождения дисперсии от выборочной дисперсии Da?v что является достаточно сложным. Поэтому при доказательстве состоятельности выборочной дисперсии, а также других выборочных характеристик воспользуемся следующей теоремой о сходимости по вероятности непрерывных функций.
Теорема 11.1 (Слуцкого). Пусть функция /(х, у) непрерывна
р р
в точке (а, Ь), а случайные последовательности хп —>а, уп —>Ъ. Тогда f (xn, yn)^f (a, b).
?По определению непрерывности функции для любого е > 0 существует 8 > 0, такое что при всеххп, у" из интервалов |х" - а | < 5 и |у" - b < < 8 выполняется неравенство f (xn, yn) -/(а, Ь) | < е.
Если же |/(х", уп) -/(а, Ь) | > е, то по крайней мере верно либо |х" - а > > 8, либо |у" - Ъ | >8.
Тогда, используя теорему сложения для событий, А и В: Р (А + В) — = Р (А) -г Р (В) — Р (АВ), получим.
при п —Ь 00.
р
Следовательно, f (xn, yn)^>f (a, b).>-
Замечание 11.2. Теорема справедлива и при большем числе сходящихся по вероятности последовательностей, причем среди них могут находиться последовательности вида х" = const.
3.2. Точечная оценка ст^ является состоятельной оценкой а2. ?В формуле для выборочной дисперсии раскроем скобки:
1 Л Выражение — Ух? есть выборочный начальный момент а2, который, П|-1.
как мы уже знаем, сходится по вероятности к теоретическому начальному моменту а2:
p.
Точно так же х = аг —>аг.
р Поэтому а2 = /(а2, ах) = а2 — —"а2 — af.
Напомним, что параметры ах и а2 связаны с а2 следующим образом:
р Отсюда ст2 —>а2 -а? = а2.
Таким образом, выборочная дисперсия а2 сходится по вероятности к теоретической а2.^.
Замечание 11.3. Аналогично доказывается, что несмещенная выборочная дисперсия сходится по вероятности к теоретической а2.
Замечание 11.4. Все другие выборочные характеристики состоятельны, если их можно представить как функции от начальных моментов и дисперсии. Центральные моменты любого порядка выражаются через начальные моменты. Асимметрия и эксцесс выражаются через центральные моменты, поэтому их точечная оценка состоятельна.
Замечание 11.5. Другой способ доказательства состоятельности состоит в нахождении предела от выборочной характеристики. Вспомним, что если последовательность сходится, то она также сходится по вероятности. В большинстве случаев такой подход наталкивается на непреодолимые трудности, например lima2 = lim —Х (х, — -a)2 ]-?
n-«x п-««фп;=1 )
Ниже приведен пример 11.2, в котором этот подход привел к успеху.
4. Эмпирическая функция распределения F (x).
Теорема 11.2 (Гливенко — Кантелли). Точечная оценка F (x) функции распределения F (x) в каждой точке х является несмещенной и состоятельной оценкой функции распределения F (x).
? Пусть непрерывная случайная величина % имеет теоретическую функцию распределения F (x) = Р (?, < х) и эмпирическую функцию распределения Р (х)-—, где пх — число наблюдений, меньших х; п — п
объем выборки. Заметим, что F (x) — случайная величина. Все элементы выборки разделим на две группы. В первую включим те из них, которые меньше х, во вторую включим элементы, большие или равные числу х. Вероятность попадания элемента в первую группу р = Р (<; < х) назовем успехом, во вторую P (i; >x) = lp = q — неудачей. Тогда попадание элемента в одну из двух групп следует распределению Бернулли с дискретной случайной величиной г|, равной числу успехов в п независимых испытаниях Бернулли и вероятностью Р (г| = пх). Математическое ожидание того, что число успехов равно пх, есть величина Мг — = Мпх = пр, дисперсия есть Dr = Dnx = npq.
Отсюда имеем.
- 1. MF (x) = М^—j ~ — = р = Р (^ < х) = F (x), т. е. оценка не смещена.
- 2 DF (x) = pfVnfМС1—Ft*)(l-F (x))
n) n2 n
В силу неравенства Чебышёва для случайной величины F (x) и любого е > О
Поэтому.
при п —> оо, т. е. оценка состоятельна. ?
Пример 11.1. Пусть выборках1;х2, …, х" произведена из генеральной совокупности с равномерным распределением на промежутке [0; 0]. По выборке найти несмещенную оценку 0.
Решение. Плотность распределения случайной величины? равна.
х.
функция распределения равна F^(x) =—, хе [0; 0].
Имея ряд наблюденийх1;х2, …, хг1, мы должны оценить правую границу равномерного распределения. Естественно предположить, что максимальное наблюдение хтах и будет оценкой правой границы: 0n = хтах. Возможно, оценка окажется смещенной. Проверим это и в случае необходимости исправим оценку.
Пусть каждое из наблюдений х, окажется меньше некоторого числах. Вероятность осуществления такого совместного события.
Этой вероятности можно поставить в соответствие некоторую новую функцию распределения F (x) с переменным аргументом х. Ее производная есть плотность распределения вероятностей: (F (x))' = —х" -1.
Одно из наблюдений есть хтах. Найдем его математическое ожидание. Получим.
Здесь удобно переписать равенство через 0″ = хтах: М0″ =-0.
п + 1.
Оценка для границы распределения 0 оказалась смещенной. Исправим ее,.
п + 1.
для чего умножим обе части равенства на-:
п.
Таким образом, исправленная оценка параметра 0 имеет вид.
т.е. к максимальному значению наблюдения хтах необходимо прибавить его n-ю часть. В противном случае будет возникать ошибка, причем тем больше, чем меньше объем выборки.
При изучении поведения параметра 0 при небольших значениях п фактор несмещенности оценки 0″ является важным, при больших значениях п интересуются состоятельностью оценки. Следует указать, что оценка может быть несмещенной и одновременно несостоятельной, а также смещенной и несостоятельной.
Пример 11.2. Случайная величина Е, ~ 0[О, 0]. Для оценивания параметра 0 выбрано одно из наблюдений, например xt. Оценка параметра 0 принята О, = 2х,. Показать, что предложенная оценка является несмещенной и несостоятельной.
Л 0.
Решение. Несмещенность: M0j = М (2х,) = 2Мх, = 2— = 0. Оценка не смещена.
Несостоятельность: lim 0t = lim 2х, = 2х,. В силу произвольности значения П->" П—>оо х, и непрерывности равномерного распределения величина 2х, может принять любое значение на промежутке [0; 20]. Вероятность величине 2х, принять точечное значение 20 равна нулю. Значит, с вероятностью единица величина 2х, не примет это значение, т. е. х, не сходится по вероятности к числу 0.