Понятие интервального оценивания.
Доверительная вероятность и предельная ошибка выборки
Пример 9.10. При обследовании выработки 1000 рабочих цеха в отчетном году по сравнению с предыдущим по схеме собственно-случайной выборки было отобрано 100 рабочих. Получены следующие данные (см. первые две графы табл. 8.1). Необходимо определить: а) вероятность того, что средняя выработка рабочих цеха отличается от средней выборочной не более чем на 1% (по абсолютной величине); б) границы… Читать ещё >
Понятие интервального оценивания. Доверительная вероятность и предельная ошибка выборки (реферат, курсовая, диплом, контрольная)
Выше рассмотрена оценка параметров 0 генеральной совокупности одним число м, т. е. х0 — числом х, р — числом wy а2 — числом s2 или 52. Такие оценки параметров называются точечными.
Однако точечная оценка 0Л является лишь приближенным значением неизвестного параметра 0 даже в том случае, если она несмещенная (в среднем совпадает с 0), состоятельная (стремится к 0 с ростом п) и эффективная (обладает наименьшей степенью случайных отклонений от 0) и для выборки малого объема может существенно отличаться от 0.
Чтобы получить представление о точности и надежности оценки 0,7 параметра 0, используют интервальную оценку параметра.
Определение. Интервальной оценкой параметра 0 называется числовой интервал 0^), который с заданной вероятностью у накрывает неизвестное значение параметра 0 (рис. 9.1).
Рис. 9.1.
Обращаем внимание на то, что границы интервала 0^) и его величина находятся по выборочным данным и потому являются случайн ы м и величина м и в отличие от оцениваемого параметра 0 — величины неслучайной, поэтому правильнее говорить о том, что интервал
(ё|Р, 0^) «накрывае т», а не «содержит» значение 0.
Такой интервал 0^) называется доверительным, а вероятность у —.
доверительной вероятностью, уровнем (коэффициентом) доверия или надежностью оценки.
Величина доверительного интервала существенно зависит от объема выборки п (уменьшается с ростом п) и от значения доверительной вероятности у (увеличивается с приближением у к единице).
Выборочные распределения отдельных оценок 0″ (например, выборочных средней х или доли w) симметричны относительно параметра 0 (генеральных средней х0 или доли р)у поэтому целесообразно рассматривать в принципе доверительный интервал симметричным относительно параметра 0, т. е. (0 — А, 0 + А).
В этом случае наибольшее отклонение А несмещенной оценки 0/? от оцениваемого параметра 0, в частности, выборочной средней (или доли) от гене
ральной средней (или доли), которое возможно с заданной доверительной вероятностью у, называется предельной ошибкой выборки[1].
Ошибка А является ошибкой репрезентативности {представительства) выборки. Она возникает только вследствие того, что исследуется не вся совокупность, а лишь масть ее {выборка), отобранная случайно. Эту ошибку часто называют случайной ошибкой репрезентативности. Ее не следует путать с систематической ошибкой репрезентативности, появляющейся в результате нарушения принципа случайности при отборе элементов в выборку.
Построение доверительного интервала для генеральной средней и генеральной доли по большим выборкам. Для построения доверительных интервалов для параметров генеральных совокупностей могут быть реализованы два подхода, основанные на знании точного (при данном объеме выборки п) или асимптотического (при п —> со) распределения выборочных характеристик (или некоторых функций от них). Первый подход реализован далее при построении интервальных оценок параметров для малых выборок (см. параграф 9.7). В данном параграфе рассматривается второй подход, применимый для больших выборок (порядка сотен наблюдений).
Теорема. Вероятность того, что отклонение выборочной средней (или доли) от генеральной средней {или доли) не превзойдет число А > 0 {по абсолютной величине), равна.
Ф (Г) — функция (интеграл вероятностей) Лапласа.
- ? Выше (параграф 9.4) показано, что выборочная средняя х и выборочная доля w повторной выборки представляют сумму п независимых случай-
- ?*. ,х
ных величин ——= ?—-, где Xk {к = 1, 2,…, п) имеет один и тот же закон п уы п
распределения — соответственно (9.13) и (9.10) с конечными математическим ожиданием и дисперсией. Следовательно, на основании теоремы Ляпунова (см. параграф 6.5) при п -«со распределения х и w неограниченно приближаются к нормальным (практически при п > 30—40 распределения х и w можно считать приближенно нормальными).
Для бесповторной выборки х и w представляют сумму зависимых случайных величин (см. параграф 9.4), к которым, вообще говоря, теорема Ляпунова неприменима. Однако можно показать, что и в этом случае при достаточно больших значениях п и N — п распределения х и w приближенно нормальны.
Формулы (9.23) и (9.24) следуют непосредственно из свойства 2 нормального закона (см. параграф 4.7, формулы (4.34), (4.35)). ?
Формулы (9.23) и (9.24) получили название формул доверительной вероятности для средней и доли.
Определение. Среднее квадратическое отклонение выборочной
средней а7 и выборочной доли а", собственно-случайной выборки называется средней квадратической (стандартной) ошибкой выборки.
(Для бесповторной выборки обозначаем соответственно а7 и а',.).
Из рассмотренной теоремы вытекают следующие следствия.
Следствие 1. При заданной доверительной вероятности у предельная ошибка выборки равна t-кратной величине средней квадратической ошибки, где (t)-y, т. е.1
Следствие 2. Интервальные оценки (доверительные интервалы) для генеральной средней и генеральной доли могут быть найдены по формулам.
Формулы средних квадратических ошибок выборки а7, а'?, аи" o'w могут быть легко получены из формул (9.16), (9.17), (9.11), (9.12) соответствующих дисперсий ст|, CTj2, а2, а'|. Поместим их в таблицу (табл. 9.2).
Таблица 9.2.
Для бесповторной выборки в формулах (9.25) и (9.26) вместо ст. и ow берем соответственно ct'v и а'н.
Так как генеральные доля р и дисперсия1 а2 неизвестны, то в формулах табл. 9.2 заменяем их состоятельными оценками по выборке — соответственно w и л'2, ибо при достаточно большом объеме выборки п практически достоверно, что w~ р, s2 ~о2 . При определении средней квадратической ошибки выборки для доли, если даже w неизвестна, в качестве pq можно взять его максимально возможное значение.
(так как pq = р (-р) = -(р2-р) = 0,25-(/?-0,5)^, то pq максимально при р = 0,5).
[> Пример 9.10. При обследовании выработки 1000 рабочих цеха в отчетном году по сравнению с предыдущим по схеме собственно-случайной выборки было отобрано 100 рабочих. Получены следующие данные (см. первые две графы табл. 8.1). Необходимо определить: а) вероятность того, что средняя выработка рабочих цеха отличается от средней выборочной не более чем на 1% (по абсолютной величине); б) границы, в которых с вероятностью 0,9545 заключена средняя выработка рабочих цеха. Рассмотреть случаи повторной и бесповторной выборки.
Решение, а) Имеем N = 1000, гг = 100. Ранее в примере 8.8 были вычислены х= 119,2(%), s2 = 87,48.
Найдем среднюю квадратическую ошибку выборки для средней:
Теперь искомую доверительную вероятность находим по формуле (9.23):
(Значения Ф (^) находим по табл. II приложений.).
Итак, вероятность того, что выборочная средняя отличается от генеральной средней не более чем на 1% (по абсолютной величине), равна 0,715 — для повторной и 0,741 — для бесповторной выборки.
б) Найдем предельные ошибки повторной и бесповторной выборок по формуле (9.25), в которой t = 2,00 (находим по табл. И приложений при данной в условии доверительной вероятности у из соотношения у = Ф (^) = 0,9545).
Заметим, что в формуле (9.29) а2 представляет дисперсию количественного признака X (генеральной совокупности), а в формуле (9.31) величина pq = р (1 — р) — диспер сию альтернативного признака X.
Теперь искомый доверительный интервал определяем по (9.27):
Таким образом, с надежностью 0,9545 средняя выработка рабочих цеха заключена в границах от 117,33 до 121,07%, если выборка повторная, и от 117,43 до 120,97%, если выборка бссповгорная. ?
О Пример 9.11. Из партии, содержащей 2000 деталей, для проверки по схеме собственно-случайной бесповторной выборки было отобрано 200 деталей, среди которых оказалось 184 стандартных. Найти: а) вероятность того, что доля нестандартных деталей во всей партии отличается от полученной доли в выборке не более чем на 0,02 (по абсолютной величине); б) границы, в которых с надежностью 0,95 заключена доля нестандартных деталей во всей партии.
Решение. Имеем N — 2000, п = 200, т = 200 — 184 = 16 нестандартных деталей. Выборочная доля нестандартных деталей w = — = = 0,08.
п 200.
а) По формуле (9.32) найдем среднюю квадратическую ошибку бесиовторной выборки для доли:
Теперь искомую доверительную вероятность находим по формуле (9.24): Р (| w— р | < 0,02) — Q^g2 j ~ <^(l'10) = 0,729 (по табл. II приложений),.
т.е. вероятность того, что выборочная доля нестандартных деталей будет отличаться от генеральной доли не более чем на 0,02 (по абсолютной величине), равна 0,729.
б) Учитывая, что у = Ф (г:) = 0,95 и (по таблице) I = 1,96, найдем предельную ошибку выборки для доли, но формуле (9.26): Д = 1,96−0,0182 = 0,0357. Теперь искомый доверительный интервал определяем по формуле (9.28): 0,08 — 0,0357 <�р< 0,08 + 0,0357, или 0,044 <�р < 0,116.
Итак, с надежностью 0,95 доля нестандартных деталей во всей партии заключена от 0,044 до 0,116. ?
Объем выборки. Для проведения выборочного наблюдения весьма важно правильно установить объем выборки п, который в значительной степени определяет необходимые при этом временные, трудовые и стоимостные затраты. Для определения п необходимо задать надежность (доверительную вероятность) оценки у и точность (предельную ошибку выборки) Д.
Объем выборки находится из формулы, выражающей предельную ошибку выборки через дисперсию признака. Например, для повторной выборки при оценке генеральной средней с надежностью у с учетом фор;
I (yt202
мул (9.25) и (9.29) эта формула имеет вид Д = tJ—, откуда п-——,.
V п Д2
где ф (/) = у • Аналогично могут быть получены и другие формулы объема выборки, которые сведем в таблицу (табл. 9.3).
Таблица 9.3.
Если найден объем повторной выборки п, то объем соответствующей бесповторной выборки п' можно определить по формуле.
Так как ——— < 1, то при одних и тех же точности и надежности оценок n + N
объем бесповторной выборки п' всегда меньше объема повторной выборки п. Этим и объясняется тот факт, что на практике в основном используется бесповторная выборка.
Как видно из формул (9.33)—(9.36), для определения объема выборки необходимо знать характеристики генеральной совокупности а2 или р, которые неизвестны и для определения которых предполагается провести выборочное наблюдение. В качестве этих характеристик обычно используют выборочные данные s2 или w предшествующего исследования в аналогичных условиях, т. е. полагают а2 «s2 (или s2) или р ~ w.
Если никаких сведений о значениях ст2 или р нет, то организуют специальную пробную выборку небольшого объема, находят оценку s2 (более точную, чем s2 для малой выборки) или w и, полагая ст2 «s2 или р &w, находят объем «о с н о в н о й» выборки.
При оценке генеральной доли (если о ней ничего неизвестно) вместо проведения пробной выборки можно в формулах (9.35), (9.36) в качестве р = р (-р) взять его максимально возможное значение, равное 0,25, но при этом надо учитывать, что найденное значение объема выборки будет больше (иногда существенно больше) минимально необходимого для заданных точности и надежности оценок.
|> Пример 9.12. По условию примера 9.10 определить объем выборки, при котором с вероятностью 0,9973 отклонение средней выработки рабочих в выборке от средней выработки всех рабочих цеха не превзойдет 1% (по абсолютной величине).
Решение. В качестве неизвестного значения а2 для определения объема выборки берем его состоятельную оценку s2 = 87,48, найденную ранее в примере 9.10.
Учитывая, что у = Ф (*) = 0,9973 и (но табл. II приложений) t = 3,00, найдем объем повторной выборки по формуле (9.33), т. е. п = З2 • 87,48/1 = 787. Объем бесиовторной выборки по формуле (9.34):
Объем бесиовторной выборки п' мог быть вычислен и по формуле (9.37), так как уже известен объем повторной выборки п, т. е.
Как видим, при одной и той же точности, А = 1(%) и надежности у = 0,9973 оценки объем бесиовторной выборки существенно меньше, чем повторной. ?
0 Пример 9.13. По условию примера 9.11 определить число деталей, которые надо отобрать в выборку, чтобы с вероятностью 0,95 доля нестандартных деталей в выборке отличалась от генеральной доли не более чем на 0,04 (по абсолютной величине). Найти то же число, если о доле нестандартных деталей, даже приблизительно, ничего неизвестно.
Решение. В качестве неизвестного значения генеральной доли р возьмем ее состоятельную оценку w = 0,08, найденную ранее в примере 9.11.
Учитывая, что у = Ф (^) = 0,95 и (по таблице) t= 1,96, найдем объем бесповторной выборки по формуле (9.36), т.с.
Объем бесповторной выборки п' мог быть вычислен и по формуле (9.37), если предварительно был найден объем повторной выборки п по формуле (9.35):
Если о доле р ничего, даже приблизительно, неизвестно, в формуле (9.36) полагаем pq = {pq)max = 0,25. Тогда.
т.е. полученное возможное значение объема выборки оказалось существенно выше необходимого. ?
Замечание. Если генеральная совокупность бесконечна (N = ос) либо объем бесповторной выборки значительно меньше объема генеральной совокупности (/?" N), расчеты средних квадратических ошибок (для средней и доли) и необходимого объема бесповторной выборки следует проводить по соответствующим формулам для повторной выборки.
Построение доверительного интервала для генеральной доли, но умеренно большим выборкам. Объем выборки может быть не настолько велик (например, десятки наблюдений), чтобы использовать приближенную фор;
Jw (i-w) [pa p (l-p).
—1— вместо точной а., =. I— = J—i—. В то же.
п V п V п
время распределение выборочной доли w можно по-прежнему считать приближенно нормальным. В этом случае, учитывая формулы (9.24), (9.26), доверительный интервал для генеральной доли р следует искать из условия Возводя обе части неравенства (9.38) в квадрат, преобразуем его к равносильному:
Областью решения неравенства (9.39) является внутренняя часть эллипса, проходящего через точки (0; 0) и (1; 1) и имеющего в этих точках касательные, параллельные оси абсцисс.
Так как величина го заключена между 0 и 1, то область D нужно еще ограничить слева и справа прямыми го = 0 и го = 1 (наличие «лишних» областей, выходящих за полосу 0 < го <, объясняется тем, что при значенияхр, близких к 0 или 1, допущение о нормальном законе распределения го становится неправомерным).
По найденному по выборке значению го границы доверительного интервала (рх, р2) для р определяются как точки пересечения соответствующей вертикальной прямой с эллипсом (рис. 9.2). Чем больше объем выборки п, тем «доверительный эллипс» более вытянут, тем уже доверительный интервал.
Границы рх и р2 доверительного интервала для р могут быть найдены из соотношения (9.39) по формуле Рис. 9.2.
В случае больших выборок, при «—>оо, величинами t2/n (по сравнению с 1), t2/2п (по сравнению с w), (t/2n)2 (по сравнению с ш (1 — го)/п) можно пренебречь, и получим:
т.е. доказанные ранее формулы (9.28) и (9.26).
О Пример 9.14. По данным примера 9.11 найти границы, в которых с надежностью 0,95 заключена доля р нестандартных изделий во всей партии, полагая п = 50, w = 0,08, N = со.
Решение. По формуле (9.40), учитывая, что t = 1,96, найдем доверительные границы для генеральной доли р
т.е. с надежностью 0,95 доля нестандартных изделий во всей партии заключена от 0,032 до 0,188. ?
- [1] Значение Д уменьшается (доверительный интервал для параметра 0 сужается), если0″ — не просто несмещенная, а и эффективная оценка параметра 0 (как, например, х длях0 (в случае нормальной генеральной совокупности) или w для р).