Оценки методами бутстреп-анализа
По выборке () оценка параметра может быть рассчитана непосредственно. В то же время из элементов исходной выборки может быть составлена новая выборка () из элементов путем случайного извлечения с возвращением. По этой выборке может быт получена альтернативная оценка этого же параметра. Разность оценки параметра по первичной выборке и истинного значения параметра () асимптотически ведет себя… Читать ещё >
Оценки методами бутстреп-анализа (реферат, курсовая, диплом, контрольная)
Бутстрепирование, как и непараметрическое оценивание плотности, является альтернативой асимптотическому подходу [6, 48, 49]. Оно предусматривает многократный случайный отбор из имеющейся выборки, приводящий к получению выборки большего объема для приближения истинного закона распределения генеральной совокупности эмпирическим. Так, из выборки объемом п можно получить путем выбора с повторениями, или ресамплинга, Nmax = пп различных выборок того же объема. Такое искусственное увеличение объема данных без привлечения дополнительной информации сравнивают со стремлением достичь своей цели без посторонней помощи (англ, to bootstrap), что и определило название метода. Автором метода считается Б. Эфрон. Бутстрепирование обычно осуществляют путем формирования не всех возможных выборок, а необходимого их числа путем случайного извлечения из имеющихся данных с возвращением. Главное различие асимптотического подхода и бутстрепирования состоит в том, что классические выборки для получения асимптотического приближения извлекаются из генеральной совокупности, а бутстреповские псевдовыборки — из имеющихся элементов эмпирической выборки путем повторного выбора элементов (ресамплинга).
Формируемые путем выбора, или бутстрепирования, выборки обычно используются не для построения непосредственно приближения закона распределения данных, а для расчета требуемых статистик и построения законов распределения этих статистик. Общее число всех возможных выборок даже при не очень больших объемах данных может оказаться чрезмерным. Поэтому бутстрепирование обычно осуществляют путем образования не всех возможных выборок, а разумного их числа путем случайного извлечения из имеющихся данных с возвращением. Рекомендуемое число бутстреповских выборок при объеме исходной выборки п равно.
Извлеченные выборки используют для построения моделей распределений, оценки доверительных интервалов и проверки гипотез о значениях параметров.
Параметр сдвига может быть рассчитан как среднее значение либо как медиана распределения. Бутстрепирование обеспечивает возможность нахождения доверительного интервала для среднего значения генеральной совокупности без использования предположения о виде генеральной совокупности. При этом распределение средних используется для того, чтобы оценить изменение выборочной характеристики при некоторой флуктуации исходных данных.
Среднее значение и медиана, вычисленные по массиву всех бутстрепированных выборок, равны среднему значению исходной выборки, аналогично тому, что при гипотетическом включении в выборку всех элементов генеральной совокупности были бы получены истинные оценки параметров.
По выборке () оценка параметра может быть рассчитана непосредственно. В то же время из элементов исходной выборки может быть составлена новая выборка () из элементов путем случайного извлечения с возвращением. По этой выборке может быт получена альтернативная оценка этого же параметра . Разность оценки параметра по первичной выборке и истинного значения параметра () асимптотически ведет себя гак же, как и разность оценок параметров (), построенных по данным псевдовыборки и первичной выборки, так как последняя для повторного отбора выступает в роли генеральной совокупности. Такой подход к получению оценок без использования предположения о виде закона распределения называют непараметрическим бутстрепом.
Бутстреповская (т.е. определенная по всем возможным повторным выборкам) дисперсия оценки параметра 0 может быть определена как бутстреповское математическое ожидание разности бутстреповской оценки и ее истинного математического ожидания:
На практике бутстреповскую оценку параметра вычисляют как среднюю по N бутстреповским выборкам:
(7.26).
По этим же данным рассчитывают бутстреповскую оценку дисперсии:
Аналогом распределения среднего значения стандартизованной генеральной средней является бутстреповское распределение величины.
где — среднее значение признака по N бутстреповским выборкам (объем каждой из них равен п); — среднее значение признака по исходной выборке (или всем возможным выборкам из нее); — среднее квадратическое отклонение признака, рассчитанное по исходной выборке.
При неизвестной генеральной дисперсии аналогом распределения среднего значения стандартизованной генеральной средней является бутстреповское распределение величины.
где — среднее квадратическое отклонение признака по N бутстреповским выборкам.
На основе бутстреповского распределения выборочного среднего по N бутстреповским выборкам можно определить его а-100% и (1-а)100% бутстреповские квантили и , что обеспечивает возможность построения доверительного интервала для генеральной средней.
Аналогично могут быть построены доверительные интервалы для других параметров генеральной совокупности.
Пример 7.8
По выборке из трех наблюдений 15, 21, 33 построим оценку генерального среднего.
Решение
Общее число всех возможных различных выборов из наборов значений с возвращением 3:' = 27. Сформируем эти выборки и рассчитаем, но каждой из них среднее значение (табл. 7.11).
Точечная оценка генерального среднего по данным всех возможных выборок, получаемых путем ресамплинга, , равна среднему по исходной выборке.
. График функции распределения среднего значения приведен на рис. 7.16.
Таблица 7.11
Все возможные выборки, сформированные путем извлечения с возвращением элементов исходной выборки 15, 21, 33.
Выборка. | Среднее значение. | Выборка. | Среднее значение. | Выборка. | Среднее значение. |
15 21 15. | 21 21 15. | 33 21 15. | |||
1521 21. | 21 21 21. | 33 21 21. | |||
15 21 33. | 21 21 33. | 33 21 33. | |||
15 33 15. | 21 33 15. | 33 33 15. | |||
15 33 21. | 21 33 21. | 33 33 21. | |||
15 33 33. | 21 33 33. | 33 33 33. | |||
15 15 15. | 21 15 15. | 33 15 15. | |||
15 15 21. | 21 15 21. | 33 15 21. | |||
15 15 33. | 21 15 33. | 33 15 33. |
Рис. 7.16. Функция распределения среднего значения, построенная по всем 27 возможным выборкам путем ресамплинга из трех наблюдаемых значений 15, 21, 33.
Точечная оценка стандартного отклонения, рассчитанная по исходной выборке, т. е. , естественным образом совпадает со стандартным отклонением, рассчитанным по бутстрепированным данным:
Точечная оценка генерального среднего по бутстрепированным данным 10 случайных выборок (табл. 7.12), число которых приближенно соответствует (7.25), представляет собой среднее значение , которое не совпадает со средним по исходной выборке. Оценка бутстреповского стандартного отклонения будет равна
Таблица 7.12
Набор из 10 случайно взятых выборок, сформированных путем извлечения с возвращением элементов исходной выборки 15, 21, 33
Выборка. | Среднее значение. |
1521 21. | |
15 33 15. | |
15 15 15. | |
15 15 33. | |
21 21 21. | |
21 33 33. | |
21 15 21. | |
21 15 33. | |
33 21 15. | |
33 21 33. |
Результаты построения бутстреповской функции распределения стандартизованной генеральной средней приведены на рис. 7.17.
Рис. 7.17. Бутстреповская функция распределения нормированного среднего значения по 10 бутстреповским выборкам из трех значений 15, 21, 33.
Интервальная оценка генерального среднего , рассчитанная при значении доверительной вероятности >, в соответствии с формулой (7.26) после нахождения соответствующих бутстреповских квантилей будет иметь вид.
Эта оценка построена в отсутствие информации о виде закона распределения признака.