Получение оценок дисперсий и выводов о степени влияния фактора
Дадим критерий добротности подгонки регрессионной модели. Хотя будет рассматриваться только случай одной независимой переменной, процедура легко обобщается на случай к независимых переменных. Гипотезы, которые хотим проверить: Здесь появляется тп: потому, что дисперсия единичных измерений в s2;{y) раз больше дисперсии среднего s2;{y;}. Число степеней свободы при этом будет/А. = и — 1 и должно… Читать ещё >
Получение оценок дисперсий и выводов о степени влияния фактора (реферат, курсовая, диплом, контрольная)
Если верна гипотеза о том, что влияние фактора х на целевую функцию у незначительно (несущественно), тогда разница между средними уровнями у' и у" будет также незначительной. Тогда оценка общей дисперсии 5ц{у} относительно общего среднего у и любая оценка дисперсии sAJ{y} относительно группового среднего yt (или усредненная оценка дисперсии s^{y} по всем;-м уровням:; = 1, 2,…, и) при JV —? °о будут стремиться к одному и тому же пределу, так как при этом любая ;'-я серия измерений может рассматриваться как представительная выборка из общей (генеральной) совокупности. В этом случае можно рассматривать три оценки генеральной дисперсии воспроизводимости о2{е} = ст2{у}, которая характеризует силу влияния помех е (ошибок эксперимента):
1. Несмещенную оценку дисперсии воспроизводимости, вычисленную по всем N наблюдениям (по всем и сериям).
U.
с числом степеней свободы/0 = N — 1 = Z ггь- 1.
;=i.
2. Несмещенную оценку дисперсии воспроизводимости, вычисляемую как среднюю из и остаточных выборочных дисперсий по и сериям наблюдений.
U.
с числом степеней свободы fx = Nи = T^rrij-u.
3. Несмещенную оценку дисперсии воспроизводимости, вычисляемую по отклонениям и средних у{, (; = 1, 2, …, и) от общего среднего у:
Здесь появляется тп: потому, что дисперсия единичных измерений в s2;{y) раз больше дисперсии среднего s2;{y;}. Число степеней свободы при этом будет/А. = и — 1 и должно удовлетворять условию/0 =/с +fx. Действительно: QV- и) + (и — 1) = = N-1.
Из сказанного можно сделать вывод, что если выполняется нуль-гипотеза о незначимое™ влияния фактора х на целевую функциюу, тогда все три оценки дисперсии будут однородными, т. е. будут иметь своим пределом одну и ту же генеральную дисперсию воспроизводимости ст2{е}. Однородность двух дисперсий проверяется по F-критерию Фишера (см. приложение 10):
с числами степеней свободы:
Схема однофакторного ДА при неравном числе т, представлена в табл. 5.12.
Таблица 5.12. Сводка формул
Вид изменчивости | Сумма квадратов | Число. степеней свободы | Оценка дисперсии | |
Общая | и т, Q0= S Е (зо*-у)2 ;= 1 к— 1. | /о = А/ — 1. | *?{у> =. | N- 1^° |
От влияния фактора (между группами) | U т) Q,= S I (У)к -Ур2 ) = к= 1 | Л = «-1 | *2{у> =. | |
Остаточная от помех г (внутри групп) | и а= Zm/y-У)2 j= 1 | ft = Nи | &у} = |
Здесь проверяется нуль-гипотеза Н0: а2{у} = а2{у}, при альтернативной гипотезе Н^ о2{у} > ст2{у}, поэтому используются таблицы для одностороннего F-критерия. Если влияние фактора х незначимо, то будет выполняться неравенство.
где F — критическое значение F-критерия, взятое из таблиц для уровня значимости q и соответствующих чисел степеней свободы. В противном случае нуль-гипотеза должна быть отброшена как не соответствующая опытным данным, и фактор х признается значимым. Схемы однофакторного ДА представлены в виде табл. 5.13, 5.14, а двухфакторного — табл. 5.15.
Таблица 5.13. Схема однофакторного ДА.
к | j | у, | У | ХСуд-у,)2 | Х (у*-у)2 | Щ-у)2 | |||||||
45,6. | 50,5. | ||||||||||||
51,5. | 50,5. | ||||||||||||
54,6. | 50,5. |
Вид измен чивости | Сумма квадратов | Число степеней свободы | Оценка дисперсии | ч. | F | *кр | Вывод |
Общая. | Q0 = 16 528. | /о = 23. | 4 = 718. | 5%. | *2{У> _ se2{y> = 159/772 = = 0,206. | 3,74. | Гипотеза о незначимое™ влияния х не может быть отвергнута. |
Между группами. | Q, = 317. | II ю. | s2 = 159. | ||||
Внутри групп. | Qe = 16 211. | Л = 21. | 4 = 772. |
Таблица 5.15. Схема двухфакторного ДА при неравном числе mig
Вид изменчивости | Сумма квадратов отклонений | Число степеней свободы | Оценка дисперсии |
Общая | li, и2 mJg Qo = S ? X (yjgk-y)2 j=lg=lk=l | /o = N-l | s«{y} = n_iQo |
От фактора хх | u1 Q.v, = «2Ет;Д-у) | Л, = «1−1 | <w = U]-iq‘. |
От фактора х2 | u2 Qx2 = «1 Z m;g (yg _y)2 s=l | 4 = «2−1 | <W = u2-l^ |
От взаимодействия х1 х2 | «1 «2 2 1т^-|г>8+ Я2 )=g=l | A]X2 — /v,/x2 | *" {y} - Q" >'2 *2 (u2-l)Cu,-1) |
Остаточная (от помех е) | «i u2 mJg Qc = Z E Z (yJk-yg)2 J=lg=lfc=l | fc=N~u 1"2 | ? д"г |
Пример 5.10.
Допустим, имеется табл. 5.14 данных измерений тремя приборами (фактор х: j = 1, 2, 3) некоторого показателя качества v, причем выполнено 8 параллельных опытов (к =_ 1, 2, …, 8). По строкам вычисляем у, затем общее среднее у, после чего по строкам получаем суммы квадратов отклонений X (у.-* -у,)2,.
8 8 к=1
Z (у, к -у)2. Z (у, -у)2, ИЗ них складываются суммы Q0, Qx, Qi:.
fc=l fc=l.
Пример 5.11.
Проверим прибор на качество [25]. Регрессионные модели часто используются для аппроксимации данных, когда истинная функциональная связь неизвестна. Естественно, хотелось бы знать, правильно ли сделано предположение о работе пробной модели. Очевидно, что в этой гипотетической ситуации нужно было использовать полином второго или более высокого порядка; в результате же подобрана очень плохая модель.
Дадим критерий добротности подгонки регрессионной модели. Хотя будет рассматриваться только случай одной независимой переменной, процедура легко обобщается на случай к независимых переменных. Гипотезы, которые хотим проверить:
Н0 — модель адекватно аппроксимирует данные;
Нг — модель не аппроксимирует данные.
В процедуру входит разбиение остаточной суммы квадратов на два компонента.
где S4HCT0IU — сумма квадратов, связанная с «чистой» ошибкой эксперимента; SHea;1 — сумма квадратов, объясняемая неадекватностью.
Поскольку в остатке содержится все отличие модели от наблюдения, то в общем случае его можно разбить на случайный и систематический компоненты; последний существует, если модель некорректна. Для вычисления S4MCT0111 понадобятся повторные наблюденияу по крайней мере при одном уровнех. Предположим, что есть п наблюдений таких, чтоуп, у12, …, у1П] — повторные наблюдения при хх) у2г, у22, •••" Ущ2 — повторные наблюдения прих2;ут1, ут2, …, ут,т — повторные наблюдения прих,". Видно, что существует т выделенных уровней х. Вклад в сумму квадратов «чистой» ошибки, например, при хр описывается выражением.
Общая сумма квадратов «чистой» ошибки получается суммированием выражений вида (5.23) по всем уровням х:
m.
причем с ней связано ne = 2 (n, — 1) = n — m степеней сво;
i = 1.
боды.
Сумма квадратов, обусловленная неадекватностью,.
и обладаетп-2-пе = т-2 степенями свободы.
В основе проверки неадекватности тогда должна лежать статистика.
согласно которой Н0 отклоняется, если F0 > Fa. m_2; ,_m.
Процедуру этой проверки можно легко ввести в дисперсионный анализ значимости регрессии. Если нулевая гипотеза об адекватности модели отклоняется, то эту модель нужно отбросить и попытаться найти более подходящую. В противном случае нет очевидных оснований сомневаться в адекватности модели, 5ЧИСТ0Ш и SHeaA часто объединяются для получения оценки а2.
Пример 5.12
Пусть имеются исходные данные (табл. 5.16).
Таблица 5.16. Данные для примера 5.12.
X | У. | X | У. | X | У. |
1,0. | 2,3. | 4,0. | 2,6. | 5,6. | 2,1. |
1,0. | 1,8. | 4,0. | 2,2. | 6,0. | 3,4. |
2,0. | 2,8. | 4,7. | 3,2. | 6,0. | 3,2. |
3,3. | 1,8. | 5,0. | 2,0. | 6,5. | 3,4. |
3,3. | 3,7. | 5,6. | 3,5. | 6,9. | 5,0. |
4,0. | 2,6. | 5,6. | 3,8. |
Можем вычислить S>y = 10,97, S^ = 13,62, 5^ =52,53 их = = 4,382. Для регрессионной модели получаем у = 1,708 + 0,260х, а для регрессионной суммы квадратов = (3^ = 0,260×13,62 = = 3,541. Процесс нахождения суммы квадратов «чистой» ошибки представлен в табл. 5.17.
Таблица 5.17. Сумма квадратов
Уровень | lOo-y)2 | Степени свободы |
1,0 | 0,1250 | |
3,3 | 1,8050 | |
4,0 | 0,1066 | |
5,6 | 0,9800 | |
6,0 | 0,0200 | |
Сумма | 3,0366 |
Дисперсионный анализ приведен в табл. 5.18. Поскольку Fо,]; 8.7 = 2,75, то нельзя отклонить гипотезу о том, что подобранная модель адекватно описывает данные. Объединим средние квадраты S411CT0U1 и SHCiu для получения среднего квадрата в знаменателе статистики для проверки значимости регрессии. Кроме того, поскольку F0 05. j. 15 = 4,54, то мы должны считать, что р, ^ 0.
Таблица 5.18. Дисперсионный анализ для примера 5.12
Источник изменчивости | Сумма квадратов | Степени свободы | Средний квадрат | Го |
Регрессия | 3,541 | 3,541 | 7,15 | |
Остаток | 7,429 | 0,4952 | ||
Неадекватность | 4,3924 | 0,5491 | 1,27 | |
Чистая ошибка | 3,0366 | 0,4338 | ||
Сумма | 10,970 |