Анализ данных в линейной регрессионной модели
Поскольку, то гипотеза: отклоняется на уровне значимости. Таким образом, линейная регрессия на статистически значима. Для негруппированных данных были получены следующие оценки числовых характеристик и коэффициентов регрессии,, ,,. Задание 7. Для негруппированных данных проверить значимость линейной регрессии Y на x (уровень значимости б = 0,05). Задание 9. Для негруппированных данных… Читать ещё >
Анализ данных в линейной регрессионной модели (реферат, курсовая, диплом, контрольная)
Государственное образовательное учреждение высшего профессионального образования
«Московский государственный институт электронной технки
(технический универститет)"
Курсовая работа
по дисциплине
«Теория вероятности и математическая статистика»
Тема работы
«Анализ данных в линейной регрессионной модели»
Выполнил:
Студент группы ЭКТ-21
Рыжов С.А.
Проверил:
Преподаватель Бардушкина И. В.
Москва — 2010
Вариант 20.
Задание 1
Выполнить предварительную обработку результатов наблюдений, включающую:
1 построение диаграммы рассеивания (корреляционного поля);
2 группировку данных и построение корреляционной таблицы;
3 оценку числовых характеристик для негруппированных и группированных данных.
Оценка числовых характеристик для негруппированных данных:
X | Y | X | Y | |
4,19 | 9,19 | 4,44 | 9,13 | |
3,04 | 11,94 | 11,31 | 4,58 | |
4,6 | 8,09 | 7,57 | 3,14 | |
9,83 | 10,33 | 1,62 | 14,61 | |
8,66 | 7,15 | 5,71 | 6,48 | |
1,3 | 12,34 | 11,06 | 6,78 | |
4,22 | 16,35 | 10,35 | 2,15 | |
5,11 | 7,7 | 2,46 | 9,66 | |
9,85 | 5,64 | 1,02 | 11,19 | |
8,8 | 4,52 | 5,77 | 7,77 | |
12,17 | 4,52 | 8,63 | 4,05 | |
11,25 | 2,06 | 6,91 | 4,76 | |
5,73 | 7,41 | 3,56 | 8,54 | |
4,05 | 10,51 | 9,47 | 2,22 | |
5,41 | 9,97 | 6,16 | 3,72 | |
1,28 | 14,68 | 8,26 | 3,57 | |
1,67 | 9,67 | 6,7 | 14,32 | |
11,99 | 3,31 | 4,95 | 10,64 | |
7,66 | 5,93 | 3,37 | 10,73 | |
5,17 | 9,87 | 1,53 | 10,13 | |
3,26 | 11,52 | 9,54 | 4,95 | |
12,58 | 2,88 | 3,11 | 5,38 | |
8,34 | 3,57 | 5,09 | 5,79 | |
5,79 | 4,39 | 11,08 | 3,87 | |
3,42 | 9,71 | 8,74 | — 2,23 | |
Сумма X | 317.78 | |||
Сумма Y | 369,18 | |||
MX | 6,3556 | |||
MY | 7,3836 | |||
s2X | 11,2 005 | |||
s2Y | 15,31 479 | |||
KXY | — 9,1594 | |||
сXY | — 0,7194 | |||
Числовые характеристики для негруппированной выборки находятся по следующим формулам:
;
;
;
;
;
Построение корреляционного поля:
Построение корреляционной таблицы:
Таблица 1.1
Y X | — 1.5 | 1.5 | 4.5 | 7.5 | 10.5 | 13.5 | 16.5 | ni. | |
2.5 | |||||||||
5.5 | |||||||||
8.5 | |||||||||
11.5 | |||||||||
nj. | |||||||||
Оценка числовых характеристик для группированных данных:
;
;
;
;
, ;
;
;
= - 0.87
Задание 2
Для негруппированных данных проверить гипотезу об отсуствии линейной статистической связи между компонентами X и Y при альтернативной гипотезе (уровень значимости б = 0,05);
Выборочное значение статистики равно
,
Используя средства Matlab, найдем
Так как выборочное значение статистики больше квантили распределения Стьюдента, гипотеза H0 отклоняется в сторону гипотезы H1. Корреляция значима.
Задание 3
Для негруппированых данных получить интервальную оценку для истинного значения коэффициента корреляции сX,Y, при уровне значимости б = 0,05.
Используя средства Matlab, найдем
Задание 4
Для негруппированных и группированных данных составить уравнения регрессии Y на x и X на Y.
Рассмотрим вначале случай негруппированных данных.
Этот интервал не содержит нуля, т. е. с доверительной вероятностью 1 — ЫВА = 0,95 существует корреляция между X и Y и имеет смысл построение уравнений регрессии.
y(x) = 12,77 — 0,848*x;
x(y) = 10,86 — 0,6*y;
Проверка.
.
;
;
Случай группированных данных.
Подставим найденные значения в уравнеиня линейной регрессии Y на x и X на y. Получим:
y(x) = 17,14 — 1,4*x;
x(y) = 10,83 — 0,54*y;
Проверка:
Задание 5
Для негруппированных данных нанести графики выборочных регрессионных прямых на диаграмму рассеивания.
Задание 6
Для негруппированных данных по найденным оценкам параметров линейной регрессии Y на x получить оценку s2 для дисперсии ошибок наблюдений у2, найти коэффициент детерминации R2, построить доверительные интервалы для параметров регрессии a и b, дисперсии ошибок наблюдений у2 и среднего значения Y при x = x0 .
Для негруппированных данных были получены следующие оценки числовых характеристик и коэффициентов регрессии:, ,, ,, ,, .
Используя соотношение, вычислим остаточную сумму
;
;
;
.
;
Тогда оценка дисперсии ошибок наблюдений равна
.
Коэффициент детерминации равен
.
Поскольку (знак), то сделаем проверку правильности расчетов:
(верно).
Полученный результат для коэффициента детерминации означает, что уравнение регрессии на 49,7% объясняет общий разброс результатов наблюдений относительно горизонтальной прямой .
Построим доверительные интервалы для параметров линейной регрессии и дисперсии ошибок наблюдений.
С помощью Matlab найдем квантили распределений Стьюдента и :
, ;
— доверительный интервал для параметра :
;
;
— доверительный интервал для параметра :
;
;
— доверительный интервал для дисперсии ошибок наблюдений :
;
.
— Найдем границы доверительных интервалов для среднего значения при :
;
.
Задание 7. Для негруппированных данных проверить значимость линейной регрессии Y на x (уровень значимости б = 0,05).
Гипотеза: отклоняется на уровне значимости, так как доверительный интервал не накрывает нуль с доверительной вероятностью 0,95.
Этот же результат можно получить, используя для проверки гипотезу: и статистику .
С помощью Matlab найдем квантили распределения Фишера:
.
Выборочное значение статистики равно:
.
Поскольку, то гипотеза: отклоняется на уровне значимости. Таким образом, линейная регрессия на статистически значима.
Задание № 8
Для данных, сгруппированных только по, проверить адекватность линейной регрессии на (уровень значимости).
Для проверки адекватности воспользуемся корреляционной таблицей. Будем считать, что середины интервалов группировки, , являются значениями компоненты. Тогда число повторных наблюдений равно 4. Запишем результаты этих наблюдений в виде таблицы
Таблица 1.2
2,5 | 5,5 | 8,5 | 11,5 | ||
11,94 12,34 14,68 9,87 11,52 9,71 14,61 9,66 11,19 8,54 10,73 10,13 5,38 | 9,19 8,09 16,35 7,70 7,41 10,51 9,97 9,87 4,39 6,48 7,77 4,76 3,72 14,32 10,64 5,79 9,13 | 10,33 7,15 5,64 4,52 4,52 3,57 3,14 4,05 2,22 3,57 4,95 — 2,23 | 4,52 2,06 3,11 2,88 4,58 6,78 2,15 3,87 | ||
10,79 | 8,59 | 9,65 | 3,74 | ||
Для удобства расчетов в последней строке таблицы приведены средние значения, .
.
Получим уравнение выборочной линейной регрессии на для данных, сгруппированных по :
;
, ,, ;
y(x) = 8,29 — 0,9x.
;
.
Выборочное значение статистики равно
.
Так как квантиль распределения Фишера, вычисленный с помощью Matlab, равен
3,19,
то, а значит, линейная регрессия на для данных, сгруппированных по, адекватна результатам наблюдений.
Задание 9. Для негруппированных данных проверить гипотезу: при альтернативной гипотезе: (уровень значимости)
Имеются следующие величины:, ,, , .
Сначала проверяется гипотеза, альтернативная гипотеза :.
Статистика равна
= 1,931
С помощью средств Matlab, найдем:
F0,975 (n-1; n-1)=F0,975 (49,49) = 1.7622
z > F0,975 (n-1; n-1),
следовательно отклоняется, а значит что
Теперь можно проверить гипотезу,, при альтернативной гипотезе :.
Т.к., статистика имеет вид
= 1,418
Найдем количество степеней свободы
?3,625
С помощью средств Matlab, найдем:
z <, значит нет оснований отклонять гипотезу :.
Приложение
A = [ 4.19 3.04 4.60 9.83 8.66 1.30 4.22 5.11 9.85 8.80 12.17 11.25 5.73 4.05 5.41 1.28 1.67 11.99 7.66 5.17 3.26 12.58 8.34 5.79 3.42 4.44 11.31 7.57 1.62 5.71 11.06 10.35 2.46 1.02 5.77 8.63 6.91 3.56 9.47 6.16 8.26 6.70 4.95 3.37 1.53 9.54 3.11 5.09 11.08 8.74;
9.19 11.94 8.09 10.33 7.15 12.34 16.35 7.70 5.64 4.52 4.52 2.06 7.41 10.51 9.97 14.68 9.67 3.31 5.93 9.87 11.52 2.88 3.57 4.39 9.71 9.13 4.58 3.14 14.61 6.48 6.78 2.15 9.66 11.19 7.77 4.05 4.76 8.54 2.22 3.72 3.57 14.32 10.64 10.73 10.13 4.95 5.38 5.79 3.87 -2.23]
x = A (1:);
y = A (2:);
Mx = mean (x)
Dx = var (x, 1)
My = mean (y)
Dy = var (y, 1)
plot (x, y,'g*')
grid on
hold on
axis ([1 13 -3 18]);
gca1 = gca;
set (gca1,'xtick',[1 4 7 10 13],'ytick',[-3 0 3 6 9 12 15 18]);
xlabel ('X');
ylabel ('Y');
z = 12.77 — 0.848*x; %построение регрессии Y на x
Zplot = plot (z, x);
set (Zplot,'Color','Red','LineWidth',[2])
hold on
text (12, -1,'x (y)');
text (11.8, 2,'y (x)');
t = 10.86 — 0.6*y; %построение регрессии X на y
Tplot = plot (t, y);
set (Tplot,'Color','Red','LineWidth',[2])
hp = line ([1 6.36],[7.38 7.38]); %эти прямые показывают положение
set (hp,'Color','blue','LineWidth',[1.5]) %среднего выборочного
hp = line ([6.36 6.36],[-3 7.38]);
set (hp,'Color','blue','LineWidth',[1.5])
K = cov (x, y) %находим ковариацию
DEtK = det (K)
M = corrcoef (x, y) %коэффициент корреляции
detM = det (M)