Корреляционный анализ
Чем меньше теоретическая линия регрессии, рассчитанная по уравнению, отклоняется от фактической (эмпиричной), тем меньше средняя ошибка аппроксимации. В экономических расчетах допускается погрешность до 5−8%, в этом случае исследуемое уравнение связи довольно точно описывает изучаемые зависимости. Средняя разрывная нагрузка полосы подкладочной ткани равна = 229 Н, среднее квадратическое… Читать ещё >
Корреляционный анализ (реферат, курсовая, диплом, контрольная)
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования
«МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕХНОЛОГИЙ И УПРАВЛЕНИЯ ИМЕНИ К.Г. РАЗУМОВСКОГО»
(ФГБОУ ВПО МГУТУ им К.Г. Разумовского) Институт текстильной и легкой промышленности Кафедра технологии кожи, меха и изделий из кожи КОНТРОЛЬНАЯ РАБОТА по дисциплине «Методы и средства исследования»
Выполнила студентка
6 курса Страздина С.Ю.
Москва, 2013 г.
Задание 1.
Корреляционный анализ Корреляционный анализ — это совокупность методов обнаружения так называемой корреляционной зависимости между случайными величинами.
Задачи корреляционного анализа сводятся к измерению тесноты известной связи между варьирующими признаками, определению неизвестных причинных связей (причинный характер которых должен быть выяснен с помощью теоретического анализа) и оценки факторов, оказывающих наибольшее влияние на результативный признак.
Этапы проведения корреляционного анализа
Многофакторный корреляционный анализ позволяет установить наличие, тесноту и форму связи между факторами и изучаемым показателем. Он состоит из нескольких этапов, деление на которые условно, так как отдельные стадии тесно связаны между собой.
1. На первом этапе определяются цели и задачи исследования и на основе качественного анализа подбираются факторы, которые предположительно влияют на изучаемый показатель.
При их подборе необходимо учитывать:
— наличие причинно-следственных связей между показателями;
— значимость факторов, то есть степень их влияния на результативный показатель;
— возможность количественного измерения фактора.
2. На втором этапе осуществляется сбор и первичная обработка исходной информации.
Совокупность данных должна быть достаточно большой. Информация должна соответствовать закону нормального распределения, согласно которому основная масса наблюдений по каждому показателю должна быть сгруппирована около его среднего значения.
Исходные данные должны быть качественно и количественно однородны. Качественная однородность предполагает приблизительно одинаковые условия и специфику формирования факторных и результативного признаков. Количественная однородность заключается в отсутствии таких наблюдений, которые значительно (аномально) отличаются от основной массы данных.
Критерием однородности информации служит среднеквадратическое отклонение и коэффициент вариации, которые рассчитываются по каждому факторному и результативному показателю. Среднеквадратическое отклонение показывает абсолютное отклонение индивидуальных значений от среднеарифметической, а коэффициент вариации характеризует относительную меру отклонения отдельных значений от среднеарифметической. Причем, чем больше коэффициент вариации, тем относительно больший разброс данных в совокупности.
Изменчивость вариационного ряда принято считать:
незначительной, если вариация не превышает 10%;
средней, если вариация составляет 10−20%;
значительной, если она больше 20%, но не превышает 33%. Если вариация больше 33%, то следует исключить из выборки нетипичные наблюдения.
3. На третьем этапе осуществляется моделирование связей между факторами и результативным признаком, т. е. решается вопрос о выборе формы связи.
На основе экономического и логического анализа природы и сущности изучаемого явления подбирается тип математического уравнения, которое наилучшим образом отражает характер изучаемых зависимостей.
Обоснование уравнения связи проводится с помощью группировки данных, построения графика и т. д.
Размещение точек на графике показывает, какая зависимость образовалась: прямолинейная или криволинейная.
Для парной корреляции прямолинейную зависимость описывает уравнение прямой
у = ao + a1x1,а
для множественной корреляции — уравнение линейной функции
у = ао + а1х1 + а2х2 + … + аnхn,
где у — результативный показатель;
ао — постоянная величина, которая не связана с изменением факторов;
аi — коэффициенты при переменных в уравнении регрессии;
хi — факторные показатели (переменные).
Криволинейные зависимости в экономических исследованиях встречаются реже. Они могут быть описаны уравнением
параболы (у = а + bх + сх І);
гиперболы (у = а + b/х);
степенной, показательной и других функций.
Например, при увеличении возраста рабочих до определенного уровня наблюдается рост их производительности, а затем ее снижение. Такая зависимость может быть описана уравнением параболы второго порядка:
у = а + bх + схІ.
В случаях, когда трудно обосновать форму зависимости, решение задачи можно провести по разным моделям и сравнить полученные результаты. Наилучший вариант выбирается после оценки их по специальным критериям.
4. На четвертом этапе проводится расчет численных значений параметров регрессионного уравнения. Он осуществляется методом наименьших квадратов, при котором в случае прямолинейной зависимости прямая на графике пройдет наиболее близко к точкам фактических наблюдений. Для того решается система нормальных уравнений.
Построение уравнения регрессии проходит шаговым способом. При этом существуют два варианта:
а) сначала в расчет принимается один фактор, который является наиболее значимым, потом добавляется второй, третий и т. д. На каждом шаге рассчитываются уравнение связи, множественный коэффициент корреляции, коэффициент детерминации и статистические показатели, характеризующие надежность уравнения связи. Чем выше величины коэффициентов корреляции и лучше статистические характеристики, тем точнее уравнение связи описывает изучаемые зависимости. Если добавление новых факторов не улучшает оценочные показатели, то их надо отбросить и остановиться на том уравнении, где эти показатели наиболее оптимальны.
б) при втором варианте решение модели происходит в обратном порядке путем последовательного исключения наименее значимых факторов.
5. На пятом этапе дается статистическая оценка уравнения связи и экономическая интерпретация результатов корреляционного анализа.
Показатели оценки уравнения связи и экономическая интерпретация результатов корреляционного анализа
Показатели корреляции и регрессии, рассчитанные для определенного количества наблюдений, могут быть искажены действием случайных факторов. Для оценки надежности уравнения связи используют следующие критерии:
критерий Стьюдента (t);
критерий Фишера (F);
средняя ошибка аппроксимации;
коэффициенты множественной корреляции и детерминации.
Как уже отмечалось, эти показатели рассчитываются на каждом шаге построения уравнения регрессии.
Для оценки значимости коэффициентов корреляции используется t — критерий Стьюдента. При этом для каждого коэффициента расчетное значение t-критерия сравнивается с табличным, которое находится по таблице значений критериев Стьюдента. Если расчетное значение выше табличного, то величина коэффициента корреляции является значимой, а изучаемая связь между результативным показателем и факторами надежной. Также t-критерий Стьюдента используется для оценки значимости параметров уравнения регрессии. В этом случае его расчет проводится по другим формулам, а выводы делаются аналогично предыдущим.
Значимость и существенность регрессионного уравнения оценивается с помощью F-критерия Фишера, определяемого отношением общей дисперсии к остаточной. Для этого фактическая (рассчитанная) величина F-критерия сравнивается с табличной. Табличное значение определяется для принятого уровня значимости б (обычно б = 0,05) и количестве степеней свободы, которое рассчитывают по формуле
(m-1) / (n-m),
где m — количество параметров в уравнении связи (вместе с «y»);
n — количество наблюдений.
Если F-критерий фактический больше F-критерия табличного, то уравнение регрессии значимо, а связь между изучаемым показателем и факторами существенна.
Средняя ошибка аппроксимации используется для статистической оценки точности уравнения связи и характеризует степень совпадения фактических (наблюдаемых) и расчетных значений результативного показателя.
Чем меньше теоретическая линия регрессии, рассчитанная по уравнению, отклоняется от фактической (эмпиричной), тем меньше средняя ошибка аппроксимации. В экономических расчетах допускается погрешность до 5−8%, в этом случае исследуемое уравнение связи довольно точно описывает изучаемые зависимости.
Задание 2
При изучении влияния количества наполнителя ?% на прочность пластика? МПа были получены следующие результаты:
?% | ||||||||
? МПа | 6,15 | 7,6 | 8,3 | 8,5 | 9,3 | 9,7 | 10,8 | |
Уравнение прямой запишем в виде:
Координаты точки () являются средними значениями координат экспериментальных точек:
;
Параметр «а» определяется по формуле:
где; ;
Окончательное уравнение прямой имеет вид:
Задание 3.
Средняя разрывная нагрузка полосы подкладочной ткани равна = 229 Н, среднее квадратическое отклонение — S = 29 Н. Принимая, что разрывная нагрузка как случайная величина следует нормальному закону распределения, определить какой процент ткани будет иметь разрывную нагрузку не менее 210 Н
Диапазон искомых значений х2 — х1, где х2 = 210, х1 = 0. Для решения применим формулу Лапласа, определяющую вероятность попадания случайной величины Х в интервал (х1, х2):
где ф (t) — функция Лапласа
;
;
Значения ф находим по таблице и подставляем в последнее выражение
; (или 31%)
Ответ: 31% полосок будет иметь разрывную нагрузку менее 201 Н.
Задание 4.
Технологические машины предприятия сгруппированы по времени эксплуатации в виде следующего ряда распределения
Период эксплуатации, лет | 0−2 | 3−5 | 6−8 | 9−11 | 12−14 | |
Количество машин, шт | ||||||
Определить средний период нахождения машин в эксплуатации и среднее квадратическое отклонение S.
Период, лет х | Частота n | Середина периода | |||
0−2 | |||||
3−5 | |||||
6−8 | |||||
9−11 | |||||
12−14 | |||||
n=50 | |||||
Средний период нахождения машин в эксплуатации оценивается по среднему арифметическому значению для сгруппированных данных по формуле:
используем формулу для расчета среднего квадратического отклонения в случае сгруппированных данных:
Задание 5.
Рассчитать доверительный интервал значений температуры сваривания сырья кожи меховых шкурок после пикелевания с надежностью (доверительной вероятностью) р=0,95 при следующих значениях измеренной температуры: 43,5 ?С; 44? С; 43,7 ?С; 43,5 ?С; 44,5 ?С; 43,4 ?С; 43,5?С
Среднее арифметическое значение измеренных температур
Находим среднее квадратическое отклонение
По таблице для доверительной вероятности р=95% и степени свободы f=n-1=6 находим значение критерия Стьюдента tр.f=2,45.
Доверительный интервал будет
Задание 6.
По результатам измерений среднее значение и среднее квадратическое отклонение составляют соответственно =36,5 и S=0,25.
При заданной надежности р=0,95 и число измерений n=10 определить доверительные интервала истинного значения искомого параметра х
По числу измерений находим число степеней f=n-1=10−1=9. Зная число степеней свободы и р=0,95% определяем коэффициент Стьюдента tp.f=2,62.
Дополнительный интервал находим по выражению:
среднеквадратический отклонение корреляционный вариация
Задание 7.
При испытании двух видов резины, по 10 образцов каждого вида, изготовленных на двух заводах, определены средние показатели разрывной нагрузки =23,55 и =22,85 и среднее квадратическое отклонение S1=S2=1,20. Сравнить эти средние и сделать вывод о значимости их расхождения
Для решения вопроса о случайном или не случайном расхождении средних значений и используем формулу:
где
Подставим численные значения, найдем опытное значение коэффициента Стьюдента:
По желаемой вероятности р=95% и f=n1+n2-2=18 определяем по таблице =2,1
Так как опытное значение =1,3 меньше =2,1, можно сделать вывод, что расхождение средних значений и является случайным, малозначимым.
Задание 8.
В результате проведенных измерений и вычислений, получены следующие данные:
Приближенное значение числа 201;
Абсолютная погрешность 12.
Записать значащие, верные и сомнительные цифры
Решение
Значимые три цифры: 201
2: n = 10 => 1010 · ½ = 50 > 12 верная значимая цифра;
0: n = 1 => 101 · ½ = 5 < 12 сомнительная значимая цифра;
1: n = 0 => 100 · ½ = 0,5 < 12 сомнительная значимая цифра;
В числе три значимые цифры, из них одна верная.
Задание 9.
Для n = 6 результатов равноточных измерений твердости материала среднее значение равно = 10,1 + 0,5, среднее квадратическое отклонение S = 0,8, а (n + 1)-е измерение дало результат хn+1= х7 = 8,5 + 0,5. Следует ли исключить этот результат из дальнейшей обработки?
Для принятия решения о выбраковки седьмого результата используем критерий:
где хв — выскакивающий результат хв = х7;
Используя таблицу для определения критерия tтабл для р=95% и n=6 находим tтабл = 2,78.
Вывод. Так как ton < tтабл значение х7 = 9,0 исключать не следует из дальнейших расчетов.
Задание 10.
Связь между содержанием компонента В в полимерном материале и прочностным показателем последнего представлена в таблице испытаний. Требуется определить коэффициент корреляции для парной зависимости и сделать вывод о тесноте связи между признаками х и у.
Таблица испытаний
№ опыта | |||||||||
Содержание компонента В (х) | 40,9 | 43,6 | 45,7 | 47,5 | 51,9 | 52,2 | 54,4 | 55,7 | |
Показатели прочности (у) | 5,04 | 5,02 | 4,69 | 4,73 | 4,38 | 4,5 | 4,54 | 4,51 | |
Вспомогательная таблица
№ опыта | Содержание компонента х | Показатели прочности у | ху | х2 | у2 | |
40,9 | 5,04 | 206,14 | 1672,81 | 25,4 | ||
43,6 | 5,02 | 218,87 | 1900,96 | 25,2 | ||
45,7 | 4,69 | 214,33 | 2088,49 | 22,0 | ||
47,5 | 4,73 | 224,68 | 2256,25 | 22,37 | ||
51,9 | 4,38 | 227,32 | 2693,61 | 19,18 | ||
52,2 | 4,5 | 236,25 | 2724,84 | 20,25 | ||
54,4 | 4,54 | 246,98 | 2959,36 | 20,61 | ||
55,7 | 4,51 | 251,21 | 3102,49 | 20,34 | ||
391,9 | 37,41 | 1825,78 | 19 398,81 | 175,35 | ||
Линейный коэффициент корреляции для парной зависимости исчисляется по формуле:
;
Подставим значения в формулу и получим:
;
Вывод. Абсолютная величина линейного коэффициента корреляции свидетельствует о высокой связи между изучаемыми признаками прочностью и содержанием компонента В, а знак «минус» при коэффициенте — об обратной связи.