Помощь в написании студенческих работ
Антистрессовый сервис

Корреляционный анализ взаимосвязи количественных признаков

РефератПомощь в написанииУзнать стоимостьмоей работы

В силу своих свойств и простоты вычисления парный коэффициент корреляции р является одним из самых распространенных способов измерения линейной связи между случайными величинами в генеральной совокупности. Величина парного коэффициента корреляции лежит в интервале от -1 до +1. Значение р = ±1 свидетельствует о наличии функциональной зависимости между рассматриваемыми признаками. Если р = 0… Читать ещё >

Корреляционный анализ взаимосвязи количественных признаков (реферат, курсовая, диплом, контрольная)

При построении корреляционных моделей исходят из условия нормальности многомерного закона распределения генеральной совокупности. Эти условия обеспечивают линейный характер связи между изучаемыми признаками и позволяют для исследования взаимосвязи между переменными использовать линейные коэффициенты корреляции. На практике в качестве показателей тесноты связи рассчитывают три линейных коэффициента корреляции: парный, частный и множественный, каждый из которых несет свою смысловую нагрузку.

Парный коэффициент корреляции (коэффициент корреляции Пирсона) характеризует степень линейной зависимости между двумя переменными на фоне действия всех остальных переменных, отобранных для анализа. Так, например, парный коэффициент корреляции р12 характеризует степень линейной зависимости между переменными лг, и х2 на фоне влияния остальных переменных х3, х4,…, xt.

В силу своих свойств и простоты вычисления парный коэффициент корреляции р является одним из самых распространенных способов измерения линейной связи между случайными величинами в генеральной совокупности. Величина парного коэффициента корреляции лежит в интервале от -1 до +1. Значение р = ±1 свидетельствует о наличии функциональной зависимости между рассматриваемыми признаками. Если р = 0, то можно сделать вывод о том, что линейная связь между переменными X и Y отсутствует, однако эго не означает, что они статистически независимы. В этом случае возможно существование иной, нелинейной формы зависимости между переменными. Сформулируем и докажем основные свойства парного коэффициента корреляции, которые легко показать в рамках двумерной нормальной генеральной совокупности [28].

1. Докажем свойство, что парный коэффициент корреляции изменяется в пределах от -1 до +1, т. е. -1 < р (/ < +1.

Для доказательства этого свойства рассмотрим неравенство.

Корреляционный анализ взаимосвязи количественных признаков. (3.1).

Возведя в квадрат выражение, стоящее в скобках, получим.

Корреляционный анализ взаимосвязи количественных признаков.

Так как дисперсия нормированной величины равна единице, а среднее — нулю, имеем.

Корреляционный анализ взаимосвязи количественных признаков.

Но определению коэффициент корреляции равен.

Корреляционный анализ взаимосвязи количественных признаков.

Рассматривая в формуле (3.1) квадрат суммы, получим, что Корреляционный анализ взаимосвязи количественных признаков., а рассматривая квадрат разности — что < 1. Объединив эти два неравенства, получим Корреляционный анализ взаимосвязи количественных признаков.

2. Если случайные величины Xi и X/ статистически независимы, то рц =0, а в случае нормального распределения из некоррелированности Xj и X/, когда pji = 0, следует их независимость.

Доказательство этого свойства следует из выражения (3.1) с учетом того, что для статистически независимых случайных величин их коэффициент ковариации равен нулю, так как Корреляционный анализ взаимосвязи количественных признаков.

Второе утверждение этого свойства непосредственно следует из формулы плотности двумерного нормального закона распределения f (xj,.-;) для случая рJ/ - 0.

3. Из условия |р J = 1 следует наличие функциональной линейной связи между Xj и хь и наоборот, если Xj и х; связаны линейной функциональной зависимостью, то |р^| = 1.

Доказательство этого свойства основано на том, что неравенство (3.1) обращается в точное равенство тогда и только тогда, когда Ру =±1. В этом случае в неравенстве (3.1) выражение, стоящее в круглых скобках, должно быть тождественно равно нулю, т. е.

Корреляционный анализ взаимосвязи количественных признаков.

Таким образом, мы получили линейную функциональную зависимость между Xj и х/.

Чем ближе р к ±1, тем теснее связь между Xj и xt.

  • 4. Сила корреляционной связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.
  • 5. Парный коэффициент корреляции является симметричной характеристикой, т. е. ру; = p/у, что непосредственно следует из определения.
  • 6. Линейные преобразования переменных не влияют на величину коэффициента корреляции. Если все значения переменных увеличить (уменьшить) на одно и то же число или в одно и то же число раз, то величина коэффициента корреляции не изменится.
  • 7. Коэффициент корреляции не имеет размерности и, следовательно, его можно сопоставлять для разных выборок.
  • 8. В корреляционном анализе название переменных не имеет значения. Поэтому неважно, какую переменную мы назовем х, а какую у. Коэффициент корреляции зависит только от выборочных данных, а не от названия переменных.

Рассмотрим, как рассчитываются оценки коэффициентов корреляции.

Исходной для анализа является матрица.

Корреляционный анализ взаимосвязи количественных признаков.

размерности nxk, в которой j-я строка характеризует г'-е наблюдение (объект) по всем k показателям (j = 1,2,…, k).

В корреляционном анализе количественных признаков часто матрицу X рассматривают как выборку объема п из-мерной генеральной совокупности, подчиняющейся-мерному нормальному закону распределения.

По имеющимся выборочным данным определяют оценки параметров генеральной совокупности:

  • • вектор средних X;
  • • вектор средних квадратических отклонений 5;
  • • корреляционную матрицу R порядка к.

При этом Корреляционный анализ взаимосвязи количественных признаков.

Обозначим Корреляционный анализ взаимосвязи количественных признаков. - среднюю арифметическую произведения двух признаков, тогда.

Корреляционный анализ взаимосвязи количественных признаков.

Для выборочных данных используется эмпирическая мера связи — выборочный коэффициент корреляции г, который является точечной оценкой р и как всякая выборочная характеристика является случайной величиной [29].

Выборочный коэффициент корреляции между двумя количественными признаками д* и у определяется по формуле.

Корреляционный анализ взаимосвязи количественных признаков.

Корреляционный анализ взаимосвязи количественных признаков. (3.2).

По знаку коэффициента корреляции можно судить о направлении связи между переменными. Так, положительное значение коэффициента корреляции соответствует прямой связи, а отрицательное значение — обратной.

В случае fe-мерной совокупности матрица выборочных парных коэффициентов корреляции имеет вид.

Корреляционный анализ взаимосвязи количественных признаков.

где Корреляционный анализ взаимосвязи количественных признаков. - выборочный парный коэффициент корреляции, характеризующий тесноту линейной связи между показателями X: и х (, Корреляционный анализ взаимосвязи количественных признаков. ; Xjj — значение i-го наблюдения j-го фактора. При этом г* является оценкой генерального парного коэффициента корреляции р^. Матрица R является симметричной (Корреляционный анализ взаимосвязи количественных признаков.) и положительно определенной.

Теснота корреляционной взаимосвязи между переменными может быть качественно охарактеризована с помощью рекомендаций, представленных в табл. 3.1.

Таблица 3.1

Теснота линейной взаимосвязи

Значение коэффициента корреляции.

Теснота линейной взаимосвязи.

Корреляционный анализ взаимосвязи количественных признаков.

Сильная взаимосвязь, близкая к функциональной.

Корреляционный анализ взаимосвязи количественных признаков.

Взаимосвязь средней силы.

Корреляционный анализ взаимосвязи количественных признаков.

Умеренная взаимосвязь.

Корреляционный анализ взаимосвязи количественных признаков.

Слабая взаимосвязь.

Корреляционный анализ взаимосвязи количественных признаков.

Очень слабая взаимосвязь.

Коэффициент корреляции очень чувствителен к выбросам. Даже отдельное аномальное наблюдение может существенно исказить значение r и привести к неправильным выводам. Следовательно, до проведения корреляционного анализа желательно проверить исходные данные на наличие экстремальных (аномальных) наблюдений.

На практике изучение зависимости между двумя случайными величинами необходимо начинать с построения поля корреляции (диаграммы рассеяния), с помощью которого можно установить наличие корреляционной зависимости, силу взаимосвязи и выявить аномальные наблюдения.

Поле корреляции представляет собой диаграмму, на которой изображается совокупность значений двух признаков. Каждая точка этой диаграммы имеет координаты (xit у:), соответствующие размерам признаков в г-м наблюдении. Три варианта распределения точек на поле корреляции представлены на рис. 3.2. В первом случае основная масса точек укладывается в эллипсе, главная диагональ которого образует положительный угол с осью X. Это график положительной корреляции. Второй вариант распределения соответствует отрицательной корреляции. Равномерное распределение точек в пространстве (ХУ) свидетельствует об отсутствии корреляционной зависимости (третий вариант).

Поле корреляции в зависимости от характера (силы) связи.

Рис. 3.2. Поле корреляции в зависимости от характера (силы) связи.

На рис. 3.3 представлены примеры построения поля корреляции в зависимости от силы и направленности корреляционной связи.

Поля корреляции в зависимости от характера (силы) связи.

Рис. 3.3. Поля корреляции в зависимости от характера (силы) связи.

На рис. 3.4 представлен порядок построения поля корреляции с использованием пакета прикладных программ SPSS.

Построение поля корреляции с использованием пакета прикладных программ SPSS.

Рис. 3.4. Построение поля корреляции с использованием пакета прикладных программ SPSS

Изучение силы и направленности корреляционной связи рассмотрим на следующем примере.

Пример 3.1.

На основании выборочных данных (табл. 3.2) о деятельности шести коммерческих фирм оценим тесноту связи между прибылью (млн руб.) (у) и затратами на 1 руб. произведенной продукции (л).

Таблица 3.2

Исходные и расчетные данные для определения г

Номер наблюдения.

Корреляционный анализ взаимосвязи количественных признаков.

Корреляционный анализ взаимосвязи количественных признаков.

Корреляционный анализ взаимосвязи количественных признаков.

Корреляционный анализ взаимосвязи количественных признаков.

Корреляционный анализ взаимосвязи количественных признаков.

0,22.

21.12.

0,049.

1,07.

83.46.

1,145.

1,00.

77.00.

1,000.

0,61.

54.29.

0,372.

0,78.

63,18.

0,608.

0,79.

64,78.

0,624.

Сумма.

4,47.

363,83.

42 435.

3,798.

Средняя.

83,833.

0.745.

60,638.

7072,5.

0,633.

Решение

Используем формулу (3.2), в результате получим.

Корреляционный анализ взаимосвязи количественных признаков.

Таким образом, между прибылью (у) и затратами на 1 руб. произведенной продукции (л) существует достаточно тесная обратная зависимость, т. е. фирмы, имеющие большую прибыль, имеют, как правило, меньшие затраты на 1 руб. произведенной продукции.

Отметим, что с помощью матрицы выборочных парных коэффициентов R можно найти оценки частных и множественных коэффициентов корреляции любого порядка.

Дадим определения частным и множественным коэффициентам корреляции, рассмотрим их свойства и роль в изучении взаимосвязи между признаками.

Частный коэффициент корреляции, например Рц/з.и .к' характеризирует степень линейной зависимости между переменными .г, и .v2 при исключенном влиянии (фиксированном значении) остальных переменныхх3, хЛ, хк, входящих в модель.

Частный коэффициент корреляции определяется по той же формуле, что и парный, но для условного распределения, полученного из исходного (-мерною распределения модели.

Величина / (для частного коэффициента корреляции / = (- 2) называется порядком коэффициента корреляции и равна числу фиксированных переменных.

В случае (-мерного нормального закона распределения вектора х = (xt, х2, …, хкУ частный выборочный коэффициент корреляции, например г, 2/з 4 к порядка / = (- 2, определяется по формуле.

Корреляционный анализ взаимосвязи количественных признаков.

где Ajj — алгебраическое дополнение элемента гу корреляционной матрицы R, лежащего на пересечении i-й строки и j-го столбца, i, j = 1,2,… (.

Частный коэффициент корреляции г12, ъ 4 к обладает всеми свойствами парного коэффициента корреляции rti, следовательно, изменяется в интервале -1<�г12/34*<+1.

Если парный коэффициент корреляции между двумя случайными величинами оказался больше соответствующего частного коэффициента, то можно сделать вывод о том, что фиксирование всех других переменных приводит к усилению взаимосвязи между изучаемыми величинами, т. е. более высокое значение парного коэффициента обусловлено присутствием «третьей величины». Более низкое значение парного коэффициента корреляции в сравнении с соответствующими частными свидетельствует об ослаблении связи между изучаемыми величинами действием фиксируемых величин.

При сопоставлении парных и частных коэффициентов корреляции необходимо следить за существенными расхождениями в их значениях. Так, например, если значение парного коэффициента корреляции положительное, а частного — отрицательное (или наоборот), то это может свидетельствовать о необходимости дополнительных исследований взаимосвязи признаков и их тщательного изучения, а также осторожности в интерпретации взаимосвязи.

Множественный коэффициент корреляции pt"…,* (Pi) характеризует степень линейной связи между одной переменной и массивом остальных 1 = k — 1 переменных.

Множественный коэффициент корреляции, например г,/2 3 к порядка / = k — 1, определяется по формуле.

Корреляционный анализ взаимосвязи количественных признаков.

где Щ — определитель корреляционной матрицы R, а /1 и — алгебраическое дополнение первого диагонального элемента матрицы R.

Рассмотрим свойства множественного коэффициента корреляции.

  • 1. Множественный коэффициент корреляции, например между переменной У и массивом остальных переменных, изменяется в интервале Корреляционный анализ взаимосвязи количественных признаков.
  • 2. Минимальное значение множественного коэффициента корреляции, равное нулю, соответствует случаю полного отсутствия корреляционной связи между одной переменной и массивом остальных / = k — 1 признаков. В случае построения регрессионной модели это означает, что усредненная дисперсия регрессионных остатков в точности равна общей вариации результирующего показателя.
  • 3. Максимальное значение множественного коэффициента корреляции, равное единице, означает наличие функциональной связи между одной переменной и массивом остальных I = k — 1 признаков. В случае построения регрессионной модели это соответствует случаю полного отсутствия варьирования регрессионных остатков. В этом случае возможно полностью восстановить условные значения у (Х) = (у/% = X) по значениям факторных (предикторных) переменных X.
  • 4. Множественный коэффициент корреляции превышает любой парный или частный коэффициент корреляции, характеризующий статистическую связь результирующего показателя.
  • 5. Присоединение любой новой предсказывающей переменной не может уменьшить величины множественного коэффициента корреляции независимо от порядка присоединения переменных. Например:

Корреляционный анализ взаимосвязи количественных признаков.

Квадрат множественного коэффициента корреляции называется коэффициентом детерминации.

Множественный коэффициент детерминации, например Корреляционный анализ взаимосвязи количественных признаков., или Корреляционный анализ взаимосвязи количественных признаков., характеризует долю дисперсии (результативной) величины xlt обусловленной влиянием остальных переменных Корреляционный анализ взаимосвязи количественных признаков., включенных в модель.

Отметим, что множественный коэффициент детерминации является в регрессионном анализе одной из важнейших характеристик, позволяющих судить о качестве построенного уравнения регрессии.

Отметим, что все рассмотренные в данном разделе точечные оценки коэффициентов корреляции, как и все выборочные характеристики, являются случайными величинами, причем непрерывными в области возможных значений. Поэтому при проведении корреляционного анализа необходимо не только определить вид, степень и направление связи, но и проверить статистическую значимость полученного результата: существует ли связь, обнаруженная в выборке и характеризуемая коэффициентом корреляции, в генеральной совокупности, из которой эта выборка извлечена. Поэтому после количественной оценки силы и тесноты связи между признаками необходимо проверить статистические гипотезы о наличии и силе корреляционной связи в генеральной совокупности.

Проверка значимости параметров связи. После расчета коэффициентов корреляции, изучения силы и характера взаимосвязи между признаками с использованием поля корреляции встает задача проверки статистической значимости этой взаимосвязи.

Из курса теории вероятностей известно, что условие некоррелированности нормально распределенных величин X и Y равносильно их независимости, т. е. равенство нулю значения парного коэффициента корреляции гарантирует независимость случайных величин (и, следовательно, независимость признаков), если же значение парного коэффициента корреляции отлично от нуля, то по величине коэффициента можно судить о силе взаимосвязи.

Проверка значимости парного и частного коэффициентов корреляции. Для проверки значимости парного и частного коэффициентов корреляции выдвигаются следующие гипотезы.

Нулевая гипотеза Н0: р = 0 означает отсутствие линейной взаимосвязи между признаками, их некоррелированность и независимость.

Конкурирующая гипотеза Н{. р * 0 свидетельствует о наличии линейной взаимосвязи между признаками.

Для проверки гипотезы Нц требуется исходя из выборочных данных подобрать статистику-критерий, которая использовала бы известное значение выборочного коэффициента корреляции и имела хорошо известное распределение. Таким критерием является статистика.

Корреляционный анализ взаимосвязи количественных признаков.

которая при справедливости нулевой гипотезы имеет распределение Стьюдента (t-распределение) с п — / - 2 степенями свободы. Здесь г — соответственно оценка парного или частного коэффициент корреляции; / - порядок частного коэффициент корреляции, т. е. число фиксируемых факторов. Отметим, что для парного коэффициента корреляции / = 0.

Таким образом, для проверки гипотезы Я0 используется критерий Стьюдента (t-критерий). Наблюдаемое значение статистики критерия рассчитывается, но формуле.

Корреляционный анализ взаимосвязи количественных признаков.

Затем по таблице распределения Стьюдента находится критическое значение статистики tKp для заданного уровня значимости, а и числа степеней свободы v = п — I — 2.

Коэффициент корреляции считается значимым, т. е. гипотеза Я0: р = 0 отвергается с вероятностью ошибки а, если tlla6, по модулю будет больше, чем tKp (значения распределения Стьюдента можно найти в табл. П2 приложения). Если же Корреляционный анализ взаимосвязи количественных признаков., то гипотеза Я0 не отвергается, т. е. гипотеза об отсутствии зависимости между признаками с вероятностью ошибки, а не противоречит выборочным наблюдениям.

Значимость парных и частных коэффициентов корреляции можно проверить также с помощью таблиц Фишера — Йейтса (табл. П5 приложения). В этом случае гипотеза Я0 отвергается с вероятностью ошибки а, если полученное значение г коэффициента корреляции по модулю окажется больше табличного значения гкр, найденного по табл. П9 приложения при заданном, а и числе степеней свободы v = n-/-2, это значит, что удалось установить значимую взаимосвязь между признаками. В противном случае (|г| < гкр) гипотеза Я0: р = 0 не отвергается.

Пример 3.2

Имеется выборка из 10 наблюдений роста отцов (X) и их взрослых сыновей (У), см.

Xj

У,

Требуется найти выборочный коэффициент корреляции и проверить его значимость, т. е. ответить на вопрос: является ли зависимость роста взрослых сыновей от роста их отцов статистически значимой? Распределение случайных величин X и Y предполагается нормальным. Уровень значимости, а составляет 0,05.

Решение

Найдем значение выборочного коэффициента корреляции по формуле.

Корреляционный анализ взаимосвязи количественных признаков.

Получим г = 0,887. Данное значение выборочного парного коэффициента корреляции свидетельствует о наличие сильной прямой взаимосвязи между ростом отцов и их взрослых сыновей.

Для проверки статистической значимости найденной взаимосвязи проверим гипотезу #0: р = 0 с использованием статистики Стьюдента.

Рассчитаем наблюдаемое значение статистики:

Корреляционный анализ взаимосвязи количественных признаков.

Затем по таблице распределения Стьюдента найдем критическое значение статистики /к|1 для заданного уровня значимости а = 0.05 и числа степеней свободы v = 10 — 2: (кр (0,05; 8) = 3,833.

Так как наблюдаемое значение статистики превосходит критическое значение, то утверждение о том, что рост взрослых сыновей зависит от роста их отцов, не противоречит опытным данным с вероятностью ошибки а = 0,05.

Проверка значимости множественного коэффициента корреляции и детерминации. Значимость множественного коэффициента корреляции и детерминации проверяется с помощью /'-критерия.

Например, для множественного коэффициента корреляции Корреляционный анализ взаимосвязи количественных признаков. проверка значимости сводится к проверке гипотезы о том, что генеральный множественный коэффициент корреляции равен нулю, т. е. Корреляционный анализ взаимосвязи количественных признаков.

Наблюдаемое значение статистики находится по формуле.

Корреляционный анализ взаимосвязи количественных признаков.

Множественный коэффициент корреляции считается значимым с вероятностью ошибки а, т. е. имеет место линейная статистическая зависимость между переменной xt и остальными факторами х2,… хк, если Корреляционный анализ взаимосвязи количественных признаков. |, где FKp определяется по таблице-распределения для заданных Корреляционный анализ взаимосвязи количественных признаков.

Интервальные оценки для значимых параметров связи. Для значимых параметров связи строят их интервальные оценки. Они позволяют с вероятностью, близкой к единице, рассчитать интервал, внутрь которого попадет значение генерального коэффициента корреляции.

Р. Фишер доказал, что статистика.

Корреляционный анализ взаимосвязи количественных признаков.

уже при п > 10 имеет асимптотически нормальное распределение приемлемой точности с математическим ожиданием Корреляционный анализ взаимосвязи количественных признаков. и дисперсией Корреляционный анализ взаимосвязи количественных признаков.

При определении доверительного интервала с надежностью у для значимого парного или частного коэффициента корреляции р используют Z-преобразование Фишера и предварительно рассчитывают интервальную оценку для Z:

Корреляционный анализ взаимосвязи количественных признаков.

где вычисляют по таблице интегральной функции Лапласа (см. табл. П1 приложения) из условия.

Корреляционный анализ взаимосвязи количественных признаков.

Значение Z' определяют по таблице Z-преобразования (табл. П6 приложения) по найденному значению г. Отметим, что данная функция — нечетная, т. е.

Корреляционный анализ взаимосвязи количественных признаков.

Обратный переход от Z к р осуществляют также по таблице Z-преобразования, после использования которой получают интервальную оценку для р с надежностью у:

Корреляционный анализ взаимосвязи количественных признаков.

Таким образом, с вероятностью у гарантируется, что генеральный коэффициент корреляции р будет находиться в интервале (Корреляционный анализ взаимосвязи количественных признаков.).

Задачи, решаемые при помощи статистики Фишера. Кроме нахождения интервальной оценки для коэффициента корреляции р с помощью преобразования.

Корреляционный анализ взаимосвязи количественных признаков. (3.3).

можно решить следующие задачи.

1. После того как найдена оценка выборочного коэффициента корреляции, можно проверить, насколько полученная оценка по выборочным данным согласуется с истинным значением коэффициента корреляции для генеральной совокупности (т.е. проверить степень корреляционной зависимости).

Фишером установлено, что статистика Z,., построенная по выборкам из X и У достаточно большого объема п (п> 50), имеет приближенно нормальное распределение. В случае справедливости нулевой гипотезы Нп Корреляционный анализ взаимосвязи количественных признаков. параметры этого распределения составляют.

Корреляционный анализ взаимосвязи количественных признаков. (3.4).

В качестве статистики критерия используют нормированную величину И7:

Корреляционный анализ взаимосвязи количественных признаков.

Затем по таблице функции Лапласа находят критическое значение Корреляционный анализ взаимосвязи количественных признаков. Сравнение наблюдаемого и критического значений статистики позволит отклонить или принять нулевую гипотезу.

Пример 3.3

В предыдущем примере установлено, что роет взрослых сыновей имеет сильную прямую взаимосвязь с ростом их отцов (/ = 0,887). Проверим насколько согласуется полученное выборочное значение парного коэффициента корреляции с истинным значением коэффициента корреляции для генеральной совокупности.

Решение

Имеем Корреляционный анализ взаимосвязи количественных признаков.

Воспользуемся формулой (3.4) и вычислим математическое ожидание и дисперсию распределения:

Корреляционный анализ взаимосвязи количественных признаков.

Тогда Корреляционный анализ взаимосвязи количественных признаков.

Используя формулу (3.3), получим.

Корреляционный анализ взаимосвязи количественных признаков.

При, а = 0,05 критическое значение критерия 1ТК|) составит 1,96. Сравнивая наблюдаемое и критическое значения, можно сделать вывод о том, что наблюдаемое значение критерия находится в области принятия гипотезы. Таким образом, мы можно говорить (с вероятностью ошибки а = 0,05), что истинное значение коэффициента корреляции для генеральной совокупности составляет 0,887. Эта зависимость очень сильная, близкая к функциональной.

  • 2. Проверить, согласуется ли выборочный коэффициент корреляции г с предполагаемым значением генерального коэффициента корреляции р0, можно также с помощью построения интервала. С этой целью для выбранного уровня значимости, а проверяют, попадает ли абсолютная величина разности Корреляционный анализ взаимосвязи количественных признаков. в интервал Корреляционный анализ взаимосвязи количественных признаков.. Если попадает, то гипотеза Н0: Корреляционный анализ взаимосвязи количественных признаков. не отвергается. В противном случае она отвергается с вероятностью ошибки а.
  • 3. Проверить гипотезу об однородности коэффициентов корреляции.

Пусть Корреляционный анализ взаимосвязи количественных признаков. — коэффициенты корреляции, полученные из k нормально распределенных совокупностей по выборкам с объемами Корреляционный анализ взаимосвязи количественных признаков.. Проверяется гипотеза.

Корреляционный анализ взаимосвязи количественных признаков.

Статистика.

Корреляционный анализ взаимосвязи количественных признаков.

имеет распределение Корреляционный анализ взаимосвязи количественных признаков. с k степенями свободы. Если заменить Корреляционный анализ взаимосвязи количественных признаков. на среднее арифметическое.

Корреляционный анализ взаимосвязи количественных признаков.

то получим, что статистика.

Корреляционный анализ взаимосвязи количественных признаков.

распределена по закону Корреляционный анализ взаимосвязи количественных признаков. с v = k — 1 степенями свободы.

Если теперь для заданных а и v = k — 1 найти табличное значение Корреляционный анализ взаимосвязи количественных признаков. и выполняется неравенство.

Корреляционный анализ взаимосвязи количественных признаков.

то гипотеза однородности отвергается с вероятностью ошибки а. В противном случае гипотеза Нп не отвергается.

В случае принятия гипотезы однородности предпочтительной точечной оценкой р является значение г, полученное обратным преобразованием из zr.

Выявление и анализ ложной корреляции между признаками. Две переменные X и Y могут иметь сильную корреляционную зависимость, но прежде чем делать выводы об их взаимосвязи, необходимо постараться проинтерпретировать эту связь.

Взаимосвязь переменных может быть вызвана другим фактором (третьей переменной), влияющим и на X, и на Y. Так, например, если вы видите пожарную машину на каждом из пожаров, то это не означает, что пожарные машины вызывают пожар. Для выявления ложных корреляций рассматривают не пару, а множество «потенциально важных» значений и используют частные корреляции. Если зафиксировать пожары примерно одного масштаба и посчитать корреляцию между количеством пожарных и ущербом, то корреляция окажется обратной.

Пример 3.4

В табл. 3.3 представлены данные, иллюстрирующие увеличение числа министерств и объема импорта рома в Новой Англии в период с I860 по 1940 г.

Таблица 3.3

Число министерств и объем импорта рома в Новой Англии в период с 1860 по 1940 г.

Год.

Число министерств в Новой Англии.

Объем кубинского рома, импортируемого в Бостон, баррель.

I860.

10 643.

11 265.

10 071.

10 547.

11 008.

13 885.

18 559.

23 024.

24 185.

25 434.

29 238.

34 705.

Анализ поля корреляции (рис. 3.5) между числом министерств в Новой Англии и объемом (в баррелях) кубинского рома, импортируемого в Бостон, показывает наличие функциональной зависимости между этими переменными (r= 0,9986). Означает ли это, что увеличение министерств в Новой Англии сопровождается ростом объема (в баррелях) кубинского рома, импортируемого в Бостон?

Поле корреляции между числом министерств в Новой Англии и объемом (в баррелях) кубинского рома, импортируемого в Бостон.

Рис. 3.5. Поле корреляции между числом министерств в Новой Англии и объемом (в баррелях) кубинского рома, импортируемого в Бостон.

Для ответа на этот вопрос рассмотрим третью переменную Z — «рост населения». Именно ее опосредованное влияние и на переменную X, и на переменную Y послужило причиной их тесной взаимосвязи. Из этого можно сделать вывод о том, что высокий коэффициент корреляции между переменными X и Y обусловливался влиянием третьего, неучтенного, фактора Z — ростом численности населения.

Таким образом, если удалось установить тесную зависимость между двумя исследуемыми переменными, отсюда еще не следует их причинная взаимообусловленность.

Пример 3.5 [1]

При анализе большого числа наблюдений, относящихся к отливке труб, была установлена положительная корреляционная связь между переменными х1 — временем плавки и х2 - количеством забракованных труб. Однако дать причинное истолкование такой стохастической зависимости невозможно (рекомендация ограничить продолжительность плавки для снижения брака малосостоятельна). Спустя несколько лет было обнаружено, что большая продолжительность плавки связана с использованием сырья специального состава. Этот вид сырья приводил одновременно к длительному времени плавки и большому проценту брака, хотя оба этих фактора независимы.

Таким образом, высокий коэффициент корреляции между Корреляционный анализ взаимосвязи количественных признаков. и Корреляционный анализ взаимосвязи количественных признаков. обусловливался влиянием третьего, неучтенного, фактора — характеристики качества сырья.

Исследование нелинейных взаимосвязей. Эмпирическое корреляционное отношение. О нелинейном характере взаимосвязи можно судить по полю корреляции.

Пример 3.6

На рис. 3.6 представлено поле корреляции между глобальным инновационным индексом {Globa! Innovation Index) и индексом развития человеческого потенциала {Human Development Index) по странам мира за 2013 г., которое носит ярко выраженный нелинейный характер. Можно показать графически, что данная зависимость довольно хорошо моделируется с помощью подгонки, основанной на логарифмической функции. Анализ рис. 3.6 показывает, что связь слабеет по мере роста обоих индексов. Логарифмическая подгонка некорректна только для группы наиболее развитых стран, для которых положительной взаимосвязи между этими индексами уже почти не наблюдается (для стран, у которых 67/ больше 55, точки на диаграмме рассеивания расположены практически параллельно оси х).

Таким образом, дальнейшее изучение взаимосвязи между уровнем инновационного развития страны и благосостояния населения целесообразно проводить с помощью корреляционного отношения или предварительно разбить страны мира на однородные группы с помощью методов кластерного анализа.

Поле корреляции между глобальным инновационным индексом (GII) и индексом развития человеческого потенциала (IIDI) по странам мира, 2013 г.

Рис. 3.6. Поле корреляции между глобальным инновационным индексом (GII) и индексом развития человеческого потенциала (IIDI) по странам мира, 2013 г.

При отклонении исследуемых зависимостей от линейного вида коэффициент корреляции теряет свой смысл как характеристика степени тесноты связи.

Нелинейная (или криволинейная) связь между двумя величинами — это такая связь, при которой равномерным изменениям одной величины соответствуют неравномерные изменения другой, причем эта неравномерность имеет определенный закономерный характер.

Для изучения степени нелинейной взаимосвязи между признаками используют корреляционной) отношение.

Корреляционное отношение (Корреляционный анализ взаимосвязи количественных признаков.) — характеристика тесноты связи между переменными X и Y в случае нелинейной зависимости.

Использование корреляционного отношения основано на разложении общей дисперсии зависимой переменной на составляющие: дисперсию, характеризующую влияние объясняющей переменной, и дисперсию, характеризующую влияние неучтенных и случайных факторов:

Корреляционный анализ взаимосвязи количественных признаков.

где Корреляционный анализ взаимосвязи количественных признаков. - общая дисперсия зависимой переменной, т. е. дисперсия относительно среднего значения; Корреляционный анализ взаимосвязи количественных признаков. - дисперсия функции регрессии относительно среднего значения зависимой переменной, характеризующая влияние объясняющей переменной; Корреляционный анализ взаимосвязи количественных признаков. - дисперсия зависимой переменной Y относительно функции регрессии, т. е. остаточная регрессия.

Корреляционное отношение по выборочным данным определяется по формуле.

Корреляционный анализ взаимосвязи количественных признаков.

Корреляционное отношение Г|,/г изменяется в интервале Корреляционный анализ взаимосвязи количественных признаков.. Если дисперсия Корреляционный анализ взаимосвязи количественных признаков., обусловленная зависимостью величины у от объясняющей переменной х, равна общей дисперсии Корреляционный анализ взаимосвязи количественных признаков. (а это возможно лишь при наличие функциональной связи), то Корреляционный анализ взаимосвязи количественных признаков.. Если же остаточная (т.е. необъясненная) дисперсия Корреляционный анализ взаимосвязи количественных признаков. равна общей дисперсии Корреляционный анализ взаимосвязи количественных признаков., то Корреляционный анализ взаимосвязи количественных признаков., т. е. корреляционная связь отсутствует.

Корреляционное отношение Корреляционный анализ взаимосвязи количественных признаков. используется тогда, когда характер выборки Корреляционный анализ взаимосвязи количественных признаков. допускает их группировку по оси объясняющей переменной х и подсчет частных средних внутри каждого j-го интервала группирования:

Корреляционный анализ взаимосвязи количественных признаков.

где Корреляционный анализ взаимосвязи количественных признаков. - число интервалов группирования; Корреляционный анализ взаимосвязи количественных признаков. - число наблюдений (точек) в j-м интервале.

Межгрупповая вариация у характеризуется дисперсией.

Корреляционный анализ взаимосвязи количественных признаков.

где Корреляционный анализ взаимосвязи количественных признаков. - общее среднее.

Общая выборочная дисперсия относительно общей средней у равна.

Корреляционный анализ взаимосвязи количественных признаков.

Следовательно, оценка квадрата корреляционного отношения Корреляционный анализ взаимосвязи количественных признаков. зависимой переменной Y по независимой переменной X рассчитывается по формуле.

Корреляционный анализ взаимосвязи количественных признаков.

Вычисление корреляционного отношения не связано с видом уравнения регрессии.

В отличие от парного коэффициента корреляции г корреляционное отношение несимметрично по отношению к исследуемым переменным, т. е. в общем случае.

Корреляционный анализ взаимосвязи количественных признаков.

Корреляционное отношение, по определению, — величина неотрицательная как положительный корень из гуыг Из равенства |ri| = 1 следует наличие однозначной функциональной связи между Y и X, и наоборот, из функциональной связи между Y и X следует, что |т)| = 1.

Отсутствие связи между Уы и X означает, что частные средние уj равны между собой и равны Уы, поэтому г|,/Л = 0.

Отметим, что между Г|. = Цг (/ нет никакой простой зависимости, т. е. по значениям одной переменной нельзя судить о значениях другой переменной. В случае линейной зависимости туы и р2 совпадают, поэтому статистику (г)2,. -р2) используют в качестве меры отклонения регрессионной зависимости от линейного вида.

В качестве одного из самых простых критериев оценки нелинейности связи можно использовать следующий коэффициент:

Корреляционный анализ взаимосвязи количественных признаков.

Если значение Кп > 2,5, то корреляционную связь можно считать нелинейной.

При недостаточном количестве данных в выделенных группах к рассчитанной величине корреляционного отношения вводится поправка.

Корреляционный анализ взаимосвязи количественных признаков.

где т — число выделенных групп.

Построение доверительных интервалов для корреляционного отношения. Построение доверительных интервалов для корреляционного отношения генеральной совокупности осуществляется так же, как аналогичные процедуры для линейного коэффициента парной корреляции. Рассчитывается наблюдаемое значение статистики.

Корреляционный анализ взаимосвязи количественных признаков.

Критическое значение статистики fKpllT находится по таблице распределения Стьюдента для заданного уровня значимости, а числа степеней свободы v = п — 2.

Доверительный интервал имеет вид.

Корреляционный анализ взаимосвязи количественных признаков.

где ty находится по таблице интегральной функции Лапласа с учетом уровня доверительной вероятности у.

Проверка значимости нелинейных взаимосвязей. Для проверки значимости корреляционного отношения ri^, т. е. проверки при заданном уровне значимости а гипотезы Корреляционный анализ взаимосвязи количественных признаков., используют f-критерий, основанный на статистике.

Корреляционный анализ взаимосвязи количественных признаков.

После расчета наблюдаемого значения статистики Фишера — Йейтса находят критическое значение (FKp) для заданного уровня значимости, а и числа степеней свободы Корреляционный анализ взаимосвязи количественных признаков.

Сравнение наблюдаемого и критического значений статистики позволяет сделать вывод о значимости корреляционного отношения (наличия нелинейной взаимосвязи между переменными х и у).

Если Корреляционный анализ взаимосвязи количественных признаков., то с вероятностью ошибки, а утверждают, что зависимость между переменными существует, в противном случае гипотеза Корреляционный анализ взаимосвязи количественных признаков. не отвергается.

Пример 3.7

На рис. 3.7 приведены поля корреляции между переменными д* и у. Сверху каждой) рисунка представлены соответствующие коэффициенты корреляции. Определим, в каком случае для исследования степени тесноты взаимосвязи между переменными могут быть использованы линейные коэффициенты корреляции.

Решение

Для анализа взаимосвязи между переменными в первой строке могут быть использованы линейные коэффициенты корреляции, во второй строке линейные коэффициенты корреляции не могут использоваться, так как связь носит сложный, нелинейный характер. В центре рисунка значение коэффициента корреляции не определено, так как дисперсия у равна нулю.

Поля корреляции между переменными х и у для примера 3.7.

Рис. 3.7. Поля корреляции между переменными х и у для примера 3.7.

Показать весь текст
Заполнить форму текущей работой