Помощь в написании студенческих работ
Антистрессовый сервис

Понятие корреляционной (регрессионной) связи

РефератПомощь в написанииУзнать стоимостьмоей работы

Одного взгляда на диаграмму рассеивания достаточно, чтобы убедиться в том, что связь не является функциональной. Значению независимой переменной соответствует не конкретное значение зависимой, а некоторое распределение ее значений. Точнее говоря, на рис. 8.6 отображено условное распределение значений Y, так как оно соответствует определенному значению аргумента X = 2. Другими словами, при… Читать ещё >

Понятие корреляционной (регрессионной) связи (реферат, курсовая, диплом, контрольная)

Мы рассмотрели понятие статистической связи на примере категориальных переменных «пол» и «участие в выборах». Статистическая связь была определена как связь между значениями одной переменной и условным распределением вероятностей другой. Это — наиболее общее определение статистической зависимости, и оно справедливо для переменных на любом уровне измерения, как дискретных, так и непрерывных. Однако здесь возникает существенный практический вопрос: как фиксировать распределение условных вероятностей для переменных с очень большим или, тем более, бесконечным числом значений? Так, если в качестве зависимой переменной выступает «доля расходов на вооружение в общих расходах государственного бюджета», бессмысленно пытаться рассчитать условные вероятности появления каждого ее значения, — эта переменная непрерывна и число ее возможных значений бесконечно. Для дискретной переменной «число участников акций протеста» количество возможных значений, в принципе, ограниченно; но оно столь велико, что процедура расчета вероятностей для каждого из них также лишается смысла.

Спасительная идея состоит в следующем. Если нельзя полностью описать условное распределение вероятностей, можно сосредоточиться на его определенной характеристике (параметре). Покажем на примере, как это можно сделать.

Допустим, нас интересует зависимость ВВП страны на душу населения (Y) от того, в какой мере она свободна от коррупции (X). Пусть «свобода от коррупции» — порядковая переменная с 11 категориями: от «полностью коррумпирована» (0) до «полностью свободна от коррупции» (10). ВВП на душу населения — параметрическая переменная; в кросс-национальных исследованиях ее обычно измеряют в долларах США.

Прежде всего, какой тип зависимости мы ожидаем здесь увидеть? Этот вопрос сводится, по сути, к следующему: может ли уровень свободы от коррупции однозначно определять экономическое благосостояние страны? Судя по всему, ответ будет отрицательный, так как на благосостояние существенно влияют и другие факторы, например обеспеченность государства природными ресурсами. Соответственно, мы ожидаем увидеть зависимость статистическую.

Сначала пойдем по тому же пути, что и в примере с влиянием пола на явку. Зафиксируем определенное значение аргумента, например Х= 2. Физически это означает, что мы обращаем внимание только на те страны, где уровень свободы от коррупции составляет 2 балла (т.е. уровень коррупции очень высок). Чтобы иметь наглядное представление о данных, построим диаграмму рассеивания (см. рис. 8.7).

Рис. 8.7.

Рис. 8.7.

Это очень важный вид диаграммы, когда каждый случай (объект) отображается на плоскости в виде точки с координатами, соответствующими значениям переменных X a Y. В следующем разделе мы отработаем построение диаграммы рассеивания с помощью специальных упражнений. На рис. 8.7 диаграмма рассеивания построена по следующим данным табл. 8.7.

Таблица 8.7.

Страна.

X

Y

Страна.

X

Г

Азербайджан.

Кения.

Албания.

Конго.

Ангола.

Кот-д'Ивуар

Бангладеш.

Кыргызстан.

Бурунди.

Нигер

Венесуэла.

Нигерия.

Гаити.

Пакистан.

Грузия.

Папуа — НГ.

Конго.

Парагвай.

Индонезия.

Судан.

Камбоджа.

Сьерра-Леоне.

Камерун.

Таджикистан.

Узбекистан.

Эфиопия.

Чад.

Одного взгляда на диаграмму рассеивания достаточно, чтобы убедиться в том, что связь не является функциональной. Значению независимой переменной соответствует не конкретное значение зависимой, а некоторое распределение ее значений. Точнее говоря, на рис. 8.6 отображено условное распределение значений Y, так как оно соответствует определенному значению аргумента X = 2. Другими словами, при условии, что X = 2, Y приобретает такие значения, как на рис. 8.8 и в табл. 8.7.

Теперь изменим значение аргумента. Перейдем сразу в группу стран с низким уровнем коррупции: пусть Х= 9 (см. рис. 8.8, табл. 8.8).

Рис. 8.8.

Рис. 8.8.

Страна.

X

У.

Австралия.

33 993.

Австрия.

33 537.

Великобритания.

33 135.

Нидерланды.

34 305.

Норвегия.

41 327.

Сингапур

29 843.

Швейцария.

35 893.

Швеция.

32 801.

Вновь значению аргумента соответствует не конкретное значение Y а некоторый разброс значений, условное распределение Y При этом очевидно, что при изменении аргумента (значения X) происходит изменение условного распределения У, т. е. имеется статистическая связь. Но как описать это изменение, если у нас имеется множество точек? Что именно изменилось в условном распределении?

Ответ на этот вопрос связан с одним из основных параметров распределения — средним значением. При корреляционной (регрессионной) связи изменение значений независимой переменной сопровождается изменением условного среднего зависимой переменной. В нашем примере при увеличении показателя свободы от коррупции с 2 до 9 мы не можем определить изменение значений ВВП — связь не является функциональной, и значениям X соответствуют условные распределения Y. Но мы можем сказать, что при росте показателя «свобода от коррупции» (проще говоря, при снижении уровня коррупции) ВВП надушу населения в среднем растет.

Внимательно посмотрите на рис. 8.9, где мы уже не ограничиваемся двумя значениями X.

Точки на диаграмме рассеивания, представляющие отдельные страны, расположены не хаотично. Статистическая связь между переменными проявляется в «вытянутости» облака точек вдоль определенной линии. Она называется линией регрессии и показывает тенденцию в изменении условного среднего значения зависимой переменной при изменении

Рис. 8.9.

Рис. 8.9.

значений независимой. В данном примере эта линия является прямой, однако, вообще говоря, это не обязательно.

Продолжим таблицу с характеристиками разных типов связи (табл. 8.5). Обратите внимание, что корреляционная (регрессионная) связь является видом статистической связи; она конкретизирует понятие изменения условного распределения применительно к непрерывным переменным и дискретным переменным с большим числом категорий (табл. 8.9).

Рассмотрим основные характеристики статистической и корреляционной связи. Отметим особо, что набор доступных для анализа характеристик зависит от уровня изменения переменных.

Наиболее общей характеристикой связи, присутствующей на всех уровнях измерения, является сила связи. Связь тем сильнее, чем значительнее изменения в условном распределении одной переменной, наступающие при изменении значений другой. Здесь мы оперируем общим понятием статистической связи, и измерение силы может быть произведено для любых переменных — номинальных, порядковых, интервальных и относительных. Как правило, силу связи показывает коэффициент, принимающий значения от О до 1. Нулевому значению соответствует отсутствие связи; например, в упражнении 8.2 изменение значения X никак не влияет на условное распределение К— и здесь связь нулевая. Единичному значению коэффициента соответствует.

Тип связи.

Меняется у независимой переменной.

Меняется у зависимой переменной.

Функциональная.

Значение.

Значение.

Статистическая.

Значение.

Распределение условных вероятностей.

р Корреляционная (регрессионная).

Значение.

Параметр условного распределения — условное среднее значение.

функциональная связь, когда значения одной переменной целиком определяются значениями другой. В реальных политических исследованиях такие коэффициенты не встречаются. В подавляющем большинстве случаев коэффициент силы связи будет находиться между нулем и единицей; близость к нулю означает, что связь слабая, близость к единице — сильная. Более детально о процедуре измерения силы связи и интерпретации коэффициентов мы поговорим позже.

Более специальной характеристикой является направление связи. При наличии прямой (положительной) связи рост значений X приводит к росту условного среднего Т, уменьшение значений X — к уменьшению условного среднего Y. Взаимное изменение переменных происходит в одном направлении; такую картину мы наблюдаем для признаков «свобода от коррупции» и «ВВП на душу населения» (см. рис. 8.9). В то же время, если мы заменим переменную «свобода от коррупции» на обратную ей «уровень коррупции» (это можно сделать, вычитая каждое значение из 10), направление связи изменится (см. рис. 8.10).

Теперь увеличение значений X ведет к уменьшению условного среднего К, уменьшение значений X — к увеличению условного среднего Y Такая связь является обратной (или отрицательной). Уже сейчас можно заметить, что обратная связь характеризуется отрицательным углом наклона линии регрессии, прямая — положительным.

Направление связи почти всегда оценивается вместе с ее силой; знак «-» при коэффициенте показывает, что связь обратная, отсутствие знака — что связь прямая. Так, например, коэффициент -0,9 свидетельствует о наличии сильной обратной связи; коэффициент 0,3 — слабой прямой.

Рис. 8.10.

Рис. 8.10.

Для того чтобы оценить направление связи, необходимо, чтобы оба признака обладали интенсивностью и было определено отношение «больше — меньше». Соответственно, признаки должны обладать, как минимум, порядковым уровнем измерения. Для номинальных переменных вопрос о направлении связи смысла не имеет; нельзя сказать, например, что пол респондента положительно или отрицательно влияет на участие в выборах.

Третьей важной характеристикой связи является ее форма (функциональная форма). Вернемся к общей модели статистической связи:

Понятие корреляционной (регрессионной) связи.

Вопрос о форме связи — это вопрос о том, какова функция F. На самом общем уровне мы будем выделять два больших класса зависимостей — линейные и нелинейные. Если все операции функции /'являются линейными, форма зависимости также является линейной. К линейным операциям относятся, напомним, сложение и умножение переменной на постоянную величину. Так, функция Y— кХ+ b является линейной; в примере с влиянием коррупции на ВВП мы имеем дело именно с такой функцией. Если функция предполагает хотя бы одну нелинейную операцию, она является нелинейной. Например, функции Y — кХ + aZ2, Y = XZ, Y= Хк — нелинейные.

Для того чтобы иметь возможность анализировать форму связи, требуется уровень измерения не ниже интервального, так как только на нем определены все операции с действительными числами.

Сведения о характеристиках статистической связи обобщены в табл. 8.10.

Таблица 8.10

Характеристика связи.

Уровень измерения.

Сила.

Любой.

Направление (положительная, отрицательная).

Порядковый, интервальный, относительный.

Форма (линейная, нелинейная).

Интервальный, относительный.

Показать весь текст
Заполнить форму текущей работой