Помощь в написании студенческих работ
Антистрессовый сервис

Парная корреляция. 
Теория вероятностей и математическая статистика для экономистов

РефератПомощь в написанииУзнать стоимостьмоей работы

Пример 11.1. Для оценки эффективности механизации производственного процесса были собраны данные, но восьми предприятиям, выпускающих одинаковую продукцию. На каждом предприятии фиксировались две переменные: X — уровень механизации производственного процесса (в процентах) и У — выработка продукции на одного рабочего (в тоннах): Решение. Число групп факторного признака X определяется затратами… Читать ещё >

Парная корреляция. Теория вероятностей и математическая статистика для экономистов (реферат, курсовая, диплом, контрольная)

Пусть имеются результаты п наблюдений, каждое из которых фиксирует пару сопряженных значений интересующих нас признаков X и У. Если объем выборки невелик, то в результате получаем двумерную выборку {} у{), (х2, у2), (х", у").

При большом числе опытов одно и то же значение Xj может встретиться пх. раз, а одно и то же значение г/; — соответственно пу. раз. Одна и та же пара значений (xi} у) может наблюдаться пу раз. Поэтому наблюдаемые значения могут быть сгруппированы. Для этого подсчитывают соответствующие частоты, и все эти результаты заносят в таблицу, которая называется таблицей сопряженности или корреляционной таблицей (табл. 11.1).

Таблица 11.1

Корреляционная таблица

У

Уч

У.)

Ут

"

«12.

«У.

пт

«V,.

х2

П2

п22

n2j

" 2т

пь

*i

Xf

__.

%

Пи

У 2.

V.

п

В табл. 11.1 Пф i =1, 2,…, lj- 1,2,…, ш, — частоты пар переменных (xif yj), а сумма их дает п.

Такая таблица уже сама по себе дает приблизительное представление о характере связи между интересующими нас величинами.

Замечание 11.2. Не следует путать корреляционную таблицу с корреляционной матрицей (4.23).

Получение статистических оценок связи по данным двумерной выборки заключается в замене вероятностей в теоретических показателях относительными частотами, математических ожиданий и дисперсий — соответствующими выборочными средними и дисперсиями и т. д.

Пусть дана двумерная выборка пар сопряженных значений интересующих нас величин (xv z/j), (.х2, Уч),, (xTv Уп)> тогда корреляционные характеристики вычисляют в следующем порядке.

1. Сначала определяют два средних значения:

Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

2. Затем определяют три момента второго порядка, а именно, две выборочные дисперсии:

и выборочную ковариацию (корреляционный момент):

и выборочную ковариацию (корреляционный момент):

3. По этим данным вычисляют выборочный коэффициент корреляции.

3. По этим данным вычисляют выборочный коэффициент корреляции.

Замечание 11.3. Если наблюдаемые значения X и У сгруппированы в корреляционную таблицу, то при вычислении соответствующих выборочных характеристик следует учитывать частоты их значений х{ и ур например.

Замечание 11.3. Если наблюдаемые значения X и У сгруппированы в корреляционную таблицу, то при вычислении соответствующих выборочных характеристик следует учитывать частоты их значений х{ и ур например.

Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

Линейный коэффициент корреляции может принимать любые значения в пределах от -1 до +1. Чем ближе коэффициент корреляции по абсолютной величине к 1, тем сильнее линейная связь между признаками. При этом если коэффициент корреляции близок к 1, то говорят о прямой линейной зависимости, а если к -1 — то об обратной линейной зависимости. Если линейный коэффициент корреляции равен нулю, то признаки называют некоррелированными.

Выборочный коэффициент корреляции г вычисляется по результатам выборки, поэтому он является функцией выборки. Его значения для различных выборок будут отличаться друг от друга, следовательно, выборочный коэффициент корреляции является СВ с некоторым распределением. Поэтому в корреляционном анализе возникает вопрос о реальности стохастической связи, т. е. является ли полученный коэффициент корреляции г значимым и не объясняется ли его получение случайностью выборки. Чтобы ответить на этот вопрос, нужно проверить нулевую гипотезу #0: г = 0. Критерием в этом случае служит выборочный коэффициент корреляции г. Для больших выборок статистика критерия имеет вид.

Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

Если гипотеза #0 верна, то статистика D ~ N (О, 1); следовательно, критическая область имеет вид Парная корреляция. Теория вероятностей и математическая статистика для экономистов. берется из таблицы стандартного нормального распределения.

Если же объем выборки небольшой (п < 50), то используется статистика к Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

которая при справедливости гипотезы #0 имеет распределение Стьюдента с (п — 2) степенями свободы. Критическая область имеет вид Ка =

= {t: > ?а}, где Парная корреляция. Теория вероятностей и математическая статистика для экономистов. находится по таблице критических точек распределения Стьюдента с (п — 2) степенями свободы.

Если в результате проверки нулевая гипотеза отвергается, то для оценки точности г строится доверительный интервал. Для истинного значения коэффициента корреляции г имеет место следующий приближенный доверительный интервал (при больших выборках):

Замечание 11.4. Критическое значение распределения Стьюдента можно найти по соответствующей статистической таблице (см. табл. П5 в приложении) или используя функцию СТЫОДРАСПОБР в MS Excel. При использовании функции СТЫОДРАСПОБР следует иметь в виду, что в качестве аргумента функции «вероятность» задается не доверительная вероятность р = 0,95, а уровень значимости а = -р = - 0,95 = 0,05.

Замечание 11.4. Критическое значение распределения Стьюдента можно найти по соответствующей статистической таблице (см. табл. П5 в приложении) или используя функцию СТЫОДРАСПОБР в MS Excel. При использовании функции СТЫОДРАСПОБР следует иметь в виду, что в качестве аргумента функции «вероятность» задается не доверительная вероятность р = 0,95, а уровень значимости а = -р = - 0,95 = 0,05.

Пример 11.1. Для оценки эффективности механизации производственного процесса были собраны данные, но восьми предприятиям, выпускающих одинаковую продукцию. На каждом предприятии фиксировались две переменные: X — уровень механизации производственного процесса (в процентах) и У — выработка продукции на одного рабочего (в тоннах):

Уровень механизации производственного процесса (X).

Выработка на одного рабочего (Y)

Оценим тесноту связи между приведенными признаками с помощью линейного коэффициента корреляции. Проверим значимость линейного коэффициента корреляции с доверительной вероятностью 0,95.

Решение. Чтобы воспользоваться приведенной выше формулой для вычисления линейного коэффициента корреляции, рассчитаем вначале выборочные средние значения и средние квадратические отклонения обоих признаков, но приведенным выше формулам:

Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

Подставляя полученные значения в формулу для коэффициента корреляции и производя необходимые вычисления, получим Я = 0,985.

Проверим значимость коэффициента корреляции. Для этого рассчитаем величину t Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

Используя функцию СТЬЮДРАСПОБР в MS Excel находим критическое значение, отвечающее числу степеней свободы п — 2 = 8- 2 = 6и уровню значимости 0,05. Оно равно ?табл = 2,45. Это же значение мы найдем, используя табл. П5.

Поскольку вычисленное значение больше критического, то считается, что найденный коэффициент корреляции статистически значим.

Полученная величина коэффициента корреляции свидетельствует о возможном наличии достаточно тесной прямой зависимости между рассматриваемыми признаками.

Коэффициент корреляции измеряет степень линейной статистической связи между признаками, но при этом он ничего не говорит о нелинейной связи. Низкий коэффициент корреляции вовсе не исключает сильную нелинейную связь между признаками. А высокий коэффициент корреляции зачастую не содержит никакой полезной информации, если зависимость между признаками не может интерпретироваться как причинная.

При наличии криволинейной зависимости в качестве меры связи используют корреляционное отношение, введенное К. Пирсоном. Его определяют по сгруппированным данным.

Пусть статистические данные представлены в виде корреляционной таблицы (см. табл. 11.1), тогда, прежде всего, для каждого наблюдаемого значения Xj признака X вычисляют групповое (условное) среднеепризнака У:

Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

Далее вычисляют межгрупповую дисперсию У и выборочную дисперсию признака У:

Замечание 11.5. Если статистические данные представлены в виде двумерной выборки (лг1,у1),...,(*Я1 Уп)у Т() весь диапазон изменения X разбивают на / интервалов (/ должна быть не менее 8—10) и для каждого г-го интервала подсчитывают условное среднее значение по формуле.

Замечание 11.5. Если статистические данные представлены в виде двумерной выборки (лг1, у1),…,(*Я1 Уп Т () весь диапазон изменения X разбивают на / интервалов (/ должна быть не менее 8—10) и для каждого г-го интервала подсчитывают условное среднее значение по формуле.

Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

где щ — число точек (xk., yk.), абсциссы которых попали в /-й интервал.

Далее, как и в предыдущем случае, вычисляют межгрупповую дисперсию У и выборочную дисперсию признака У:

Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

Общая дисперсия признака Y связана с межгрупповой дисперсией Y следующим соотношением:

Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

где Парная корреляция. Теория вероятностей и математическая статистика для экономистов. — остаточная дисперсия, возникающая из-за случайных и неучтенных факторов, нс зависящих от X. Межгрупповая же дисперсия выражает ту часть вариации Y, которая обусловлена изменчивостью X.

Соотношение (11.1) в статистике носит название правила сложения дисперсий.

Величина.

называется корреляционным отношением Y по X.

называется корреляционным отношением Y по X.

Чем теснее связь, тем большее влияние на вариацию У оказывает изменчивость X и тем больше величина корреляционного отношения.

Приведем основные свойства корреляционного отношения'.

  • 1. 0Y/x -1-
  • 2. Если rY/x =0> Т () СВ X и У — некоррелированные.
  • 3. Если Цу/х = 1″ то между X и У существует функциональная зависимость.
  • 4. Если ry/x = |^| I то зависимость между У и X — линейная.

Замечание 11.6. Величину Лу/х"^2 используют в качестве индикатора отклонения регрессии от линейной.

Проверка статистической значимости корреляционного отношения осуществляется при помощи статистики F, которая имеет следующую формулу:

Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

где п — число наблюдений; / — число интервалов (групп) по грунпировочному признаку.

В теории вероятностей доказывается, что при условии отсутствия связи данная статистика распределена по закону Фишера ckx = ll, k2 = n-l степенями свободы. Вычисленную величину Fсравнивают с соответствующим критическим значением распределения Фишера. Если она не превосходит критического значения, то считают, что корреляционное отношение равно нулю, т. е. рассчитанное корреляционное отношение статистически незначимо.

Пример 11.2. В результате исследования 20 фирм, предоставляющих туристические услуги населению, были получены следующие данные о затратах на рекламу (X в у.е.) и количестве граждан (У), воспользовавшихся услугами каждой из фирм. Статистические данные заданы в виде корреляционной таблицы1:

(чел.).

С помощью корреляционного отношения оценим влияние затрат на рекламу на число граждан, воспользовавшихся услугами туристических фирм, проверим статистическую значимость корреляционного отношения при помощи величины F с доверительной вероятностью 0,95.

Решение. Число групп факторного признака X определяется затратами на рекламу. У нас имеется 5 групп фирм с различными затратами на рекламу. Для каждой группы вычислим среднюю групповую. Первая группа состоит из 3 фирм, которые тратят на рекламу 10 у.е. Для нее среднее число граждан, пользующихся туристическими услугами равно:

Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

Аналогично получаем.

Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

Вычисляем общее среднее результативного признака У:

Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

Вычисляем общую дисперсию результативного признака:

Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

Вычисляем межгрупповую дисперсию результативного признака:

Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

1 Напомним, что на пересечении строк и столбцов корреляционной таблицы находятся частоты пар признаков (X, У). Например, на пересечении строки X = 12 и столбца У = 970 стоит число 3, что означает, что из 20 фирм 3 фирмы тратят па рекламу 12 у.е., при этом их услугами пользуются 970 человек.

Теперь вычисляем корреляционное отношение по приведенной выше формуле (11.2): Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

Величина корреляционного отношения свидетельствует о высоком влиянии затрат на рекламу на число граждан, воспользовавшихся услугами туристических фирм.

Проверку статистической значимости корреляционного отношения осуществим при помощи статистики F аналогично проверке значимости коэффициента корреляции. Вначале вычисляем F по формуле (11.3), учитывая, что п = 20, / = 5:

Парная корреляция. Теория вероятностей и математическая статистика для экономистов.

Критическое значение находим с помощью функции MS Excel FPACnOBP для уровня значимости, а = 0,05 с числом степеней свободы kx = /—1=5 — 1= 4, k2 = п — / = 20 — 5 = 15.

Получим Етабл = 3,06. Эго же значение получим, воспользовавшись табл. П6 приложения.

Так как рассчитанное значение F превосходит критическое значение, то полученное корреляционное отношение статистически значимо.

Показать весь текст
Заполнить форму текущей работой