Помощь в написании студенческих работ
Антистрессовый сервис

Корреляционный анализ данных

РефератПомощь в написанииУзнать стоимостьмоей работы

Из Таблицы 5 Можно заметить, что результаты теста ANOVA согласуются с результатами корреляционного анализа, коэффициенты корреляции зависимой переменной с количеством просроченных платежей и уровнем безработицы незначимы на уровне значимости 10%, кроме того также на этом уровне значимости незначим коэффициент корреляции между вероятностью дефолта и опытом работы. Взаимосвязь этих переменной… Читать ещё >

Корреляционный анализ данных (реферат, курсовая, диплом, контрольная)

На следующем этапе был выполнен корреляционный анализ данных. Был проведен расчет парных коэффициентов корреляции Пирсона между зависимой и объясняющей переменными (Таблица 5).

Таблица 5.

Корреляционный анализ парных коэффициентов корреляции между зависимой и факторными переменными.

Коэффициент корреляции.

Группа кредитного риска.

0,152***.

Просроченные платежи.

0,014.

Ставка рефинансирования.

0,028***.

Долг/доход.

0,023**.

Стаж работы.

0,016.

FICO.

— 0,146***.

Кредитный стаж.

— 0,048***.

Ставка процента.

0,166***.

Доход.

— 0,093***.

Кредитная история (заявки).

0,073***.

Сумма займа.

— 0,023**.

Тип владения жильем.

— 0,035***.

Кредитная история (негативные события).

0,063***.

Возобновляемые кредиты.

— 0,026**.

% использования возобновляемых кредитов.

0,094***.

Уровень безработицы.

0,017.

Значимость коэффициентов: (*) 10%, (**) 5%, (***) 1%.

Из Таблицы 5 Можно заметить, что результаты теста ANOVA согласуются с результатами корреляционного анализа, коэффициенты корреляции зависимой переменной с количеством просроченных платежей и уровнем безработицы незначимы на уровне значимости 10%, кроме того также на этом уровне значимости незначим коэффициент корреляции между вероятностью дефолта и опытом работы. Взаимосвязь этих переменной с вероятностью дефолта статистически незначима, поэтому эти переменные исключаются из дальнейшего анализа.

Для дальнейшего анализа были выбраны переменные, коэффициенты корреляции которых с зависимой переменной значимы на уровне значимости 1%. Таким образом, из анализа также были исключены переменные отношения долга к доходу, суммы займа и баланса возобновляемых кредитов.

Кроме того оставшиеся факторы были проверены на мультиколлинеарность. Для этого была построена корреляционная матрица парных коэффициентов корреляции (Приложение 6). В итоге оказалось, что три переменные: категория кредитного рейтинга, ставка процента и показатель FICO имеют сильную статистически значимую взаимосвязь (Таблица 6). Этот факт, объясняется тем, что как категория кредитного рейтинга, так и показатель FICO являются показателями кредитного риска заемщика, а ставка процента в свою очередь, определяется из уровня кредитного риска заемщика. В случае с компанией Lending Club, ставка процента напрямую зависит от группы кредитного рейтинга. Таким образом, при регрессионном анализе необходимо выбрать одну из этих переменных.

Таблица 6.

Фрагмент корреляционной матрицы факторных переменных.

Группа кредитного рейтинга.

Ставка процента.

FICO.

Группа кредитного рейтинга.

Ставка процента.

0,957***.

FICO.

— 0,765***.

— 0,785***.

Значимость коэффициентов: (*) 10%, (**) 5%, (***) 1%.

Показать весь текст
Заполнить форму текущей работой