На следующем этапе был выполнен корреляционный анализ данных. Был проведен расчет парных коэффициентов корреляции Пирсона между зависимой и объясняющей переменными (Таблица 5).
Таблица 5.
Корреляционный анализ парных коэффициентов корреляции между зависимой и факторными переменными.
|
| Коэффициент корреляции. |
Группа кредитного риска. | 0,152***. |
Просроченные платежи. | 0,014. |
Ставка рефинансирования. | 0,028***. |
Долг/доход. | 0,023**. |
Стаж работы. | 0,016. |
FICO. | — 0,146***. |
Кредитный стаж. | — 0,048***. |
Ставка процента. | 0,166***. |
Доход. | — 0,093***. |
Кредитная история (заявки). | 0,073***. |
Сумма займа. | — 0,023**. |
Тип владения жильем. | — 0,035***. |
Кредитная история (негативные события). | 0,063***. |
Возобновляемые кредиты. | — 0,026**. |
% использования возобновляемых кредитов. | 0,094***. |
Уровень безработицы. | 0,017. |
Значимость коэффициентов: (*) 10%, (**) 5%, (***) 1%.
Из Таблицы 5 Можно заметить, что результаты теста ANOVA согласуются с результатами корреляционного анализа, коэффициенты корреляции зависимой переменной с количеством просроченных платежей и уровнем безработицы незначимы на уровне значимости 10%, кроме того также на этом уровне значимости незначим коэффициент корреляции между вероятностью дефолта и опытом работы. Взаимосвязь этих переменной с вероятностью дефолта статистически незначима, поэтому эти переменные исключаются из дальнейшего анализа.
Для дальнейшего анализа были выбраны переменные, коэффициенты корреляции которых с зависимой переменной значимы на уровне значимости 1%. Таким образом, из анализа также были исключены переменные отношения долга к доходу, суммы займа и баланса возобновляемых кредитов.
Кроме того оставшиеся факторы были проверены на мультиколлинеарность. Для этого была построена корреляционная матрица парных коэффициентов корреляции (Приложение 6). В итоге оказалось, что три переменные: категория кредитного рейтинга, ставка процента и показатель FICO имеют сильную статистически значимую взаимосвязь (Таблица 6). Этот факт, объясняется тем, что как категория кредитного рейтинга, так и показатель FICO являются показателями кредитного риска заемщика, а ставка процента в свою очередь, определяется из уровня кредитного риска заемщика. В случае с компанией Lending Club, ставка процента напрямую зависит от группы кредитного рейтинга. Таким образом, при регрессионном анализе необходимо выбрать одну из этих переменных.
Таблица 6.
Фрагмент корреляционной матрицы факторных переменных.
|
| Группа кредитного рейтинга. | Ставка процента. | FICO. |
Группа кредитного рейтинга. | | | |
Ставка процента. | 0,957***. | | |
FICO. | — 0,765***. | — 0,785***. | |
Значимость коэффициентов: (*) 10%, (**) 5%, (***) 1%.