Учитывая последствия мультиколлинеарности исходных данных для оценок параметров уравнения регрессии, важно уметь распознавать это явление. Однако, к сожалению, «точных количественных критериев для определения наличия/отсутствия реальной мультиколлинеарности не существует. Тем не менее существуют некоторые эвристические рекомендации по выявлению мультиколлинеарности»[1].
В первую очередь обычно анализируют матрицу парных коэффициентов корреляции объясняющих факторов. Если в ней встречаются элементы, но модулю превосходящие 0,75, то это может свидетельствовать о мультиколлинеарности.
Однако коэффициенты корреляции позволяют выявить только парные связи между переменными. Но близкая к линейной зависимость может быть между большим числом факторов. Для ее нахождения для каждого фактора Xj, j = 1,…, к, вычисляют другой показатель — VIF (Xj) (variance inflation factor — показатель вздутия дисперсии), рассчитываемый по формуле.
где Щ — коэффициент множественной детерминации в регрессии фактора Xj на все остальные факторы. Если хотя бы один из показателей VIF (Xj) достаточно велик (больше 6), то это может свидетельствовать о наличии мультиколлинеарности.
Как отмечалось ранее, о мультиколлинеарности может свидетельствовать близкий к нулю определитель матрицы X' X. Однако значение определителя зависит от единиц, в которых измеряются переменные, входящие в матрицу X. Поэтому весьма популярен другой показатель — параметр обусловленности матрицы X7 X:
где Xmax, A.min — соответственно наибольшее и наименьшее собственные значения матрицы Х7Х. Если значение CN (от англ, conditional number) достаточно велико (больше 30), то это может свидетельствовать о наличии мультиколлинеарности.
- [1] См. работу [3, с. 654].