3. 회귀(Regression) > 3-3. 회귀진단
회귀진단
회귀진단이란 데이터가 회귀분석에 사용된 모형의 가정을 제대로 만족하고 있는가에 관해 확인하는 과정입니다.
회귀진단에는 총 4개의 회귀모형의 기본 가정이 있습니다.
선형성이란 독립변수와 종속변수 간의 선형 관계에 대한 가정입니다.따라서 독립변수와 종속변수 간 산점도(Scatter plot) 를 통해 선형성을 판단하게 됩니다.
위의 첫 번째 그림은 $x_1$과 $y_1$이 선형 관계라고 볼 수 있지만, 두 번째 그림은 $x_1$과 $y_1$이 선형 관계가 있다고 보기 어렵습니다.
선형성 가정을 만족하지 않을 때는 여러 가지 방법이 있습니다.
정규성이란 오차가 정규분포를 따라야 한다는 가정입니다. 잔차의 히스토그램을 통해 오차의 정규성을 판단할 수 있습니다.
위 그림에서 $e1$은 정규성 가정을 만족하지만, $e2$는 위배한다고 볼 수 있습니다. R에서는 Shapiro-Wilk Normality Test를 통해 판단할 수 있습니다. 정규성 가정이 만족하지 않는 경우, log나 root을 취해서 오차를 정규분포 형태로 취하게 만들 수 있습니다.
등분산이란 분산이 일정한 것이며, 즉 특정한 패턴 없이 고르게 분포한다는 의미입니다. 독립변수에 대한 잔차로 오차의 등분산성을 판단합니다.
왼쪽 그림은 대역폭(band width) 가 일정하지만, 오른쪽 그림은 점점 커지는 이분산이기 때문에 등분산성 가정을 만족하지 않습니다. 등분산성이 만족하지 않는 경우, 변수를 로그 변환한 트랜스로그(translog) 모형을 사용하면 해결되는 경우가 있습니다.
독립성이란 독립변수 간의 상관관계가 없이 독립성을 만족하는 것을 말합니다. 그러므로 단순 회귀분석은 해당하지 않고, 다중 회귀분석의 중요한 가정이 됩니다. 독립변수와의 상관성과 자기 상관성을 확인해 독립성을 판단하게 됩니다. Durbin-Watson 검정과 **ACF(AutoCorrelation Function)**를 통해 독립성을 판단할 수 있습니다.
회귀진단에서의 오차의 독립성을 검정하기 위한 방법입니다. 0에서 4 사이의 값을 가지는데, 0에 가까우면 양의 상관관계, 4에 가깝다면 음의 상관관계, 2에 가까우면 독립성을 만족한다고 할 수 있습니다.
위 그림의 경우 (a) 를 제외한 나머지는 패턴을 가지기 때문에 독립성 가정을 위배한다고 볼 수 있습니다. 독립성을 만족하지 않는 경우, 즉 다중공선성(Multicollinearity)이 생긴다면 제거해주어야 합니다.
다중공선성 문제는 독립변수 간의 강한 상관관계가 나타나는 현상입니다. 다중공선성은 독립변수의 산점도, heatmap, 상관계수 행렬로 파악이 가능합니다. 다중공선성이 존재하면 회귀계수의 추정이 불안정해지기 때문에, 줄이기 위해 노력해야 합니다. VIF(Variance Influence factor)가 10보다 크면, 다중공선성이 존재한다고 판단합니다. 단, VIF 값이 크더라도 해당 독립변수가 통계적으로 유의한다면 제거하지 않는 것이 바람직하다고 볼 수 있습니다.
다중 공선성을 제거하는 방법에는 크게 2가지 방법이 있습니다.