3. 회귀(Regression) > 3-4. 로지스틱 회귀분석(Logistic Regression)
로지스틱 회귀분석(Logistic Regression)
회귀분석에서는 연속형 변수일 때 사용 가능하다고 언급했습니다. 하지만, 종속변수가 범주형 변수라면, 회귀분석은 적절하지 않습니다.
이때, 로지스틱 회귀분석으로 주어진 데이터를 분류의 방법으로 해결할 수 있습니다. 따라서 로지스틱 회귀분석은 이름은 회귀분석이지만, 분류와 실제로는 더 가깝습니다. 예를 들어, 스팸 메일 판단(스팸/정상), 제품 불량 여부(정상/불량), 고객 이탈 여부(이탈/잔류) 등의 사례가 있습니다.
로지스틱 함수에 대해 알기 위해서는 우선 시그모이드(Sigmoid) 함수에 대해 알아야 합니다. 시그모이드(Sigmoid) 함수는 정의역은 실수 전체이며, 유한한 범위 내에서 단조 증가하는 함수입니다.
로지스틱 함수는 위의 그림과 같이 음의 무한대에서 양의 무한대까지의 실숫값을 0과 1 사이의 실숫값으로 일대일 대응시키는 시그모이드 함수입니다.
${Odds = \frac{\mu}{1-\mu}}$
승산비(Odds ratio) 는 실패 확률($1-\mu$) 대비 성공 확률($\mu$)의 비입니다. 따라서, 0부터 1 사이의 값만 가지는 u를 승산비로 변환하면 0부터 양의 무한대까지의 값을 가질 수 있습니다. 오즈비 공식을 통해, 종속변수의 범주가 1이 성공이고, 0이 실패인 이분형을 가정할 때, P가 0.8이라면, 오즈비는 (0.8(1-0.8))=4가 되고, 이것은 성공할 확률이 실패할 확률보다 4배 높다는 의미를 가지게 됩니다.
${z = logit(odds) = log(\frac{\mu}{1-\mu})}$
로짓 변환(Logit Transformation) 은 승산비에 log를 취하는 변환입니다. 따라서, 음의 무한대부터 양의 무한대까지의 값을 가질 수 있습니다.
${logitstic(z) = \mu(z) = \frac{1}{1 + exp(-z)}}$
로지스틱(Logistic) 함수는 음의 무한대부터 양의 무한대까지의 값을 가지는 입력변수를 0부터 1 사이의 값을 가지는 출력 변수로 변환한 것입니다.
z가 분류 모형의 판별함수(decision function) 의 역할을 하게 됩니다.
따라서
회귀 분석에서는 회귀계수의 추정을 중요하게 여기기에 다시 한번 짚고 넘어가겠습니다. 선형 회귀에서의 회귀계수는 독립변수가 1만큼 증가할 때 독립변수의 변화량을 나타내며, 로지스틱 회귀에서는 독립변수가 1만큼 증가할 때 log(Odds)의 변화량을 나타냅니다. 선형 회귀에서의 회귀계수 추정은 최소제곱합(LSE)을 이용하고, 로지스틱 회귀는 최대 우도 추정법(MLE)을 이용합니다.