본문 바로가기
정보

로지스틱 회귀 분석 - 원리, 활용, 장단점

by votemall 2024. 6. 24.

1. 로지스틱 회귀 분석의 원리

 

 

  • 로지스틱 회귀 분석이란?
  • 로지스틱 회귀 분석은 종속 변수가 이진형(0 또는 1) 데이터인 경우에 사용되는 통계 분석 기법이다. 예를 들어, 스팸 메일 여부 예측과 같은 이진 분류 문제에서 효과적으로 활용된다.
  • 로지스틱 함수 (S 자 모양 곡선)
  • 로지스틱 회귀는 로지스틱 함수를 사용하여 데이터의 종속 변수가 특정 클래스에 속할 확률을 예측한다. 로지스틱 함수는 S 모양을 갖는 곡선 형태로, 입력 변수와 파라미터 간의 관계를 설명하는데 사용된다.
  • 학습 과정
  • 로지스틱 회귀 분석에서는 최대 우도 추정법을 사용하여 모델의 파라미터를 학습한다. 주어진 데이터에 가장 적합한 모델 파라미터를 찾기 위해 우도 함수를 최대화하는 방향으로 학습이 진행된다.
  • 판별 경계 (Decision Boundary)
  • 로지스틱 회귀 모델을 통해 예측된 확률 값을 기준으로 판별 경계를 설정하여 데이터를 분류한다. 판별 경계는 0.5 기준으로 설정되며, 이를 기반으로 데이터 포인트를 이진으로 분류한다.
  • 정규화 (Regularization)
  • 로지스틱 회귀 분석에서는 정규화를 통해 모델의 복잡도를 조절할 수 있다. L1 또는 L2 정규화를 적용하여 과적합을 방지하고 모델의 일반화 성능을 향상시킬 수 있다.

 

 

2. 로지스틱 회귀 분석의 활용

 

Classification

 

  • 마케팅 분석: 소비자 행동 예측을 통해 마케팅 전략 수립
  • 신용 점수 모델: 개인 신용 등급 분류를 위한 신용 평가
  • 의학 분야: 질병 발생 가능성을 예측하거나 환자 치료 반응 분석
  • 금융 분야: 대출 채무 불이행 위험 평가 및 사기 탐지
  • 인사 이탈 예측: 직원 이직 가능성을 사전에 파악하여 대응

 

 

3. 로지스틱 회귀 분석의 장단점

 

Generalization

 

  • 장점:
    • 해석이 용이: 결과를 해석하기 쉽고 직관적이다.
    • 이진 분류에 적합: 이진 분류 문제에 적합하며 확률을 예측할 수 있다.
    • 과적합 방지: Regularization을 통해 과적합을 방지할 수 있다.
    • 이산형 결과를 예측: 범주형 결과를 예측하는 데 효과적이다.
  • 단점:
    • 선형 결정 경계: 선형 결정 경계만을 가진다.
    • 고차원 데이터에서 성능 하락: 고차원 데이터에서 성능이 하락할 수 있다.
    • 특성 상호작용 고려가 어려움: 특성 간 상호작용을 고려하기 어렵다.
    • 직선성 가정: 데이터가 직선적인 관계를 갖는다는 가정이 필요하다.