IT

분류 모델 평가 지표 총정리 (feat. Confusion matrix and Roc Curve)

zi0_0 2025. 4. 7. 19:45

Confusion Matrix 

 

  • True Positive (TP): 실제값이 Positive이고, 모델도 Positive로 예측한 경우
  • True Negative (TN): 실제값이 Negative이고, 모델도 Negative로 예측한 경우
  • False Positive (FP): 실제값이 Negative인데, 모델이 Positive로 잘못 예측한 경우 (Type I Error)
  • False Negative (FN): 실제값이 Positive인데, 모델이 Negative로 잘못 예측한 경우 (Type II Error)

TP & TN : 실제값과 같은 값으로 예측
FP & FN : 실제값과 다른 값으로 예측 

 

 

Type I / Type II Error

  • Type I Error (제 1종 오류) : 잘못된 기각 
  • Type II Error (제 2종 오류) : 잘못된 채택
  구분 설명 예시 (질병 예측 기준) 
FP (False Positive) Type I Error 실제로는 참인데 거짓으로 판단 정상인데 양성으로 잘못 예측
FN (False Negative) Type II Error 실제로는 거짓인데 참이라고 판단 환자인데 음성으로 잘못 예측

* 일반적으로 Type II Error가 더 위험한 경우가 많음 

 

 

평가 지표 수식 정리

 

 

현실에서는 Accuracy는 기본적으로 많이 쓰고, F1-score을 많이 사용한다 

precision, recall 둘 중 하나가 극도록 낮을 때에도 지표에 그것이 잘 반영되도록 하기 위해, 
또한 두 지표를 균형 있게 반영하기 위해 사용 

 

 

실무 적용 시 해석 예시

 

 

ROC Curve 

: Receiver Operating Characteristic Cureve 
모델의 분류 기준 (threshold)을 변화시키며, Recall과 Fall-out을 시각화한 곡선 
  • 다양한 임계값 설정에서 분류 모델의 성능을 평가하기 위해 사용 
  • ROC 커브가 좌상단에 붙을 수록 더 좋은 분류기임을 의미 
  • ROC 곡선은 클래스 분포의 변화에 불변 

출처: EVIDENTLY AI (https://www.evidentlyai.com/classification-metrics/explain-roc-curve)

 

AUROC

: Area Under ROC
ROC Curve 아래 면적을 통해 모델 성능을 하나의 수치로 정량화한 것 
  • 샘플의 분포에 변화가 생기더라도 급격한 변화를 보이지 않음
  • 안정적으로 모델 성능을 테스트할 수 있음 

 

 

그럼 F1-score과 AUROC의 차이는 무엇일까?

둘다 2개의 지표를 조합해서 평가한다는 것에 의의가 있음. 

 

하지만 `F1-score`은 하나의 임계치만을 기준으로 계산한 것이지만, 
`AUROC`는 임계값을 변화시키면서 전체 성능을 평가한 것이다. 

 

따라서, 

  • Best 임계값을 이미 알고 있을 때는 `F1-score`을 사용하고, 
  • Best 임계값을 모르고 전반적인 경향을 보고 싶을 때는 `AUROC`를 사용하면 된다!!!
Copy