머신러닝
지도학습 모델 - 분류기의 평가
핸들이없는8톤트럭
2022. 8. 20. 19:08
반응형
분류기 평가 방법의 필요성
손실 함수는 학습 과정에서 수학적으로 유리하지만, 성능 평가 지표로는 부적절합니다. 알고리즘에 따라 사용되는 손실 함수는 다를 수 있습니다. 손실 함수가 낮은 것이 정확도를 보장하지는 않습니다. 또한, 수학적 최적화 목표에는 적합하나 비즈니스 목표와는 동떨어질 수 있습니다. 그래서 평가 지표(metric)는 분류기가 사용되는 사용자 시나리오에서 비즈니스 목표를 정의하는 데에 사용됩니다. 경영자나 사용자 입장에서 이해하기 쉬운 특징을 가지고 있습니다.
오차 행렬(Confusion Matrix)
혼동 행렬이라고도 불리는데, 실제 클래스와 예측 클래스 결과를 행렬 형식으로 나열한 것입니다. 오차 행렬을 기반으로 하여 다양한 성능 지표를 계산할 수 있습니다.
정밀도와 재현율(Precision and Recall)
오차율 / 정확도와 함께 분류 모델의 평가에 많이 사용되는 평가 지표입니다. 정밀도는 맞다고 예측한 것 중에 맞춘 비율을 의미합니다. 재현도는 전체 실제 양성 클래스 중에서 찾아낸 비율을 의미합니다.
F-1 Score
정밀도와 재현도를 동시에 평가하기 위한 평가 지표입니다. 무조건 양성 클래스로 예측하면 재현도가 100%가 되며, 무조건 음성 클래스로 예측하면 정밀도가 100%가 되는 문제가 있습니다. 정밀도와 재현도의 조화 평균으로 계산하게 됩니다.
ROC 곡선(Receiver Operating Characteristic Curve)
분류기의 단편적인 성능 뿐 아니라, 전반적인 성능을 평가하는데 사용됩니다. 문턱값을 바꾸어가며, 평가를 진행하며 분류기 성능을 나타냅니다.
반응형