본문 바로가기
반응형

머신러닝12

지도학습 - 초매개변수 최적합 모델의 검증 방법 모델의 학습 성능 뿐만 아니라, 실사용 시나리에서의 성능을 평가하는 것도 중요합니다. 전체 데이터셋을 학습용과 검증용으로 나누어 사용합니다. 모델 검증을 위한 성능 평가 지표는 다음과 같습니다. - 평가 지표(evaluation metric) : 예측 상황에서 요구되는 모델의 성능으로, 비즈니스 목표와 연관이 깊습니다. 홀드아웃 교차 검증(Holdout Cross - Validation) 검증과 개선을 반복하면 검증 데이터셋에 과대적합되는 단점을 해결할 수 있습니다. 데이터셋을 학습용, 검증용, 테스트용으로 나누어 사용합니다. 테스트 데이터셋은 모델의 일반화 성능을 추정하는 데에만 사용합니다. 홀드아웃 교차 검증의 특징으로는 공정한 비교 평가를 위해 대회 등에서 주로 사용하며, 데이터셋.. 2022. 8. 20.
지도학습 모델 - 분류기의 평가 분류기 평가 방법의 필요성 손실 함수는 학습 과정에서 수학적으로 유리하지만, 성능 평가 지표로는 부적절합니다. 알고리즘에 따라 사용되는 손실 함수는 다를 수 있습니다. 손실 함수가 낮은 것이 정확도를 보장하지는 않습니다. 또한, 수학적 최적화 목표에는 적합하나 비즈니스 목표와는 동떨어질 수 있습니다. 그래서 평가 지표(metric)는 분류기가 사용되는 사용자 시나리오에서 비즈니스 목표를 정의하는 데에 사용됩니다. 경영자나 사용자 입장에서 이해하기 쉬운 특징을 가지고 있습니다. 오차 행렬(Confusion Matrix) 혼동 행렬이라고도 불리는데, 실제 클래스와 예측 클래스 결과를 행렬 형식으로 나열한 것입니다. 오차 행렬을 기반으로 하여 다양한 성능 지표를 계산할 수 있습니다. 정밀도와 재현율(Preci.. 2022. 8. 20.
지도 학습 - 다중 분류기 다중 분류(Multi-class Classification) 세 종류 이사의 클래스를 구분하는 분류 기법입니다. 기본적으로 다중 분류를 지원하는 알고리즘은 앞서 배운 의사결정나무, 소프트맥스 회귀(softmax regression) 등이 있습니다. 이진 분류(binary classification)을 조합하여 다중 분류하는 방법은 다음과 같습니다. - One vs Rest : 각 클래스에 대해 긍정-부정으로 학습하는 방법입니다.(N개의 이진 분류기 학습) - One vs One : 모든 클래스에 대해 상대적인 확률을 학습하는 방법입니다. 소프트맥스 회귀(Softamx Regression) 로지스틱 회기를 다중 분류기로 확장하는 기법입니다. 소프트맥스 함수는 딥러닝의 다중 분류에 주로 사용합니다. 2022. 8. 20.
지도학습 모델 - 커널 서포트 벡터 머신 커널 서포트 벡터 머신(Kernel SVM) 선형적으로 구분되지 않는 데이터셋에 적용하기 위한 모델입니다. 고차원 공간으로 mapping하여 분리 가능한 초평면을 결정합니다. 원본 특징 공간에서 나타낼 경우 비선형 결정 경계(nonlinear decision boundary)가 됩니다. 학습 데이터가 선형적으로 분리가 되지 않는 경우, 일반적인 SVM으로는 정상적인 학습이 되지 않습니다. 커널 SVM을 이용할 경우, 비선형 결정 경계를 사용할 수 있어, 다양한 형태의 데이터셋에 적용이 가능합니다. 커널 트릭(Kernel Trick) 고차원 공간으로의 매핑을 수학적으로 유리하게 풀어내는 방법입니다. 고차원 공간 매핑을 명시적으로 할 경우, 연산량이 매우 증가하게 됩니다. SVM의 쌍대 형식(dual for.. 2022. 8. 19.
반응형