반응형
KNN Classifier (N=3) (features_D=2) (non-parametric classifier)
decision boundary표시. N의 값이 증가할수록 일반화 되어 smooth한 경계선이 생성됨. N=data set이 되면, 많은 class가 있는 data set으로 모든 예측값이 같아짐. 적절한 균형 필요.
N=1 일때, 훈련 데이터에 예측정확도는 100%(모든 경계가 각 훈련데이터로 만들어짐.)(overfit)
N이 9가넘어가면서 테스트셋에대한 정확도도 떨어짐(underfit)
KNN Regression (N=3) (features_D=1)
N이 증가할 수록 마찬가지로 일반화된다.
핵심 parameter
=> 1. 데이터 포인터간의 거리 측정법 (주로 L2 distance 유클리디안.)
*L1의 경우 manhattan distance (basis에 종속적임) 좌표별로 절댓값계산 basis가 변하면 값이바뀜
각 성분의 의미가 유의 할때 사용하면 유리하다. ex) x1=신장, x2 = 성별, x3 = 나이...등
*L2의 경우 절댓값을 씌워서 차의 제곱 각성분의 의미가 모호할시에 사용하기에 유리함
가장 현명한 방법은 두가지 모두 수행해보고 결정하는것. (CS231N 2강 참고)
2. 이웃의 수 (N)
데이터의 전처리가 매우 중요한 알고리즘이다.
반응형
'Machine Learning' 카테고리의 다른 글
Naive Bayes, Decision Tree (0) | 2019.01.23 |
---|---|
Linear Model (0) | 2019.01.22 |
Restricted Boltzmann Machine (0) | 2019.01.19 |
Bias term의 필요성 (0) | 2019.01.13 |
Optimization 방법론 (0) | 2019.01.12 |