본문 바로가기

Machine Learning

KNN Classifier, Regression

반응형

KNN Classifier (N=3) (features_D=2) (non-parametric classifier)


decision boundary표시. N의 값이 증가할수록 일반화 되어 smooth한 경계선이 생성됨. N=data set이 되면, 많은 class가 있는 data set으로 모든 예측값이 같아짐. 적절한 균형 필요.

N=1 일때, 훈련 데이터에 예측정확도는 100%(모든 경계가 각 훈련데이터로 만들어짐.)(overfit)
N이 9가넘어가면서 테스트셋에대한 정확도도 떨어짐(underfit)



KNN Regression (N=3) (features_D=1)


N이 증가할 수록 마찬가지로 일반화된다.

핵심 parameter
=>   1. 데이터 포인터간의 거리 측정법 (주로 L2 distance 유클리디안.)
           *L1의 경우 manhattan distance  (basis에 종속적임) 좌표별로 절댓값계산 basis가 변하면 값이바뀜
             각 성분의 의미가 유의 할때 사용하면 유리하다. ex) x1=신장, x2 = 성별, x3 = 나이...등
           *L2의 경우 절댓값을 씌워서 차의 제곱 각성분의 의미가 모호할시에 사용하기에 유리함
           가장 현명한 방법은 두가지 모두 수행해보고 결정하는것. (CS231N 2강 참고)
        2. 이웃의 수 (N)
데이터의 전처리가 매우 중요한 알고리즘이다.



반응형

'Machine Learning' 카테고리의 다른 글

Naive Bayes, Decision Tree  (0) 2019.01.23
Linear Model  (0) 2019.01.22
Restricted Boltzmann Machine  (0) 2019.01.19
Bias term의 필요성  (0) 2019.01.13
Optimization 방법론  (0) 2019.01.12