KNN Classifier, Regression

KNN Classifier (N=3) (features_D=2) (non-parametric classifier)

decision boundary표시. N의 값이 증가할수록 일반화 되어 smooth한 경계선이 생성됨. N=data set이 되면, 많은 class가 있는 data set으로 모든 예측값이 같아짐. 적절한 균형 필요.

N=1 일때, 훈련 데이터에 예측정확도는 100%(모든 경계가 각 훈련데이터로 만들어짐.)(overfit)

N이 9가넘어가면서 테스트셋에대한 정확도도 떨어짐(underfit)

KNN Regression (N=3) (features_D=1)

N이 증가할 수록 마찬가지로 일반화된다.

핵심 parameter

=> 1. 데이터 포인터간의 거리 측정법 (주로 L2 distance 유클리디안.)

*L1의 경우 manhattan distance (basis에 종속적임) 좌표별로 절댓값계산 basis가 변하면 값이바뀜

각 성분의 의미가 유의 할때 사용하면 유리하다. ex) x1=신장, x2 = 성별, x3 = 나이...등

*L2의 경우 절댓값을 씌워서 차의 제곱 각성분의 의미가 모호할시에 사용하기에 유리함

가장 현명한 방법은 두가지 모두 수행해보고 결정하는것. (CS231N 2강 참고)

2. 이웃의 수 (N)

데이터의 전처리가 매우 중요한 알고리즘이다.

Naive Bayes, Decision Tree (0)	2019.01.23
Linear Model (0)	2019.01.22
Restricted Boltzmann Machine (0)	2019.01.19
Bias term의 필요성 (0)	2019.01.13
Optimization 방법론 (0)	2019.01.12

Dev