KNN(K-Nearest Neighbor)-1
2020-07-28
최근접 이웃법(Nearest Neighbor)
최근접 이웃법이란?
지도 학습 알고리즘으로, 범주를 알지 못하는 예제의 범주를 분류하기위한 알고리즘.
최근접 이웃 분류기(KNN)는 범주를 알지 못하는 자료에서 범주를 분류하는 방법.
새로운 데이터를 추가 할 경우 새로운 데이터가 가장 가까이 있는 범주로 분류하는 알고리즘.
다음 예제 그림을 통해 간략히 알아보자.
-
가장 간단한 예로, 위 그림에서 새로 들어온
"?"
데이터가 분홍색●
로 분류될 것인가 파란색▲
로 분류될것인가를 결정하는 것이 최근접 이웃법이다. -
단순히
"?"
데이터에서 가장 가까운 분홍색●
로 분류 하는게 옳은 분류일까?
"?"
데이터는 분명히 분홍색●
와 가장 가까운 위치에 속한다.- 그런데 동그라미의 영역을 조금 넓혀서 본다면 파란색
▲
에 둘러쌓여 있음을 알 수 있다. - KNN에서 k는 주변의 데이터 갯수를 의미하는데, 위그림에서 k=1일 경우는 분홍색
●
로 k=4일 경우는 파란색▲
로 분류 되는 방식이다.
이처럼, KNN 알고리즘은 새로운 데이터가 주어졌을때 K개의 근접 요소를 찾아 더 많이 일치하는 것으로 분류하는 알고리즘이다.
-
최근접이웃(KNN)의 장점
- 단순하며 효율적이다.
- 데이터 분산에 대한 추정을 만들 필요가 없다.
- 빠른 훈련 단계
-
최근접이웃(KNN)의 단점
- 모델을 생성하지 않는다.
- 느린 분류단계
- 많은 메모리 필요
- 명목형 속성과 결측 데이터는 추가적인 처리가 필요하다.
출처: Machine Learning with R [Brett Lantz]
728x90
반응형
'Data analysis' 카테고리의 다른 글
토픽모델링(Topic Modeling)-잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)(1) (0) | 2020.09.24 |
---|---|
토픽모델링(Topic Modeling)-잠재의미분석(Latent Semantic Analysis, LSA) (0) | 2020.08.19 |
N-gram (0) | 2020.08.07 |
Bayesian Network (0) | 2020.05.26 |