본문 바로가기
Data analysis

KNN(K-Nearest Neighbor), 최근접 이웃법(1)

by 5bluewhale 2020. 7. 28.

 

 

최근접 이웃법(Nearest Neighbor)

최근접 이웃법이란?

  • 지도 학습 알고리즘으로, 범주를 알지 못하는 예제의 범주를 분류하기위한 알고리즘.
  • 최근접 이웃 분류기(KNN)는 범주를 알지 못하는 자료에서 범주를 분류하는 방법.
  • 새로운 데이터를 추가 할 경우 새로운 데이터가 가장 가까이 있는 범주로 분류하는 알고리즘.

다음 예제 그림을 통해 간략히 알아보자.

KnnClassification
  • 가장 간단한 예로, 위 그림에서 새로 들어온 "?" 데이터가 분홍색 로 분류될 것인가 파란색 로 분류될것인가를 결정하는 것이 최근접 이웃법이다.

  • 단순히 "?" 데이터에서 가장 가까운 분홍색 로 분류 하는게 옳은 분류일까?


KnnClassification
  • "?" 데이터는 분명히 분홍색 와 가장 가까운 위치에 속한다.
  • 그런데 동그라미의 영역을 조금 넓혀서 본다면 파란색 에 둘러쌓여 있음을 알 수 있다.
  • KNN에서 k는 주변의 데이터 갯수를 의미하는데, 위그림에서 k=1일 경우는 분홍색 로 k=4일 경우는 파란색 로 분류 되는 방식이다.

이처럼, KNN 알고리즘은 새로운 데이터가 주어졌을때 K개의 근접 요소를 찾아 더 많이 일치하는 것으로 분류하는 알고리즘이다.

  • 최근접이웃(KNN)의 장점

    • 단순하며 효율적이다.
    • 데이터 분산에 대한 추정을 만들 필요가 없다.
    • 빠른 훈련 단계
  • 최근접이웃(KNN)의 단점

    • 모델을 생성하지 않는다.
    • 느린 분류단계
    • 많은 메모리 필요
    • 명목형 속성과 결측 데이터는 추가적인 처리가 필요하다.

출처: Machine Learning with R [Brett Lantz]


 

728x90
반응형