Latent Dirichlet Allocation1 토픽모델링(Topic Modeling)-잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)(1) 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)? LDA란 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지에 대한 확률모형 LDA는 토픽별 단어의 분포, 문서별 토픽의 분포를 모두 추정 데이터가 주어지면, LDA는 문서가 생성되던 과정을 역추적 하는 방식 LDA 개요 topic 위 의 예제에서 노란색 토픽은 유전자와 관련된 단어에 각 확률을 할당한 것을 볼 수 있다. 마찬가지로 분홍생은 생물학적 용어의 단어에 확률을 할당한 것이다. 노란색 토픽의 단어들이 문서에서는 가장 많이 나타나고 있는데 이는 유전자와 관련된 글일 것으로 추측 가능 하다. LDA를 간단히 정의 하면 유사한 토픽을 묶어 주제를 나누고 이때 특정토픽에 단어가 존재할 확률과, 문서에서 특정 토픽이 .. 2020. 9. 24. 이전 1 다음