Bag-of-Words

Last updated 3 months ago

단어 가방 모델(Bag-of-Words Model)은 자연어 처리(NLP)에서 널리 쓰이는 간단하고 직관적인 로직입니다. 글씨 자료를 숫자형으로 대표하기 위해 쓰입니다. 이는 문맥 분류, 분석, 정보 회수에 자주 쓰이는 작업입니다.

구현이 간단하고 쉽습니다. 그리고 작거나 중간 크기의 데이터셋에 무리 없이 잘 작동합니다.

토큰화(tokenization)는 한 글자를 단어의 형태로 분리하는 것을 말합니다.
단어장 생성(vocabulary/dictionary creation)는 모든 개별적 단어를 말 뭉치로 만드는 사전을 만듭니다.
벡터화(vectorization)는 단어장에 있는 각 단어에 해당 하는 차원에 알맞은 값을 줍니다.
- 이때, 존재에 관해서 값을 주는 것을 존재 벡터화(presence vectorization), 단어의 빈도수에 맞은 카운트 값을 주는 것을 단어 빈도수(word’s frequency)입니다.

제가 직접 작성한 를 확인하세요!

Last updated 3 months ago