Tokenization and Stemming, Lemmatization, Stop-word Removal: Foundational Works of NLP

토큰화(tokenization)는 문자열을 더 작은 단위인 토큰으로 나누는 과정입니다. 이는 모델의 고정된 어휘 사전에서 발생하는 등장하지 않는 단어(out-of-vocabulary) 문제를 해결하고 연산 비용을 절감하기 위한 핵심적인 전처리 과정입니다. 이들은 크게 세 가지로 분류되며, 현대의 자연어 처리 모델(BERT, GPT, T5, Llama 등)은 대부분 보조사 기반 토큰화를 채택합니다.

단어 기반 토큰화(word-based tokenization)는 "hello, world"를 ["hello", "world"]로 분리합니다.
- 지나치게 큰 단어장 공간을 차지하는 단점이 있으며, 독일어나 터키어처럼 긴 형태의 언어와 사용자의 맞춤법 오류 및 OOV에 매우 취약합니다.
캐릭터 기반 토큰화(character-based tokenization)는 "hi"를 ["h", "i"]로 분리합니다.
- 극도로 작은 단어장 공간을 사용하고 OOV를 처리할 필요가 없습니다. 하지만 과도한 계산력이 필요하며 단어의 의미를 제대로 처리하지 못하는 경향이 있습니다.
보조사 기반 토큰화(sub-word-based tokenization)는 "unhappiness"를 ["un", "happiness"]로 분리합니다.
- 캐릭터 기반과 단어 기반의 중간적 특성을 가지며, 자주 사용하지 않는 단어를 보조사로 나눠 OOV 문제를 해결합니다.

[",", "?", "!", "\", "~"] 등의 기호를 정지 단어(stop word)라 하며 의미상 중요도가 떨어져 이를 제거하는 과정을 stop word removal라 합니다.

다양한 보조사 기반 토큰화 알고리즘과 채택 사례

보조사 기반 토큰화는 크게 다음의 네 가지 알고리즘으로 대표될 수 있습니다:

BPE, Byte Pair Encoding
- 예시: GPT, RoBERTa
WordPiece
- 예시: BERT, DistilBERT
Unigram LM
- 예시: XLNet, ALBERT
SentencePiece
- 예시: T5, Llama

Understanding Mechanism of Sub-word Tokenization through Byte Pair Encoding

BPE(Byte Pair Encoding)는 원래 압축 알고리즘으로 개발되었으나, 현재는 자연어 처리 분야에서 널리 활용되고 있습니다.

// example of BPE tokenization
corpus: "low, lower, newest"
after BPE: ["low", "low", "##er", "new", "##est"]

먼저 문자 수준의 토큰화를 진행합니다.
가장 자주 등장하는 토큰 쌍을 순차적으로 병합합니다.
설정한 단어장 크기에 도달하면 병합 과정을 종료합니다.

보조사 연속 접두사 ##

BPE와 WordPiece 알고리즘에서 ## 접두사는 보조사의 연속성을 나타냅니다. 이는 해당 보조사가 앞선 토큰과 반드시 결합되어야 함을 의미합니다. 이러한 접두사를 활용하면 원형 단어와 분리된 보조사 간의 관계를 명확히 하면서 단어의 본래 의미를 유지할 수 있습니다. 또한 단어장의 크기를 최적화하면서도 모델이 단어의 의미를 정확히 파악할 수 있게 합니다.

WordPiece 역시 설명된 BPE와 같은 아이디어를 사용하지만, 빈도수가 아닌 우도(likelihood) 확률을 기준으로 합니다.
Unigram LM은 각 단어에 개별적인 우도 점수(likelihood score)를 부여하고, 이에 기반하여 내림차순으로 단어장을 구성합니다.

자연어 처리 모델에서의 다언어

GPT나 BERT와 같은 모델은 영어가 아닌 언어나 복잡한 형태의 언어를 더 작은 단위로 분리하여 직접 처리하며, 별도의 번역 과정 없이 원문을 그대로 다룹니다. GPT-3/4는 훈련 데이터셋의 10~20%를 비영어 자료로 구성하는데, 이를 diverse corpora라고 합니다. 그러나 이러한 구성에도 불구하고 영어 외의 언어에서는 성능 차이가 불가피합니다.

Understanding Stemming/Lemmatization Through BOW Modeling: The Legacy Methods of Natural Language Processes

스테밍(stemming) 또는 리멘타제이션(lemmatization)은 단어를 원형으로 변환해 단어장(vocabulary)을 최적화하기 위한 과정입니다.

엔코더(encoder): 엔코더는 주어진 입력을 토큰화한 후, 이를 전산적/수학적 대표로 변환합니다.
디코더(decoder): 디코더는 주어진 출력을 자연어로 변환합니다.

하지만 이러한 처리 방식은 각 단어의 미묘한 의미 차이를 포착해야 하는 현대의 자연어 처리 모델에서는 거의 사용되지 않습니다. 예를 들어 GPT는 스테밍/리멘타제이션 대신 보조사 토큰화만을 활용합니다.

단어 주파수

단어 주파수(frequencies of words)는 문장의 내용을 강조하기 위한 개념으로, 자주 사용되는 단어의 빈도를 측정하는 척도입니다. 예를 들어, is와 같은 단어는 빈번히 등장해 주파수가 높지만, 실질적인 내용 변화를 주지 못해 큰 의미가 없습니다.

이를 통해 주파수가 높은 단어를 처리함으로써 주어진 문장의 내용을 평균화할 수 있습니다.
의미 없는 단어를 분석에서 제외하기 위해 이진 가중(binary weight)이 사용될 수 있습니다. 이는 불필요한 단어에 0을, 그 외의 단어에 1을 곱하는 방식으로 구현됩니다.

임베딩과 임베딩 공간

임베딩(embedding)은 자연어 처리를 위해 텍스트의 단어나 구를 숫자 벡터로 변환하는 기술입니다. 단어의 의미를 임베딩 공간(embedding space) 상의 위치로 전환합니다. 어떤 엔코더에선유사한 단어는 문맥적 유사성에 따라 서로 가깝게 위치합니다.

Bag-of-Words Modeling

BOW 모델링(Bag Of Words modeling)는 각 단어를 벡터화 하는 자연어 처리 모델의 한 계급입니다—모든 단어를 포함한 가방을 통해 글자를 대표하려 합니다—이런 모델링을 정의하고 이해하기 위해 다음을 살펴봅니다.

다음 두 문장이 주어집니다. 이 모델은 이를 BOW 객체로 변환하려 합니다.
- "John likes to watch movies. Mary likes movies too"
- "Mary also likes to watch football games"
이 문장들은 다음과 같은 문자열의 집합으로 나눌 수 있습니다.
- "John","likes","to","watch","movies","Mary","likes","movies","too"
- "Mary","also","likes","to","watch","football","games"
그 다음, 각 토큰(token)을 고유한 키로 간주하고 등장 횟수에 따라 정보를 재표현할 수 있습니다. 이렇게 두 문장은 각각 BOW로 변환됩니다.
- {"John":1,"likes":2,"to":1,"watch":1,"movies":2,"Mary":1,"too":1}
- {"Mary":1,"also":1,"likes":1,"to":1,"watch":1,"football":1,"games":1}
- 이때, BOW에 포함된 단어들은 순서가 없고 문맥적 의미를 갖지 않습니다. 이러한 특성 때문에 단어 순서가 중요한 문제에서는 BOW 모델의 성능이 떨어질 수 있습니다.

단순한 단어장 대신 해싱 함수를 사용할 수 있습니다. 단어 대신 해시를 직접 색인에 활용하여 확장성과 단순화를 달성할 수 있습니다.

BOW는 원래 비지도 학습으로 개발되었습니다. 그러나 지도 학습의 분류 문제에도 활용됩니다. 이 경우, 주어진 문장에 대해 특정 범주의 라벨을 출력하도록 설정합니다.

자연어 처리 뿐 아니라 정보 회수(information retrieval)에서도 자주 사용됩니다.

PreviousModel-Agnostic Meta-Learning for Fast Adaptation of Deep Networks NextAttention Mechanism: The Core of Modern AI

Last updated 1 day ago