Attention Mechanism: The Core of Modern AI

어텐션(attention)은 연속 데이터 안의 각 요소가 다른 요소에 대해 가지는 중요도를 결정할 수 있게 해주는 머신러닝 방법입니다. RNN 등의 인공지능 체계에서 hard weight을 soft weight으로 보조하는 방식으로 처음 등장했습니다. 현재는 RNN을 완전히 대체하여 트랜스포머스(transformers)라는 딥러닝 구조로 발전했습니다.

병렬화(parallelization): 한 번의 처리 과정에서 문장의 전체적인 맥락과 의미를 동시에 파악할 수 있게 합니다.
긴 거리 의존성(long-range dependencies): 서로 멀리 떨어진 토큰들이 의미적으로 연결되게 합니다.
초기의 어텐션은 엔코더-디코더 구조의 변형으로 접근되었습니다. 현재는 이와는 독립된 개념으로 발전했으며, 어텐션을 계산하는 층을 어텐션 헤드라고 합니다.

RNN은 연속 데이터의 순서에 지나치게 의존하며 이를 상태의 개념으로 접근했지만, 어텐션 메커니즘은 이를 어텐션이라는 새로운 관점으로 해결했습니다.

어텐션의 초기 연구는 토큰 간의 비대칭적 관계를 대칭적 연산으로만 다뤄야 한다는 한계로 인해 큰 어려움을 겪었습니다. 이러한 문제는 셀프 어텐션 모델의 도입으로 해결되었습니다.

Self-Attention Mechanism

셀프 어텐션 메커니즘(self-attention mechanism)은 "Highly Parallelizable Self-attention" (2016)에서 decomposable attention이라는 개념으로 처음 소개된 어텐션 메커니즘의 변형입니다. 이후 1년 뒤에 등장한 혁신적인 딥러닝 구조인 트랜스포머스의 핵심 요소가 되었습니다.

Formulation

어텐션 메커니즘은 쿼리와 키 사이의 연관성을 분석하는 데이터베이스 방식으로 작동합니다. 이 설계는 쿼리와 키 벡터가 비대칭적이고 관계적인 역할을 수행하면서도, 토큰 벡터, 키 행렬, 쿼리 행렬 간의 대칭적 연산을 가능하게 합니다.

입력 $X$ 는 연속된 데이터입니다—어텐션 모델은 이 데이터에서 요소들 간의 관계를 학습할 수 있어야 합니다.
셀프 어텐션은 다음 세 가지 연직 가중치(soft weight)로 구성됩니다:
- 쿼리에 대한 가중치 $W^Q$ 는 "무엇을 찾아야 하나"에 대한 정보를 학습합니다.
- 키에 대한 가중치 $W^K$ 는 "무엇을 가지고 있는가"에 대한 정보를 학습합니다.
- 값에 대한 가중치 $W^V$ 는 실제 출력값에 대한 가중치입니다.

가중치 행렬 $W^Q$ , $W^K$ , $W^V$ 는 모든 연속 데이터에 동일한 규격으로 적용됩니다. 이는 이들의 차원이 임베딩 차원 및 헤드 차원과 호환되는 구조를 가지기 때문입니다.

셀프 어텐션 계층은 입력 $X$ 와 각 연성 가중치를 곱하여 다음 세 가지 행렬을 계산합니다:
1. $Q = X \cdot W^Q$
2. $K = X \cdot W^K$
3. $V = X \cdot W^V$
어텐션 원점수(raw attention score)는 다음과 같이 계산됩니다: $\text{raw attention score}{i,j} = Q_i \cdot K{j}^{\text{transpose}}$
그라디언트 폭주를 방지하기 위해 쿼리/키의 차원 $d_k = \frac{\text{embedding size}}{\text{number of attention head}}$ 로 스케일 다운을 수행합니다: $S = \frac{QK^{\text{transpose}}}{\sqrt{d_k}}$
소프트맥스 함수를 적용하여 확률 분포로 변환합니다: $A = \text{softmax}(S = \frac{QK^{\text{transpose}}}{\sqrt{d_k}})$
마지막으로 값 $V$ 와 곱하여 최종 셀프 어텐션 점수를 출력합니다: $\text{self attention score/ouput}(x) = A \cdot V$

PreviousTokenization and Stemming, Lemmatization, Stop-word Removal: Foundational Works of NLP NextOverview on Front-end Development

Last updated 1 day ago

Attention Mechanism: The Core of Modern AI

병렬화(parallelization): 한 번의 처리 과정에서 문장의 전체적인 맥락과 의미를 동시에 파악할 수 있게 합니다.
긴 거리 의존성(long-range dependencies): 서로 멀리 떨어진 토큰들이 의미적으로 연결되게 합니다.
초기의 어텐션은 엔코더-디코더 구조의 변형으로 접근되었습니다. 현재는 이와는 독립된 개념으로 발전했으며, 어텐션을 계산하는 층을 어텐션 헤드라고 합니다.

Self-Attention Mechanism

Formulation

입력 $X$ 는 연속된 데이터입니다—어텐션 모델은 이 데이터에서 요소들 간의 관계를 학습할 수 있어야 합니다.
셀프 어텐션은 다음 세 가지 연직 가중치(soft weight)로 구성됩니다:
- 쿼리에 대한 가중치 $W^Q$ 는 "무엇을 찾아야 하나"에 대한 정보를 학습합니다.
- 키에 대한 가중치 $W^K$ 는 "무엇을 가지고 있는가"에 대한 정보를 학습합니다.
- 값에 대한 가중치 $W^V$ 는 실제 출력값에 대한 가중치입니다.

셀프 어텐션 계층은 입력 $X$ 와 각 연성 가중치를 곱하여 다음 세 가지 행렬을 계산합니다:
1. $Q = X \cdot W^Q$
2. $K = X \cdot W^K$
3. $V = X \cdot W^V$
어텐션 원점수(raw attention score)는 다음과 같이 계산됩니다: $\text{raw attention score}{i,j} = Q_i \cdot K{j}^{\text{transpose}}$
그라디언트 폭주를 방지하기 위해 쿼리/키의 차원 $d_k = \frac{\text{embedding size}}{\text{number of attention head}}$ 로 스케일 다운을 수행합니다: $S = \frac{QK^{\text{transpose}}}{\sqrt{d_k}}$
소프트맥스 함수를 적용하여 확률 분포로 변환합니다: $A = \text{softmax}(S = \frac{QK^{\text{transpose}}}{\sqrt{d_k}})$
마지막으로 값 $V$ 와 곱하여 최종 셀프 어텐션 점수를 출력합니다: $\text{self attention score/ouput}(x) = A \cdot V$

PreviousTokenization and Stemming, Lemmatization, Stop-word Removal: Foundational Works of NLP NextOverview on Front-end Development

Last updated 1 day ago