Attention Mechanism: The Core of Modern AI
์ดํ ์ (attention)์ ์ฐ์ ๋ฐ์ดํฐ ์์ ๊ฐ ์์๊ฐ ๋ค๋ฅธ ์์์ ๋ํด ๊ฐ์ง๋ ์ค์๋๋ฅผ ๊ฒฐ์ ํ ์ ์๊ฒ ํด์ฃผ๋ ๋จธ์ ๋ฌ๋ ๋ฐฉ๋ฒ์ ๋๋ค. RNN ๋ฑ์ ์ธ๊ณต์ง๋ฅ ์ฒด๊ณ์์ hard weight์ soft weight์ผ๋ก ๋ณด์กฐํ๋ ๋ฐฉ์์ผ๋ก ์ฒ์ ๋ฑ์ฅํ์ต๋๋ค. ํ์ฌ๋ RNN์ ์์ ํ ๋์ฒดํ์ฌ ํธ๋์คํฌ๋จธ์ค(transformers)๋ผ๋ ๋ฅ๋ฌ๋ ๊ตฌ์กฐ๋ก ๋ฐ์ ํ์ต๋๋ค.
๋ณ๋ ฌํ(parallelization): ํ ๋ฒ์ ์ฒ๋ฆฌ ๊ณผ์ ์์ ๋ฌธ์ฅ์ ์ ์ฒด์ ์ธ ๋งฅ๋ฝ๊ณผ ์๋ฏธ๋ฅผ ๋์์ ํ์ ํ ์ ์๊ฒ ํฉ๋๋ค.
๊ธด ๊ฑฐ๋ฆฌ ์์กด์ฑ(long-range dependencies): ์๋ก ๋ฉ๋ฆฌ ๋จ์ด์ง ํ ํฐ๋ค์ด ์๋ฏธ์ ์ผ๋ก ์ฐ๊ฒฐ๋๊ฒ ํฉ๋๋ค.
์ด๊ธฐ์ ์ดํ ์ ์ ์์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ์ ๋ณํ์ผ๋ก ์ ๊ทผ๋์์ต๋๋ค. ํ์ฌ๋ ์ด์๋ ๋ ๋ฆฝ๋ ๊ฐ๋ ์ผ๋ก ๋ฐ์ ํ์ผ๋ฉฐ, ์ดํ ์ ์ ๊ณ์ฐํ๋ ์ธต์ ์ดํ ์ ํค๋๋ผ๊ณ ํฉ๋๋ค.
Self-Attention Mechanism
์ ํ ์ดํ ์ ๋ฉ์ปค๋์ฆ(self-attention mechanism)์ "Highly Parallelizable Self-attention" (2016)์์ decomposable attention์ด๋ผ๋ ๊ฐ๋ ์ผ๋ก ์ฒ์ ์๊ฐ๋ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๋ณํ์ ๋๋ค. ์ดํ 1๋ ๋ค์ ๋ฑ์ฅํ ํ์ ์ ์ธ ๋ฅ๋ฌ๋ ๊ตฌ์กฐ์ธ ํธ๋์คํฌ๋จธ์ค์ ํต์ฌ ์์๊ฐ ๋์์ต๋๋ค.
Formulation
์ดํ ์ ๋ฉ์ปค๋์ฆ์ ์ฟผ๋ฆฌ์ ํค ์ฌ์ด์ ์ฐ๊ด์ฑ์ ๋ถ์ํ๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๋ฐฉ์์ผ๋ก ์๋ํฉ๋๋ค. ์ด ์ค๊ณ๋ ์ฟผ๋ฆฌ์ ํค ๋ฒกํฐ๊ฐ ๋น๋์นญ์ ์ด๊ณ ๊ด๊ณ์ ์ธ ์ญํ ์ ์ํํ๋ฉด์๋, ํ ํฐ ๋ฒกํฐ, ํค ํ๋ ฌ, ์ฟผ๋ฆฌ ํ๋ ฌ ๊ฐ์ ๋์นญ์ ์ฐ์ฐ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
์ ๋ ฅ ๋ ์ฐ์๋ ๋ฐ์ดํฐ์ ๋๋คโ์ดํ ์ ๋ชจ๋ธ์ ์ด ๋ฐ์ดํฐ์์ ์์๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ตํ ์ ์์ด์ผ ํฉ๋๋ค.
์ ํ ์ดํ ์ ์ ๋ค์ ์ธ ๊ฐ์ง ์ฐ์ง ๊ฐ์ค์น(soft weight)๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
์ฟผ๋ฆฌ์ ๋ํ ๊ฐ์ค์น ๋ "๋ฌด์์ ์ฐพ์์ผ ํ๋"์ ๋ํ ์ ๋ณด๋ฅผ ํ์ตํฉ๋๋ค.
ํค์ ๋ํ ๊ฐ์ค์น ๋ "๋ฌด์์ ๊ฐ์ง๊ณ ์๋๊ฐ"์ ๋ํ ์ ๋ณด๋ฅผ ํ์ตํฉ๋๋ค.
๊ฐ์ ๋ํ ๊ฐ์ค์น ๋ ์ค์ ์ถ๋ ฅ๊ฐ์ ๋ํ ๊ฐ์ค์น์ ๋๋ค.
์ ํ ์ดํ ์ ๊ณ์ธต์ ์ ๋ ฅ ์ ๊ฐ ์ฐ์ฑ ๊ฐ์ค์น๋ฅผ ๊ณฑํ์ฌ ๋ค์ ์ธ ๊ฐ์ง ํ๋ ฌ์ ๊ณ์ฐํฉ๋๋ค:
์ดํ ์ ์์ ์(raw attention score)๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค:
๊ทธ๋ผ๋์ธํธ ํญ์ฃผ๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ์ฟผ๋ฆฌ/ํค์ ์ฐจ์ ๋ก ์ค์ผ์ผ ๋ค์ด์ ์ํํฉ๋๋ค:
์ํํธ๋งฅ์ค ํจ์๋ฅผ ์ ์ฉํ์ฌ ํ๋ฅ ๋ถํฌ๋ก ๋ณํํฉ๋๋ค:
๋ง์ง๋ง์ผ๋ก ๊ฐ ์ ๊ณฑํ์ฌ ์ต์ข ์ ํ ์ดํ ์ ์ ์๋ฅผ ์ถ๋ ฅํฉ๋๋ค:
Last updated