Modern AI Systems: An In-depth Guide to Cutting-edge Technologies and Applications
ํ๋ ์ธ๊ณต์ง๋ฅ ์์คํ ์ ๋ค์ํ ์ฒจ๋จ ๊ธฐ์ ๊ณผ ์ ๊ทผ ๋ฐฉ์์ ํตํด ๋ฐ์ ํ๊ณ ์์ต๋๋ค. ์ด ๋ฌธ์์์ ํ๋ ์ธ๊ณต์ง๋ฅ์์ ๊ฐ์ฅ ์ฃผ์ํ ๊ธฐ์ ๋ฐ ์ฐ๊ตฌ ๋ถ์ผ์ ๋ํด ์์ธํ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
๋ฉํฐ ๋ชจ๋ฌ ํ์ต: ์ฌ๋ฌ ํํ์ ๋ฐ์ดํฐ(์ด๋ฏธ์ง, ํ ์คํธ, ์์ฑ ๋ฑ)๋ฅผ ๋์์ ์ฒ๋ฆฌํ๊ณ ์ดํดํ๋ ๊ธฐ์ ์ ๋๋ค.
ํธ๋์คํฌ๋จธ: ์์ฐ์ด ์ฒ๋ฆฌ์ ์ํ์ค ๋ฐ์ดํฐ ๋ถ์์ ์ํ ํ์ ์ ์ธ ์ ๊ฒฝ๋ง ์ํคํ ์ฒ์ ๋๋ค.
์ ์ด ํ์ต: ํ ๋๋ฉ์ธ์์ ํ์ต๋ ์ง์์ ๋ค๋ฅธ ๋๋ฉ์ธ์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ๋ก ์ ๋๋ค.
์ฐํฉ ํ์ต: ๋ฐ์ดํฐ ํ๋ผ์ด๋ฒ์๋ฅผ ๋ณด์กดํ๋ฉด์ ๋ถ์ฐ๋ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ์ตํ๋ ์ ๊ทผ๋ฒ์ ๋๋ค.
์คํ ๊ฐ๋ฅํ AI: ๋ถ์์ ๋์ด ๊ตฌ์ฒด์ ์ธ ํ๋ ๋ฐฉ์์ ์ ์ํ๋ ์์ฌ๊ฒฐ์ ์ง์ ์์คํ ์ ๋๋ค.
Multi-modal Learning
๋ฉํฐ ๋ชจ๋ฌ ํ์ต(multi-modal learning)์ ๋ ๊ฐ ์ด์์ ๋ชจ๋ฌ๋ฆฌํฐ(modality) ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ๊ธฐ๊ณํ์ต ๋ชจ๋ธ์ ์ฐ๊ตฌํ๋ ๋ถ์ผ์ ๋๋ค.
์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ์ฌ์ง๊ณผ ํ ์คํธ๋ฅผ ํจ๊ป ์ ๋ ฅ์ผ๋ก ๋ฐ๋๋ก ์ค๊ณ๋ ์ ์์ต๋๋ค.
๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ๋จ์ํ ๋น๋์ค๋ฟ๋ง ์๋๋ผ ์๋ง, ์์, ํ์ ์ ๋ณด ๋ฑ์ ์ถ๊ฐ์ ์ธ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์ดํดํ ์ ์์ด์ผ ํฉ๋๋ค.
์์จ์ฃผํ ์๋์ฐจ๋ ์นด๋ฉ๋ผ๋ฅผ ํตํ ์๊ฐ ์ ๋ณด, ๋ผ์ด๋ค๋ฅผ ํตํ ๊ฑฐ๋ฆฌ ์ธก์ , ํ์ฌ ์๋ ๋ฑ์ ์ข ํฉ์ ์ผ๋ก ์ดํดํ ์ ์์ด์ผ ํฉ๋๋ค.
๋ฉํฐ ๋ชจ๋ฌ ํ์ต์ ๋ชจ๋ฌ๋ฆฌํฐ๋ค์ด ์กฐํฉ๋๋ ๋ฐฉ์์ ๋ฐ๋ผ ํฌ๊ฒ ๋ค ๊ฐ์ง๋ก ๋ถ๋ฅ๋ฉ๋๋ค.
์ด๊ธฐ ์ตํฉ(early fusion) ๋๋ ํผ์ณ ๋จ๊ณ ์ตํฉ(feature level fusion): ์๋ก ๋ค๋ฅธ ๋ชจ๋ฌ์ ์ ๋ ฅ๋ค์ ํ๋๋ก ์ตํฉํ์ฌ ์ฒ๋ฆฌํฉ๋๋ค.
ํ๊ธฐ ์ตํฉ(late fusion) ๋๋ ์์ฌ ๋จ๊ณ ์ตํฉ(decision level fusion): ๊ฐ ๋ชจ๋ฌ๋ณ๋ก ๊ฐ๋ณ ๋ชจ๋ธ์ ํ๋ จํ ํ, ์ด๋ค์ ์์ธก์ ์ข ํฉํฉ๋๋ค.
ํ์ด๋ธ๋ฆฌ๋ ์ตํฉ(hybrid/intermediate fusion): ์ด๊ธฐ์ ํ๊ธฐ ์ตํฉ์ ๊ฒฐํฉํ ๋ฐฉ์์ผ๋ก, ์ฌ๋ฌ ์ธต์ ๊ฑธ์ณ ๋ชจ๋ฌ ๊ฐ ์ํธ์์ฉ์ด ์ผ์ด๋๋๋ก ์ค๊ณ๋ฉ๋๋ค.
ํฌ๋ก์ค ๋ชจ๋ฌ ํ์ต(cross-modal learning): ํ๋์ ๋ชจ๋ฌ์ด ๋ค๋ฅธ ๋ชจ๋ฌ์ ๋ณด์กฐํ๋ ์ญํ ์ ํ๋๋ก ์ค๊ณ๋ฉ๋๋ค.
Transformers Architecture/Transformers
ํธ๋์คํฌ๋จธ์ค(transformers) ๋๋ ํธ๋์คํฌ๋จธ์ค ๊ตฌ์กฐ(transformers architecture)๋ ์ ํ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ํตํด ์ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌํ๋ ๊ตฌ์กฐ์ ๋๋ค. ์ด ๊ตฌ์กฐ๋ ์์ฐ์ด ์ฒ๋ฆฌ, ์ปดํจํฐ ๋น์ , ๋ฉํฐ ๋ชจ๋ฌ ๊ณผ์ ๋ฅผ ์ํ ํ์ ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ํ๊ฐ๋ฐ์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ํ๋์ ๋ชจ๋ธ์ ๋ ํ์ฅ์ฑ์ด ๋๊ณ ๋น ๋ฅธ ์ฑ๋ฅ์ ๊ฐ์ง๊ฒ ๋ฉ๋๋ค.
์ ํ ์ดํ ์ ๋ฉ์ปค๋์ฆ(self-attention mechanism)์ ์ ๋ ฅ์ ๊ฐ ๋ถ๋ถ์ ๋ํ ์ค์๋(attention/importance of the part)๋ฅผ ๋ฐ์ํ๋ ๊ฐ์ค์น๋ก ์๋ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ๋ฌธ์ฅ ๋ด ๋จ์ด๋ค์ด ์๋ก ์ด๋ป๊ฒ ์ฐ๊ด๋๋์ง๋ฅผ ํ์ตํฉ๋๋ค.
๋ฉํฐ ํค๋ ์ดํ ์ (multi head attention)์ ์ฌ๋ฌ ๊ฐ์ ์ ํ ์ดํ ์ ์ธต(self-attention layer)์ ๋ณ๋ ฌ๋ก ๋ฐฐ์นํ์ฌ ๋ค์ํ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ๋ ๊ตฌ์กฐ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ํ ์ดํ ์ ์ธต์ ๋์ฌ์, ๋ค๋ฅธ ์ธต์ ๋ชฉ์ ์ด์ ์ฃผ๋ชฉํ ์ ์์ต๋๋ค.
์์ ๋ฐฉ์์ ๋จ์ด์ ์ฐ์์ฑ ์ ๋ณด๋ฅผ ์์ ์ ์์ต๋๋ค. ํฌ์ง์ ๋ ์์ฝ๋ฉ(positional encoding)์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฝ์ฌ์ธ/์ฌ์ธ ํจ์๋ก ์์ฑ๋ ์์น ์ ๋ณด๋ฅผ ์ ๋ ฅ์ ์ถ๊ฐํ๋ ์ฒ๋ฆฌ ๊ณผ์ ์ ๋๋ค.
์์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ(encoder-decoder structure): ์์ฝ๋๋ ์ ๋ ฅ์ ์ฒ๋ฆฌํ๋ ๋จ๊ณ์ด๋ฉฐ, ๋์ฝ๋๋ ์ฒ๋ฆฌ๋ ์ ๋ณด๋ฅผ ์ ์ ํ ์ถ๋ ฅ ํ์์ผ๋ก ๋ณํํ๋ ๋จ๊ณ์ ๋๋ค.
Transfer Learning
์ ์ด ํ์ต(transfer learning)์ ํ ์์ ์ ์ํด ํ๋ จ๋ ๋ชจ๋ธ์ ๋ค๋ฅธ ์์ ์ ์ฌ์ฌ์ฉํ๋ ๊ธฐ์ ์ ๋๋ค. ์ด๋ ์๊ฐ์ด ์ ํ๋ ๋ฐ์ดํฐ์ ๋ํ ๋ชจ๋ธ์ ์ฌ์ฌ์ฉ์ฑ์ ๋์ด๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ธฐ ์ํด ํ์ฉ๋ฉ๋๋ค.
์ฌ์ ํ์ต(pre-training) ๋จ๊ณ์์๋ ๋ชจ๋ธ์ด ๊ด๋ฒ์ํ ๋ฐ์ดํฐ์ ์ผ๋ก ํ๋ จ๋์ด ์ผ๋ฐ์ ์ธ ํน์ง๋ค์ ํ์ตํฉ๋๋ค.
์ ์ด ๋ฐ ํ์ธ ํ๋(transfer & fine-tuning) ๋จ๊ณ์์๋ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์๋ก์ด ์์ ์ ์ ์ฉํ๋ฉฐ, ๋ค์ ๋ ๊ฐ์ง ๋ฐฉ์์ผ๋ก ์งํํ ์ ์์ต๋๋ค:
์ต์ 1: ๋ง์ง๋ง ๊ณ์ธต๋ง ๊ต์ฒดํ์ฌ ์ฌํ์ต์ ์ํํ๋ค.
์ต์ 2: ์ ์ฒด ๊ณ์ธต์ ๋์์ผ๋ก ์ฌํ์ต์ ์ํํ๋ค.
Federated Learning
์ฐํฉ ํ์ต(federated learning)์ ํ์ค์ํ๋ฅผ ํต์ฌ์ผ๋ก ํ๋ ๋จธ์ ๋ฌ๋ ์ ๊ทผ ๋ฐฉ์์ ๋๋ค. ์ฌ๋ฌ ๊ธฐ๊ธฐ๋ ์กฐ์ง์ด ์๋ณธ ๋ฐ์ดํฐ๋ฅผ ๊ณต์ ํ์ง ์๊ณ ๋ ํจ๊ป ๋ชจ๋ธ์ ํ์ตํ๊ณ ๋ฐ์ ์ํค๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ค์ ์๋ฒ๋ก ๋ฐ์ดํฐ๋ฅผ ์ ์กํ๋ ๋์ , ๋ชจ๋ธ์ด ๊ฐ ๊ธฐ๊ธฐ๋ก ์ ์ก๋์ด ๋ก์ปฌ์์ ํ์ต๋ฉ๋๋ค.
์ด๊ธฐํ ๋จ๊ณ(initialization): ์ค์ ์๋ฒ๊ฐ ์ ์ญ ๋ชจ๋ธ์ ์ด๊ธฐํํฉ๋๋ค.
๋ก์ปฌ ํ์ต(local training): ์๋ฒ๊ฐ ์ฐธ์ฌ ๊ธฐ๊ธฐ๋ค์ ๋ชจ๋ธ์ ์ ์กํ๋ฉด, ๊ฐ ๊ธฐ๊ธฐ๋ ์์ ์ ๋ก์ปฌ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ์ตํฉ๋๋ค.
๋ชจ๋ธ ์ ๋ฐ์ดํธ(model updates without data): ๊ธฐ๊ธฐ๋ค์ ์๋ณธ ๋ฐ์ดํฐ ๋์ ํ์ต๋ ๋ชจ๋ธ์ ๋ณํ๊ฐ๋ง์ ์ํธํํ์ฌ ์ค์ ์๋ฒ๋ก ์ ์กํฉ๋๋ค.
์ฐํฉ ํ๊ท ํ(federated averaging): ์๋ฒ๋ ๋ฐ์ ์ ๋ฐ์ดํธ๋ค์ ํตํฉํ์ฌ ์ ์ญ ๋ชจ๋ธ์ ๊ฐ์ ํฉ๋๋ค.
Actionable AI
์คํ ๊ฐ๋ฅํ/ํ๋ ์ ๋ํ ์ธ๊ณต์ง๋ฅ(actionable AI)์ ๋จ์ํ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๊ณ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋ ๊ฒ์ ๋์ด ๊ฒฐ์ ๊ณผ ํ๋์ ์ง์ ์ ์ผ๋ก ์ ๋ํ๋ ์ธ๊ณต์ง๋ฅ ์์คํ ์ ๋๋ค. ๊ธฐ์กด์ ์ธ๊ณต์ง๋ฅ์ด ์ธ์ฌ์ดํธ๋ฅผ ์ ๊ณตํ๋ ๋ฐ ๊ทธ์ณค๋ค๋ฉด, ํ๋ ์ ๋ํ ์ธ๊ณต์ง๋ฅ์ ๋ถ์๊ณผ ์คํ์ ์ฐ๊ฒฐํ์ฌ ์๋ํ๋ ๋ฐ์๊น์ง ์ด๋์ด๋ ๋๋ค.
๊ธฐ์กด์ ์ธ๊ณต์ง๋ฅ์ ํจํด ๊ฐ์ง๋ ๋ชจ๋ธ๋ง์ ํตํ ์์ธก์ ์ด์ ์ ๋ง์ท์ต๋๋ค. "๋ค์ ๋ถ๊ธฐ ํ๋งค๊ฐ
10%
๊ฐ์ํ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค."๋ฐ๋ฉด ํ๋ ์ ๋ํ ์ธ๊ณต์ง๋ฅ์ ๊ตฌ์ฒด์ ์ธ ํ๋์ ์ถ์ฒํฉ๋๋ค. "๋ค์ ๋ถ๊ธฐ ๋งค์ถ ๊ฐ์์ ๋์ํ๋ ค๋ฉด ๊ด๊ณ ์ง์ถ์
15%
์ฆ๊ฐํ์ญ์์ค."
์ด๋ฌํ ์์คํ ์ ๋ค์ ์ธ ๊ฐ์ง์ ์์๋ฅผ ๊ตฌํํ๊ณ ํ๋ณดํ๋ ๋ฐ ์์ต๋๋ค.
์ค์๊ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ(real-time data processing): ์ค์๊ฐ์ผ๋ก ์ ์ ๋๋ ๋ฐ์ดํฐ๋ฅผ ์ ํํ๊ฒ ๋ถ์ํ ์ ์์ด์ผ ํฉ๋๋ค.
์์ฌ๊ฒฐ์ ์๋ํ(decision automation): ์ธ๊ณต์ง๋ฅ์ ๋ช ํํ๊ณ ์คํ ๊ฐ๋ฅํ ํ๋ ๋ฐฉ์์ ์ ์ํด์ผ ํฉ๋๋ค.
HITL, Human-In-The-Loop: ์ธ๊ณต์ง๋ฅ์ ํ๋์ ์ ์ํ๋, ์ต์ข ๊ฒฐ์ ์ ์ธ๊ฐ์ ์น์ธ์ด ํ์ํฉ๋๋ค. ๋ฐ๋ผ์ ์ธ๊ฐ์ ์ ์์ ๊ฒํ ํ๊ณ ์น์ธํ๋ ์ฒด๊ณ์ ์ธ ๊ท์น์ ์๋ฆฝํ๊ณ ์ด๋ฅผ ๋ฐ๋ผ์ผ ํฉ๋๋ค.
Last updated