Foundational Work of ML: Linear/Logistic Regression
Last updated
Last updated
๋ก์ง์คํฑ ํ๊ท์ ์ ํ ํ๊ท๋ ๋ฅ๋ฌ๋์ ๊ธฐ์ด๊ฐ ๋๋ ํต์ฌ ๊ฐ๋ ์ผ๋ก, ๊ฐ๊ฐ ๋ถ๋ฅ์ ํ๊ท ๋ฌธ์ ์ ๊ธฐ๋ณธ ์๋ฆฌ๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ ํ ํ๊ท์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ๊ณผ ๊ฐ์ค์น ์ต์ ํ ๊ธฐ๋ฒ์ ์ ๊ฒฝ๋ง ํ์ต์ ๋ฐฑ๋ณธ์ผ๋ก ํ์ฅ๋์์ผ๋ฉฐ, ๋ก์ง์คํฑ ํ๊ท์ ํ์ฑํ ํจ์ ๊ฐ๋ ์ ๋ฅ๋ฌ๋์ ๋น์ ํ์ฑ ๊ตฌํ์ ์ํฅ์ ์ฃผ์์ต๋๋ค. ๋ค์์ ํ๊ท๋ฅผ ๊ตฌ์ฑํ๋ ์ฃผ์ํ ๊ฐ๋ ๋ค์ ๋๋ค:
๋ชจ๋ธ(model)์ ์ ์ถ๋ ฅ์ ๋ํ ์์ธก๋ ๊ด๊ณ๋ฅผ ์ ์ํฉ๋๋ค.
ํ์ต๋ฒ(learning rule)์ ์ค๋ฅ๋ฅผ ์ต์ํ ํ๊ธฐ ์ํ ๊ฐ์ค์น ์กฐ์ ๋ํ ์ ์์ ๋๋ค.
์ ํ ํ๊ท๋ถ์(linear regression)๋ ํ๋ ์ด์์ ์ค๋ช ๋ณ์์ ๊ทธ์ ๋ํ ์ค์นผ๋ผ ๋ฐ์(scalar response)์ ํตํ ๋ชจ๋ธ๋ง์ ๋๋ค. ๊ทธ ์ค์์๋ ์ ํ์ ์ธ ์ ๊ทผ์ ํ๋ ๊ฒ์ ์ง์นญํฉ๋๋ค.
์๋ฃ๋ก ์์ธก๋ ๋งค๊ฐ๋ณ์, ๊ทธ๋ก ๋ง๋ค์ด์ง ์ ํ ์์ธก์ ํจ์(linear predictor function)๋ก ์ ์ถ๋ ฅ ๊ด๊ณ๋ฅผ ๋ชจ์ฌํฉ๋๋คโ์ด๋ฅผ ์ ํ๋ชจ๋ธ(linear model)์ด๋ผ ํฉ๋๋ค. ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ตฌํ๊ธฐ ์ํ ์๊ณ ๋ฆฌ์ฆ์ ์ํด ์ค๋ช ๋ณ์์ ๋ชจ๋ธ ๊ฐ์ ๋ฐ์๊ณผ ๊ทธ ์กฐ๊ฑด๋ถ ํ๊ท ์ ๊ฒฐ๊ตญ ์ํ ํจ์๋ก ๋ํ๋ผ ์ ์์ด์ผ ํฉ๋๋ค.
์ผ๋ฐ์ ์ผ๋ก ์ต์ ์ ๊ณฑ๋ฒ(least square)์ด ์ ํฉ์ ์ํด ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋, ์ ํฉ์ด ์ ๋๋ก ์๋ํ์ง ์์ ์ํ๋ฅผ ์ ํฉ์ฑ ๊ฒฐ์ฌ(lack of fitting, LOF)์ด๋ผ ํฉ๋๋คโ์ด๋ฅผ ํผํ๊ธฐ ์ํด ์ต์ ์ ๊ณฑ๋ฒ์์ ํ์๋ ๋ค์ํ ์ ๊ทผ์ด ์กด์ฌํฉ๋๋ค.
๋ฅผ ํตํด ์ ํ๋ชจ๋ธ์ ๋ ๋ฆฝ๋ณ์ ์ ์ข ์๋ณ์ ๋ฅผ ์์ธกํด์ผ ํฉ๋๋ค.
๋ ๊ด์ธก๊ฐ์ ๋ฒกํฐ์ ๋๋ค.
๋ ์ด ๋ฒกํฐ ์ ํ๋ ฌ ๋๋ ๋ค์ฐจ์์ ํ ๋ฒกํฐ ์ ๋๋ค.
๋ ์ฐจ์์ ๋งค๊ฐ๋ณ์ ๋ฒกํฐ์ ๋๋ค.
๋ ์ ๋ฒกํฐ์ ๋๋ค.
ํ์ต๋ฒ(learning rule)์ ์ ํ ํ๊ท ๋ชจ๋ธ์ ๋ฌธ์ ์ํฉ์ ๋ง๊ฒ ์ต์ ํ ์ํค๋ ์๊ณ ๋ฆฌ์ฆ์ ๋งํฉ๋๋ค. ์ ํ ํ๊ท์ ํ์ต๋ฒ์ ํฌ๊ฒ Newton's method์ GDR๊ฐ ์์ผ๋ฉฐ ์ด๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
ํจ์ ์ ๊ทธ์ ๋ํ ๋ํจ์ ์ ์์์ ์ด ์์ ๋, ๋ ๋ค์๊ณผ ๊ฐ์ ์์ธก์ ๋ง์กฑํ๊ณ ์์์ ์ ์ด์ ๋ฐ๋ผ ์กฐ์ํ๋ฉด ์ต์ ์ง์ ์ ๋์ฐฉํ ์ ์์์ ๊ฐ์ ํฉ๋๋ค. ๋ฐ๋ผ์ ์์์ ์ ๋ํด ๋ฏธ๋ถ์ผ๋ก ์ถ์ ๋ ์ ์ ์ ๊ณ์ฐํ๊ณ ์ด ์ ์ ์ ๋ํ ์ถ๊ณผ์ ๊ต์ ์ ๊ตฌํฉ๋๋คโ์ด ๊ต์ ์ ์์์ ์ ๋์ฒดํ๋ ์ง์ ์ด ๋๋ฉฐ ์ด๋ฅผ ๊ณ์ ๋ฐ๋ณตํฉ๋๋ค.
๋ง์ฝ ๊ณก์ ์ ์ ๋ํ ์ ์ ์ด ์์ ์ถ๊ณผ ๊ต์ฐจํ๋ฉฐ ์ด๋ฅผ ๊ตฌํ๋ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ด๋ฅผ ํตํด ๋ฅผ ๊ณ์ ๊ตฌํจ์ผ๋ก์จ ์ ๋ฐ๋ณต์ ์ผ๋ก ์์ง์ ๋๋ค.
๊ฒฝ์ฌ ํ๊ฐ๋ฒ(gradient descent rule)์ ์์คํจ์๋ฅผ ์ต์ํํ๊ธฐ ์ํด ๊ฐ์ค์น๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์กฐ์ ํ๋ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ๊ฐ์ค์น๋ ๊ฐ์ฅ ๊ฐํ๋ฅธ ๊ฒฝ์ฌ์ ๋ฐฉํฅ์ผ๋ก ์กฐ์ ๋๋ฉฐ, ์ด๋ ํ๋ ๊ธฐ๊ณํ์ต ๋ชจ๋ธ ํ์ต์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ฐ์ค์น ๋ฅผ 0
๋๋ ์์์ ์๋ก ์ด๊ธฐํํฉ๋๋ค.
๊ด์ฐฐ๊ณผ ๋ชจ๋ธ์ ์์ธก ๊ฐ์ ๊ด๊ณ๋ฅผ ๊ณ์ฐํฉ๋๋ค.
์ด๋ฅผ ๊ตฌํ๊ธฐ ์ํ ํจ์๋ฅผ ์์คํจ์ ๋ผ ํฉ๋๋ค.
์ ํด์ง ๋ฐ๋ณต ํ์ ๋๋ ์ค๋ฅ๊ฐ ์ถฉ๋ถํ ์ค์ด๋ค ๋๊น์ง ์ ๋ฐ๋ณตํฉ๋๋ค.
๋ ํ์ต๋ฅ ๋ก ํ ๋ฐ๋ณต์ ๋ํ ์กฐ์ ๊ฐ์ ๋ณํ ์ ๋๋ฅผ ๊ท์ ํฉ๋๋ค.
๋ก์ง์คํ ๋ชจ๋ธ(logistic model), ๋ก์ง ๋ชจ๋ธ(logit model)์ ๋ก๊ทธ-์ค์ฆ(log-odds) ์ฌ๊ฑด์ ์ ํ์กฐํฉ์ ํตํด ์์ธกํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ๋ก์ง์คํฑ ํ๊ท(logistic regression)๋ ์ด์ ๋ํ ๋งค๊ฐ๋ณ์๋ฅผ ์์ธกํ๊ธฐ ์ํ ์๊ณ ๋ฆฌ์ฆ, ์ํ์ ๋ชจ๋ธ๋ง์ ๋๋ค.
๋ก์ง์คํฑ ํ๊ท์ ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ์ธก์ ์ MLE(Maximum-Likelihood Estimation)๋ฅผ ํตํด ์์ธก๋ฉ๋๋ค. ์ด๋ ์ ํ ์ต์ ์ ๊ณฑ(linear least square)์๋ ๋ค๋ฆ ๋๋คโ๋ซํ ํํ์ ํํ์ ์ฌ์ฉํ๋ค๋ ์ฐจ์ด๊ฐ ์์ต๋๋ค. MLE๋ฅผ ํตํ ๋ก์ง์คํฑ ํ๊ท๋ ์ ๋ ฌ ์ต์ ์ ๊ณฑ(oridnary least square)์ ์ํ ์ ํ ํ๊ท๋ก์จ ๋ฒ์ฃผ/์ด์ง ๋ฐ์์ผ๋ก ํด์ํ ์ ์์ต๋๋ค.
์ต๋์ฐ๋์ถ์ (Maximum Likelihood Estimation)์ ๋ผ์ดํด๋ฆฌํ๋์ ๋ฅผ ์์ธกํ๊ธฐ ์ํ ์๊ณ ๋ฆฌ์ฆ ๋ฐ ํจ์๋ฅผ ์ง์นญํฉ๋๋ค.
๋งค๊ฐ ๋ณ์๋ฅผ ์ด๊ธฐํํฉ๋๋ค. MLE๋ ๊ด์ฐฐ์๋ฃ์ ์์ธก๊ฐ์ ๊ฒฐํฉํ๋ฅ ์ด ์ต๋๊ฐ ๋๋ $\theta$๋ฅผ ๊ฒฐ์ ํฉ๋๋ค:
์์ ์ฐ๋ํจ์๋ฅผ ์ต๋ํํ๋ ๋งค๊ฐ๋ณ์๋ ๋ค์์ผ๋ก ํํ๋ฉ๋๋ค:
๋๋ถ๋ถ์ ๊ฒฝ์ฐ, ์ฐ๋ํจ์์ ์์ฐ๋ก๊ทธ๋ฅผ ์ฌ์ฉํ์ฌ ์์์ ๊ตฌ์ฑํ๋ ๊ฒ์ด ์ ์ฉํฉ๋๋คโ์ด๋ฅผ ๋ก๊ทธ๋ผ์ดํด๋ฆฌ ํจ์(log-likelihood function)๋ผ ํฉ๋๋ค:
๋ก๊ทธํจ์๋ ๋จ์กฐํจ์์ด๊ธฐ ๋๋ฌธ์ ๋ ์ ์ต๋ํํ๋ ๋ผ๊ณ ์๊ฐ๋ฉ๋๋ค. ๋ฐ๋ผ์, ๋ ๋ค์ ์กฐ๊ฑด์ ํ์์ ์ผ๋ก ๋ง์กฑํด์ผ ํฉ๋๋ค:
์ฐ๋ํจ์์ ๋ํ ์ ๋ฏธ๋ถ์ ๊ฒฐ๊ณผ์ ์ผ๋ก ์ด ๋์ด์ผ ํฉ๋๋ค.
ํ์ฑํ ํจ์(activation function)๋ ๋ด๋ฐ์ ์ถ๋ ฅ์ ์ ์ฉ๋๋ ์ํ์ ํจ์์ ๋๋ค. ์ด๋ ์ฃผ๋ก ๋ชจ๋ธ์ด๋ ์ ๊ฒฝ๋ง์ ๋น์ ํ์ฑ์ ์ถ๊ฐํ์ฌ ๋ณต์กํ ๋ฌธ์ ์ ๋ํด ๋ ๋์ ๊ฒฐ์ ์ ๋ด๋ฆด ์ ์๊ฒ ํฉ๋๋ค. ํ์ฑํ ํจ์ ์์ด๋ ์์ฐ์ด ์ฒ๋ฆฌ๋ ์ด๋ฏธ์ง ์ธ์๊ณผ ๊ฐ์ ์์ ์ ์ํํ ์ ์์ต๋๋ค.
ํ์ฑํ ํจ์์ ๋น์ ํ์ฑ(non-linearity)์ ๋ชจ๋ธ์ด ๋ณต์กํ ํจํด์ ํ์ตํ๊ณ ์์ธกํ ์ ์๊ฒ ํด์ค๋๋ค.
ํ์ฑํ ํจ์๋ ๋ฏธ๋ถ๊ฐ๋ฅ(differentiability)ํ๋ฉฐ ์ด๋ ์ญ์ ํ ํ์ต์ ํ์์ ์ ๋๋ค.
ํ์ฑํํจ์๋๊ฐ์์๋ฒ์(range)๋ก ์ขํํ์ฑํ ๋ชจ๋ธ์ ์ถ๋ ฅ ๋ฒ์๋ฅผ ์ ํํฉ๋๋ค.
๋ค์์ ๋จธ์ ๋ฌ๋์์ ์ฌ์ฉ๋๋ ๋ค์ํ ํ์ฑํ ํจ์์ ๋๋ค.
์๊ทธ๋ชจ์ด๋ ํจ์๋ ๊ณผ ์ฌ์ด์ ๊ฐ์ ์ถ๋ ฅํฉ๋๋ค.
์ด์ง ๋ถ๋ฅ ๋ฌธ์ ์์ ์ฃผ๋ก ํ์ฉ๋ฉ๋๋ค.
๊ทธ๋ผ๋์ธํธ ์์ค(vanishing gradients)์ ์ทจ์ฝํ ํน์ง์ด ์์ต๋๋ค.
์ค์ฌ์ ์ด ์ด ์๋์ด์ ํ์ต ์๋๊ฐ ๋๋ฆฝ๋๋ค.
์๊ทธ๋ชจ์ด๋ ํจ์๋ ๊ณผ ์ฌ์ด์ ๊ฐ์ ์ถ๋ ฅํฉ๋๋ค.
์๋์ธต์ ๋ํด ์ฌ์ฉ๋๊ณค ํฉ๋๋ค.
์ด ์ญ์ ๊ทธ๋ผ๋์ธํธ ์์ค์ ์ทจ์ฝํ ํน์ง์ด ์์ต๋๋ค.
์ค์ฌ์ ์ด ์ธ ๋๋ถ์ ์๊ทธ๋ชจ์ด๋ ๋ณด๋ค๋ ํ์ต ์๋๊ฐ ๋น ๋ฆ ๋๋ค.
๋ ๋ฃจ ํจ์๋ ๋ถํฐ ๊น์ง์ ๊ฐ์ ์ถ๋ ฅํฉ๋๋ค.
๋๋ถ๋ถ์ ์๋์ธต์์ ์ฌ์ฉ๋ฉ๋๋ค.
๊ทธ๋ผ๋์ธํธ ์์ค ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํ ์ ์์ต๋๋ค. ๋ค๋ง ๋ด๋ฐ์ด ์์ ๊ฐ์ ๊ณ ์ ๋๋ Dying ReLU๋ผ๋ ํน์ํ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
ํ์ต ์๋๊ฐ ๋น ๋ฆ ๋๋ค.
๋ฆญํค ๋ ๋ฃจ ํจ์๋ ๋ถํฐ ๊น์ง์ ๊ฐ์ ์ถ๋ ฅํฉ๋๋ค.
Dying ReLU ๋ฌธ์ ๋ฅผ ํด๊ฒฐ์ฒต์ผ๋ก ๊ณ ์๋์์ต๋๋ค.
๊ฐ ํ์ต ์ค์ ์กฐ์ ๋๋ ๋ฆญํค ๋ ๋ฃจ ํจ์๋ฅผ PReLU(Parametric ReLU)๋ผ ํฉ๋๋ค.
์์ ๊น์ง์ ๊ฐ์ ์ถ๋ ฅํฉ๋๋ค.
๋ ๋ฃจ ํจ์๋ณด๋ค ์ฝ๊ฐ ๋์ ์ฑ๋ฅ์ ๊ฐ์ ธ๋ค ์ค๋๋ค.
์์ ๊น์ง์ ๊ฐ์ ์ถ๋ ฅํฉ๋๋ค.
์ฌ์ธต ์ ๊ฒฝ๋ง์์ ๋ ๋ฃจ ํจ์๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.