Foundational Work of ML: Linear/Logistic Regression

PreviousHow to Read the Pages NextEarly-stage of AI: Perceptron and ADALINE

Last updated 1 day ago

Foundational Work of ML: Linear/Logistic Regression

로지스틱 회귀와 선형 회귀는 딥러닝의 기초가 되는 핵심 개념으로, 각각 분류와 회귀 문제의 기본 원리를 제공합니다. 선형 회귀의 경사 하강법과 가중치 최적화 기법은 신경망 학습의 백본으로 확장되었으며, 로지스틱 회귀의 활성화 함수 개념은 딥러닝의 비선형성 구현에 영향을 주었습니다. 다음은 회귀를 구성하는 주요한 개념들입니다:

모델(model)은 입출력에 대한 예측된 관계를 정의합니다.
학습법(learning rule)은 오류를 최소화 하기 위한 가중치 조정 대한 정의입니다.

이 간단한 모델들은 복잡한 딥러닝 아키텍처의 구성 요소로 재해석되며, 특히 초기층이나 출력층에서 여전히 활용됩니다.

해당 포스트에선 선형 회귀의 소개와 학습법을, 로지스틱 회귀와 활성화 함수를 묶어 설명합니다.

수학적 모델이란?

수학적 모델(mathematical model)은 현실 세계의 현상을 수학적으로 표현하려는 시도입니다. 이는 해당 현상을 이해하고, 미래를 예측하며, 합리적인 의사 결정을 내리는 데 도움을 줍니다.

이때, 수학적 모델은 현실 세계를 완벽하게 모사하는 것이 목적이 아닙니다. 오히려 그 현상에 대한 이상적인 표현이라고 할 수 있습니다. 모델을 통해 얻은 예측이 의미 있는 결과를 제공한다면, 모델이 완벽히 정확하지 않더라도 충분히 가치가 있습니다.

함수를 기계 모형(machine model)으로 생각할 수도 있습니다. $x$ 가 그 함수의 정의역일 때, 는 그 기계로 들어가는 입력이 될 수 있습니다. 자연스럽게 출력은 $f(x)$ 가 되며 이는 그 기계의 규칙에 따라 정해집니다.

Linear Regression

선형 회귀분석(linear regression)란 하나 이상의 설명변수와 그에 대한 스칼라 반응(scalar response)을 통한 모델링입니다. 그 중에서도 선형적인 접근을 하는 것을 지칭합니다.

자료로 예측된 매개변수, 그로 만들어진 선형 예측자 함수(linear predictor function)로 입출력 관계를 모사합니다—이를 선형모델(linear model)이라 합니다. 대부분의 경우에 매개변수를 구하기 위한 알고리즘을 위해 설명변수와 모델 간의 반응과 그 조건부 평균은 결국 아핀 함수로 나타낼 수 있어야 합니다.
일반적으로 최소 제곱법(least square)이 적합을 위해 사용됩니다. 이때, 적합이 제대로 작동하지 않은 상태를 적합성 결여(lack of fitting, LOF)이라 합니다—이를 피하기 위해 최소 제곱법에서 파생된 다양한 접근이 존재합니다.

에니메이션을 통한 이해

선형회귀의 다양한 변형들

만약 목적이 설명변인 간의 반응, 관계를 이해하기 위함이라면 이는 선형회귀분석(regression analysis)로 범주합니다.
만약 목적이 예측과 추계이며 따라서 오류를 줄여야 한다면 해당 모델은 예측모델(predictive model)로 범주합니다.

특징에 따른 선형회귀의 분류

하나의 설명변인만을 가진 경우를 단순 선형 회귀분석(simple linear regression)라 부릅니다.
하나 보다 많은 설명변인을 가진 경우를 다중 선형 회귀분석(multiple linear regression)라 부릅니다.
종속변인이 하나 보다 많은 경우를 다변 선형 회귀분석(multivariate linear regression)라 합니다.

선형회귀는 결합부 확률 분포(joint probability distribution)보다는 조건부 확률 분포(conditional probability distribution)에 초점을 가지고 있습니다.

Formulation

$\left\{ y_i, x_{i1}, …, x_{ip} \right\}^n_{i=1}$ 를 통해 선형모델은 독립변수 $y$ 와 종속변수 $\beta$ 를 예측해야 합니다.

y_{i} = \beta_{0} + \beta_{1}x_{i1} + ... + \beta_{p}x_{ip} + \epsilon_{i} = \beta_{p}x_{ip} + \epsilon_{i}

$y$ 는 관측값의 벡터입니다.
$x$ 는 열 벡터 $x_i$ 의 행렬 또는 다차원의 행 벡터 $x_j$ 입니다.
$\beta$ 는 $p+1$ 차원의 매개변수 벡터입니다.
$\epsilon$ 는 $\epsilon_i$ 의 벡터입니다.

$\epsilon$ 는 결국 관측과 무관한 난수, 복귀자와 독립변인 간의 관계에 소음입니다.

선형회귀의 주요 개념과 한계

선형회귀는 현대에 와서 많은 한계를 가지고 있다고 생각되지만 몇 문제에는 좀 더 효율적인 해결을 제공하기도 합니다—다음은 주요한 개념념과 한계점입니다.

외생성(exogeneity)란 모델이 오류와 연관되지 않음, 또는 그런 성질에 대한 척도를 의미합니다. 수학적으론 $\mathbb{E}[ \epsilon | X ] = 0$ 을 의미합니다—선형회귀는 약한 외생성을 가집니다.
- 엄격한 외생성(strict exogeneity)은 모든 기간에 걸쳐 외생성을 가짐을 의미합니다.
- 약한 외생성(weak exogeneity)은 현 기간에 걸쳐 외생성을 가짐을 의미합니다.
- 기정사실성(deterministic)은 구 기간에 대해 외생성을 가지지만 현재와 미래엔 그렇지 못함을 의미합니다.

선형성(linearity)은 반응된 변수의 평균이 매개변수, 예측자 변수의 선형조합으로 측정됨을 의미합니다.

고정적인 변화(constant variance, homoscedasticity)는 오류의 변화가 예측자 변수의 값에 의존하지 않음을 의미합니다. 예를들어 수입이 1000으로 예측된 개인은 실질적으로 800 ~ 1200의 수익을 가질 수 있습니다.
- 앞선 예시에서 |200|로 나타난 이 값을 고정적 변화라 부릅니다.

오류의 독립성(Independence of errors)는 오류가 일관된 연관을 완전히 벗어남을 의미합니다. 선형회귀는 오류의 독립성에 특히 취약합니다.
- 이를 해결하기 위해 자료의 정형화(data regularization), 베이시안 선형회귀(Bayes’ linear regression)를 사용하기도 합니다.

Learning Rules

학습법(learning rule)은 선형 회귀 모델을 문제 상황에 맞게 최적화 시키는 알고리즘을 말합니다. 선형 회귀의 학습법은 크게 Newton's method와 GDR가 있으며 이는 다음과 같습니다:

Newton’s Method

함수 $f$ 와 그에 대한 도함수 $f’$ 와 시작점 $x_0$ 이 있을 때, $f$ 는 다음과 같은 예측을 만족하고 시작점을 이에 따라 조작하면 최적 지점에 도착할 수 있음을 가정합니다. 따라서 시작점에 대해 미분으로 추정된 접선을 계산하고 이 접선에 대한 $x$ 축과의 교점을 구합니다—이 교점은 시작점을 대체하는 지점이 되며 이를 계속 반복합니다.

만약 곡선 $f(x)$ 의 $x = x_n$ 에 대한 접선이 $x_{n+1}$ 에서 $x$ 축과 교차하며 이를 구하는 과정은 다음과 같습니다.
$\text{slope of the tangent is } f’(x_n) = \frac{f(x_n) - 0}{x_n - x_{n+1}}$
- $\therefore x_{n + 1} = x_n - \frac{f(x_n)}{f’(x_n)}$
이를 통해 $f’(x_n)$ 를 계속 구함으로써 $x_{n+1}$ 을 반복적으로 움직입니다.

에니메이션을 통한 이해

Newton's Method는 큰 계산 비용과 안장점에 대한 취약성 때문에 최신 인공지능을 위한 학습으론 잘 선택되지 않습니다.

해당 알고리즘은 미분과 접선과 그 기울기의 관계를 근거로 최적 지점을 구하는 제 1 반복 최적화(first-order iterative optimization)입 분류됩니다.

GDR, Gradient Descent Rule

경사 하강법(gradient descent rule)은 손실함수를 최소화하기 위해 가중치를 반복적으로 조정하는 최적화 알고리즘입니다. 가중치는 가장 가파른 경사의 방향으로 조정되며, 이는 현대 기계학습 모델 학습의 기반이 됩니다.

가중치 $w$ 를 0 또는 임의의 수로 초기화합니다.
관찰과 모델의 예측 간의 관계를 계산합니다.
- 이를 구하기 위한 함수를 손실함수 $J(w)$ 라 합니다.
정해진 반복 횟수 또는 오류가 충분히 줄어들 때까지 $w_{\text{new}} = w_{\text{old} - \alpha \cdot \nabla J(w)}$ 을 반복합니다.
- $\alpha$ 는 학습률로 한 반복에 대한 조정값의 변화 정도를 규정합니다.

에니메이션을 통한 이해

Logistic Regression

이진회귀 분석 이해하기기

이진 회귀 분석(binary logistic regression)에선 지시변수(indicator variable)를 독립변수로 해독해 사용합니다—이때, 지시변수는 0과 1로 주어지며 독립변수는 결국 0 ~ 1의 연속변수(continuous variable)가 됩니다.

두 개 이상의 이진변수를 독립변수로 사용하는 경우엔 다중 회귀 분석(multinomial logistic regression)라 합니다. 이때, 다수의 이진변수는 곧 범주형 변수(categorical variable)로 다시 정형화될 수 있습니다—이때, 각 범주들이 정렬되었고 이들의 연속적 특징이 의미를 가질 때, 정렬적 로지스틱 회귀(ordinal logistic regression)라 합니다.
로지스틱 회귀 자체는 단순한 확률적 예측을 제공할 뿐이지만 분류기로써도 사용될 수 있으며 이러한 형태를 통계적 분류기(statistical classifier)라고 합니다.

측정단위로 사용되는 로그-오즈는 로짓(logit)이라 불립니다—이는 로지스틱 단위(Logistic Unit)의 줄임말입니다.

이진변수(binary variable)는 어떤 계급이나 사건의 공간으로써 사용됩니다—예를 들어 한 팀의 승리와 같은 양자적 값을 가진 것에 대한 확률, 환자의 건강 상태 등을 들 수 있습니다.

이진 분류기와 예측 모델의 차이

로지스틱 회귀 분석은 입력과 출력에 대한 모델로 확률적 분류를 수행하지 않습니다. 따라서 차단값(cut-off value)을 정의해 그 값의 위아래를 서로 다른 계층으로 분류할 때 이진 분류기라 말할 수 있습니다.

이진 변수를 위한 분석적 회귀 모델의 경우, 로지스틱 함수 대신 시그모이드 함수를 사용합니다.
출력에 대해 특정한 절단을 하여 결과를 계급에 대한 지시변수로 변형하는 것은 이진 분류기의 일반적인 방법입니다.

로지스텍 모델(logistic model), 로짓 모델(logit model)은 로그-오즈(log-odds) 사건을 선형조합을 통해 예측하는 것을 의미합니다. 로지스틱 회귀(logistic regression)는 이에 대한 매개변수를 예측하기 위한 알고리즘, 수학적 모델링입니다.

로지스틱 회귀의 가장 일반적인 측정은 MLE(Maximum-Likelihood Estimation)를 통해 예측됩니다. 이는 선형 최소 제곱(linear least square)와는 다릅니다—닫힌 형태의 표현을 사용한다는 차이가 있습니다. MLE를 통한 로지스틱 회귀는 정렬 최소 제곱(oridnary least square)에 의한 선형 회귀로써 범주/이진 반응으로 해석할 수 있습니다.

MLE, the Learning Rule of Logistic Regression

최대우도추정(Maximum Likelihood Estimation)은 라이클리후드의 $\theta$ 를 예측하기 위한 알고리즘 및 함수를 지칭합니다.

매개 변수를 초기화합니다. MLE는 관찰자료와 예측값의 결합확률이 최대가 되는 $\theta$를 결정합니다: $\mathcal{f}{n}(y;\theta) = \prod{k=1}^{n}\mathcal{f}_k^{univar}(y_k;\theta)$
$\Theta$ 에서 우도함수를 최대화하는 매개변수는 다음으로 표현됩니다: $\hat{\theta} = \argmax_{\theta \in \Theta}\mathcal{L}_n(\theta;y)$
- 대부분의 경우, 우도함수에 자연로그를 사용하여 수식을 구성하는 것이 유용합니다—이를 로그라이클리 함수(log-likelihood function)라 합니다: $l(\theta;y)=\ln\mathcal{L}(\theta;y)$
로그함수는 단조함수이기 때문에 $\mathcal{l}(\theta;y)$ 는 $\mathcal{L}_{n}$ 을 최대화하는 $\theta$ 라고 생각됩니다. 따라서, $\theta$ 는 다음 조건을 필수적으로 만족해야 합니다: $\frac{dl}{d\theta_{k}} = 0$
우도함수에 대한 $\theta$ 의 미분은 결과적으로 $0$ 이 되어야 합니다.

표현에 대한 정리

$\Theta$ 는 매개변수 공간입니다.
$\mathcal{L}$ 은 라이클리후드 함수입니다.
$\hat{\theta}$ 는 $\theta$ 에 대한 예측값입니다.

Activation Function

활성화 함수(activation function)는 뉴런의 출력에 적용되는 수학적 함수입니다. 이는 주로 모델이나 신경망에 비선형성을 추가하여 복잡한 문제에 대해 더 나은 결정을 내릴 수 있게 합니다. 활성화 함수 없이는 자연어 처리나 이미지 인식과 같은 작업을 수행할 수 없습니다.

활성화 함수의 비선형성(non-linearity)은 모델이 복잡한 패턴을 학습하고 예측할 수 있게 해줍니다.
활성화 함수는 미분가능(differentiability)하며 이는 역전파 학습에 필수적입니다.
활성화함수는값의을범위(range)로 좁혀활성화 모델의 출력 범위를 제한합니다.

다음은 머신러닝에서 사용되는 다양한 활성화 함수입니다.

그림으로 이해하는 다양한 활성화 함수의 최적화 환경

활성화 함수에 연관한 최적 환경을 activation map이라 부릅니다.

Sigmoid/Logistic Function

\sigma(x) = \frac{1}{1+3^{-x}}

시그모이드 함수는 $0$ 과 $1$ 사이의 값을 출력합니다.
이진 분류 문제에서 주로 활용됩니다.
- 그라디언트 소실(vanishing gradients)에 취약한 특징이 있습니다.
- 중심점이 $0$ 이 아니어서 학습 속도가 느립니다.

Tanh Function (Hyperbolic Tangent)

\text{tahnh}(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}f(x) = x * e^{2 pi i \xi x}

시그모이드 함수는 $-1$ 과 $1$ 사이의 값을 출력합니다.
은닉층에 대해 사용되곤 합니다.
- 이 역시 그라디언트 소실에 취약한 특징이 있습니다.
- 중심점이 $0$ 인 덕분에 시그모이드 보다는 학습 속도가 빠릅니다.

ReLu, Rectified linear Unit

\text{ReLU}(x) = \max(0,x)f(x) = x * e^{2 pi i \xi x}

렐루 함수는 $0$ 부터 $\inf$ 까지의 값을 출력합니다.
대부분의 은닉층에서 사용됩니다.
- 그라디언트 소실 문제를 방지할 수 있습니다. 다만 뉴런이 음수 값에 고정되는 Dying ReLU라는 특수한 문제가 있습니다.
- 학습 속도가 빠릅니다.

Leaky ReLU

\text{LeakyReLU}(x) = \begin{cases} x &\text{if }x > 0 \\ \alpha \cdot x &\text{otherwise} \end{cases}

릭키 렐루 함수는 $-\inf$ 부터 $\inf$ 까지의 값을 출력합니다.
Dying ReLU 문제를 해결첵으로 고안되었습니다.
$\alpha$ 가 학습 중에 조정되는 릭키 렐루 함수를 PReLU(Parametric ReLU)라 합니다.

ELU, Exponential Linear Unit

\text{ELU}(x) = \begin{cases} x &\text{if } x > 0 \\ \alpha(e^x - 1) &\text{otherwise} \end{cases}

$-\alpha$ 에서 $\inf$ 까지의 값을 출력합니다.
렐루 함수보다 약간 나은 성능을 가져다 줍니다.

Swish, Google Brain

\text{Swish}(x) = x\cdot \sigma(\beta \cdot x) \newline\text{where }\alpha \text{ sigmoid}, \beta \text{ is learnable parameter}

$-\inf$ 에서 $\inf$ 까지의 값을 출력합니다.
심층 신경망에서 렐루 함수보다 뛰어난 성능을 보여줍니다.

PreviousHow to Read the Pages NextEarly-stage of AI: Perceptron and ADALINE

Last updated 1 day ago

모델(model)은 입출력에 대한 예측된 관계를 정의합니다.
학습법(learning rule)은 오류를 최소화 하기 위한 가중치 조정 대한 정의입니다.

이 간단한 모델들은 복잡한 딥러닝 아키텍처의 구성 요소로 재해석되며, 특히 초기층이나 출력층에서 여전히 활용됩니다.

해당 포스트에선 선형 회귀의 소개와 학습법을, 로지스틱 회귀와 활성화 함수를 묶어 설명합니다.

수학적 모델이란?

Linear Regression

자료로 예측된 매개변수, 그로 만들어진 선형 예측자 함수(linear predictor function)로 입출력 관계를 모사합니다—이를 선형모델(linear model)이라 합니다. 대부분의 경우에 매개변수를 구하기 위한 알고리즘을 위해 설명변수와 모델 간의 반응과 그 조건부 평균은 결국 아핀 함수로 나타낼 수 있어야 합니다.
일반적으로 최소 제곱법(least square)이 적합을 위해 사용됩니다. 이때, 적합이 제대로 작동하지 않은 상태를 적합성 결여(lack of fitting, LOF)이라 합니다—이를 피하기 위해 최소 제곱법에서 파생된 다양한 접근이 존재합니다.

에니메이션을 통한 이해

선형회귀의 다양한 변형들

만약 목적이 설명변인 간의 반응, 관계를 이해하기 위함이라면 이는 선형회귀분석(regression analysis)로 범주합니다.
만약 목적이 예측과 추계이며 따라서 오류를 줄여야 한다면 해당 모델은 예측모델(predictive model)로 범주합니다.

특징에 따른 선형회귀의 분류

하나의 설명변인만을 가진 경우를 단순 선형 회귀분석(simple linear regression)라 부릅니다.
하나 보다 많은 설명변인을 가진 경우를 다중 선형 회귀분석(multiple linear regression)라 부릅니다.
종속변인이 하나 보다 많은 경우를 다변 선형 회귀분석(multivariate linear regression)라 합니다.

선형회귀는 결합부 확률 분포(joint probability distribution)보다는 조건부 확률 분포(conditional probability distribution)에 초점을 가지고 있습니다.

Formulation

$\left\{ y_i, x_{i1}, …, x_{ip} \right\}^n_{i=1}$ 를 통해 선형모델은 독립변수 $y$ 와 종속변수 $\beta$ 를 예측해야 합니다.

y_{i} = \beta_{0} + \beta_{1}x_{i1} + ... + \beta_{p}x_{ip} + \epsilon_{i} = \beta_{p}x_{ip} + \epsilon_{i}

$y$ 는 관측값의 벡터입니다.
$x$ 는 열 벡터 $x_i$ 의 행렬 또는 다차원의 행 벡터 $x_j$ 입니다.
$\beta$ 는 $p+1$ 차원의 매개변수 벡터입니다.
$\epsilon$ 는 $\epsilon_i$ 의 벡터입니다.

$\epsilon$ 는 결국 관측과 무관한 난수, 복귀자와 독립변인 간의 관계에 소음입니다.

선형회귀의 주요 개념과 한계

외생성(exogeneity)란 모델이 오류와 연관되지 않음, 또는 그런 성질에 대한 척도를 의미합니다. 수학적으론 $\mathbb{E}[ \epsilon | X ] = 0$ 을 의미합니다—선형회귀는 약한 외생성을 가집니다.
- 엄격한 외생성(strict exogeneity)은 모든 기간에 걸쳐 외생성을 가짐을 의미합니다.
- 약한 외생성(weak exogeneity)은 현 기간에 걸쳐 외생성을 가짐을 의미합니다.
- 기정사실성(deterministic)은 구 기간에 대해 외생성을 가지지만 현재와 미래엔 그렇지 못함을 의미합니다.

선형성(linearity)은 반응된 변수의 평균이 매개변수, 예측자 변수의 선형조합으로 측정됨을 의미합니다.

고정적인 변화(constant variance, homoscedasticity)는 오류의 변화가 예측자 변수의 값에 의존하지 않음을 의미합니다. 예를들어 수입이 1000으로 예측된 개인은 실질적으로 800 ~ 1200의 수익을 가질 수 있습니다.
- 앞선 예시에서 |200|로 나타난 이 값을 고정적 변화라 부릅니다.

오류의 독립성(Independence of errors)는 오류가 일관된 연관을 완전히 벗어남을 의미합니다. 선형회귀는 오류의 독립성에 특히 취약합니다.
- 이를 해결하기 위해 자료의 정형화(data regularization), 베이시안 선형회귀(Bayes’ linear regression)를 사용하기도 합니다.

Learning Rules

Newton’s Method

만약 곡선 $f(x)$ 의 $x = x_n$ 에 대한 접선이 $x_{n+1}$ 에서 $x$ 축과 교차하며 이를 구하는 과정은 다음과 같습니다.
$\text{slope of the tangent is } f’(x_n) = \frac{f(x_n) - 0}{x_n - x_{n+1}}$
- $\therefore x_{n + 1} = x_n - \frac{f(x_n)}{f’(x_n)}$
이를 통해 $f’(x_n)$ 를 계속 구함으로써 $x_{n+1}$ 을 반복적으로 움직입니다.

에니메이션을 통한 이해

Newton's Method는 큰 계산 비용과 안장점에 대한 취약성 때문에 최신 인공지능을 위한 학습으론 잘 선택되지 않습니다.

해당 알고리즘은 미분과 접선과 그 기울기의 관계를 근거로 최적 지점을 구하는 제 1 반복 최적화(first-order iterative optimization)입 분류됩니다.

GDR, Gradient Descent Rule

가중치 $w$ 를 0 또는 임의의 수로 초기화합니다.
관찰과 모델의 예측 간의 관계를 계산합니다.
- 이를 구하기 위한 함수를 손실함수 $J(w)$ 라 합니다.
정해진 반복 횟수 또는 오류가 충분히 줄어들 때까지 $w_{\text{new}} = w_{\text{old} - \alpha \cdot \nabla J(w)}$ 을 반복합니다.
- $\alpha$ 는 학습률로 한 반복에 대한 조정값의 변화 정도를 규정합니다.

에니메이션을 통한 이해

Logistic Regression

이진회귀 분석 이해하기기

두 개 이상의 이진변수를 독립변수로 사용하는 경우엔 다중 회귀 분석(multinomial logistic regression)라 합니다. 이때, 다수의 이진변수는 곧 범주형 변수(categorical variable)로 다시 정형화될 수 있습니다—이때, 각 범주들이 정렬되었고 이들의 연속적 특징이 의미를 가질 때, 정렬적 로지스틱 회귀(ordinal logistic regression)라 합니다.
로지스틱 회귀 자체는 단순한 확률적 예측을 제공할 뿐이지만 분류기로써도 사용될 수 있으며 이러한 형태를 통계적 분류기(statistical classifier)라고 합니다.

측정단위로 사용되는 로그-오즈는 로짓(logit)이라 불립니다—이는 로지스틱 단위(Logistic Unit)의 줄임말입니다.

이진 분류기와 예측 모델의 차이

이진 변수를 위한 분석적 회귀 모델의 경우, 로지스틱 함수 대신 시그모이드 함수를 사용합니다.
출력에 대해 특정한 절단을 하여 결과를 계급에 대한 지시변수로 변형하는 것은 이진 분류기의 일반적인 방법입니다.

MLE, the Learning Rule of Logistic Regression

최대우도추정(Maximum Likelihood Estimation)은 라이클리후드의 $\theta$ 를 예측하기 위한 알고리즘 및 함수를 지칭합니다.

매개 변수를 초기화합니다. MLE는 관찰자료와 예측값의 결합확률이 최대가 되는 $\theta$를 결정합니다: $\mathcal{f}{n}(y;\theta) = \prod{k=1}^{n}\mathcal{f}_k^{univar}(y_k;\theta)$
$\Theta$ 에서 우도함수를 최대화하는 매개변수는 다음으로 표현됩니다: $\hat{\theta} = \argmax_{\theta \in \Theta}\mathcal{L}_n(\theta;y)$
- 대부분의 경우, 우도함수에 자연로그를 사용하여 수식을 구성하는 것이 유용합니다—이를 로그라이클리 함수(log-likelihood function)라 합니다: $l(\theta;y)=\ln\mathcal{L}(\theta;y)$
로그함수는 단조함수이기 때문에 $\mathcal{l}(\theta;y)$ 는 $\mathcal{L}_{n}$ 을 최대화하는 $\theta$ 라고 생각됩니다. 따라서, $\theta$ 는 다음 조건을 필수적으로 만족해야 합니다: $\frac{dl}{d\theta_{k}} = 0$
우도함수에 대한 $\theta$ 의 미분은 결과적으로 $0$ 이 되어야 합니다.

표현에 대한 정리

$\Theta$ 는 매개변수 공간입니다.
$\mathcal{L}$ 은 라이클리후드 함수입니다.
$\hat{\theta}$ 는 $\theta$ 에 대한 예측값입니다.

Activation Function

활성화 함수의 비선형성(non-linearity)은 모델이 복잡한 패턴을 학습하고 예측할 수 있게 해줍니다.
활성화 함수는 미분가능(differentiability)하며 이는 역전파 학습에 필수적입니다.
활성화함수는값의을범위(range)로 좁혀활성화 모델의 출력 범위를 제한합니다.

다음은 머신러닝에서 사용되는 다양한 활성화 함수입니다.

그림으로 이해하는 다양한 활성화 함수의 최적화 환경

활성화 함수에 연관한 최적 환경을 activation map이라 부릅니다.

Sigmoid/Logistic Function

\sigma(x) = \frac{1}{1+3^{-x}}

시그모이드 함수는 $0$ 과 $1$ 사이의 값을 출력합니다.
이진 분류 문제에서 주로 활용됩니다.
- 그라디언트 소실(vanishing gradients)에 취약한 특징이 있습니다.
- 중심점이 $0$ 이 아니어서 학습 속도가 느립니다.

Tanh Function (Hyperbolic Tangent)

\text{tahnh}(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}f(x) = x * e^{2 pi i \xi x}

시그모이드 함수는 $-1$ 과 $1$ 사이의 값을 출력합니다.
은닉층에 대해 사용되곤 합니다.
- 이 역시 그라디언트 소실에 취약한 특징이 있습니다.
- 중심점이 $0$ 인 덕분에 시그모이드 보다는 학습 속도가 빠릅니다.

ReLu, Rectified linear Unit

\text{ReLU}(x) = \max(0,x)f(x) = x * e^{2 pi i \xi x}

렐루 함수는 $0$ 부터 $\inf$ 까지의 값을 출력합니다.
대부분의 은닉층에서 사용됩니다.
- 그라디언트 소실 문제를 방지할 수 있습니다. 다만 뉴런이 음수 값에 고정되는 Dying ReLU라는 특수한 문제가 있습니다.
- 학습 속도가 빠릅니다.

Leaky ReLU

\text{LeakyReLU}(x) = \begin{cases} x &\text{if }x > 0 \\ \alpha \cdot x &\text{otherwise} \end{cases}

릭키 렐루 함수는 $-\inf$ 부터 $\inf$ 까지의 값을 출력합니다.
Dying ReLU 문제를 해결첵으로 고안되었습니다.
$\alpha$ 가 학습 중에 조정되는 릭키 렐루 함수를 PReLU(Parametric ReLU)라 합니다.

ELU, Exponential Linear Unit

\text{ELU}(x) = \begin{cases} x &\text{if } x > 0 \\ \alpha(e^x - 1) &\text{otherwise} \end{cases}

$-\alpha$ 에서 $\inf$ 까지의 값을 출력합니다.
렐루 함수보다 약간 나은 성능을 가져다 줍니다.

Swish, Google Brain

\text{Swish}(x) = x\cdot \sigma(\beta \cdot x) \newline\text{where }\alpha \text{ sigmoid}, \beta \text{ is learnable parameter}

$-\inf$ 에서 $\inf$ 까지의 값을 출력합니다.
심층 신경망에서 렐루 함수보다 뛰어난 성능을 보여줍니다.