Early-stage of AI: Perceptron and ADALINE

퍼셉트론(perceptron)과 아달린(ADALINE)은 딥러닝의 기초가 되는 핵심 개념입니다. 두 모델은 인공 신경망의 초기 형태로서 현대 신경망 구조의 이해와 개발에 중요합니다. 퍼셉트론은 이진 분류기로 시작해 아달린과 함께 정교한 학습 알고리즘으로 발전했고, 이는 현재의 다층 신경망과 딥러닝 모델의 토대가 되어 복잡한 패턴 인식과 데이터 처리를 가능하게 했습니다.

Perceptron

퍼셉트론 또는 이진분류기(binary classifier)는 이진분류의 학습 알고리즘입니다. 선형 분류기의 일종으로 무게, 특징의 곱합과 반응하는 선형예측함수를 사용합니다.

발명가의 이름을 따서 McCulloch-Pitts neuron로도 불립니다.

현대 머신러닝의 맥락에서 퍼셉트론은 이진 분류기를 학습하는 알고리즘 중에서도 임계함수의 발명이 더 강조됩니다.

퍼셉트론의 역사

퍼셉트론은 1943년 Warren McCulloch와 Walter Pitts에 의해 처음 발명되었습니다. 이것은 소프트웨어 형태가 아니라 IBM 704란 기계로 구현된 것이었습니다. 이후, 소프트웨어로 구현된 Mark 1 Perceptron이 등장했습니다—이는 이미지를 분류할 목적으로 400개의 포토셀을 입력으로 받았습니다.

Mathematical Definition

현대에 와서 퍼셉트론은 계단함수(step function)를 포함하는 이진 분류기의 알고리즘으로 인식됩니다.

f(z) = y = f[w(t)\cdot x_j]

$r$ 은 학습률입니다. $0$ 과 $1$ 사이의 값을 가집니다. 클수록 가중치가 크게 변동합니다.
$D = \left\{(x_1, d_1), ...,(x_s,d_s)\right\}$ 은 훈련 데이터입니다.
- $x_j$ 는 $n$ 차원의 입력 벡터입니다.
- $d_j$ 는 입력에 대해 퍼셉트론이 내놓아야 할 출력입니다.
특징과 자료의 색인은 다음과 같이 표현합니다.
- $x_{j,i}$ 는 $j$ 번째 입력의 $i$ 번째 특징이다.
- $x_{j,0} = 1$
무게는 다음과 같이 표현될 수 있습니다.
- $w_i$ 는 무게에서 i번째 값이며 입력의 $i$ 번째 특징과 곱해집니다.
- $x_{j,0} = 1$ 이기 때문에 $w_0$ 은 상수 $b$ 라고 볼 수 있습니다.
- 시간에 따른 $w$ 를 나타내기 위해 다음과 같은 표기를 사용합니다.
  - $w_i(t)$ 은 $t$ 에서의 $i$ 번째 무게의 값을 말합니다.
$f$ 는 임계함수입니다.

Learning Step

가중치를 시작합니다. 이들은 0 또는 난수로 초기화될 수 있습니다.
$D$ 의 각 $j$ 에 대해 다음의 걸음을 수행합니다.
1. 출력을 계산합니다: $y_j(t) = f[w(t) \cdot x_j]$
2. 무게를 갱신합니다: $w_i(t+1) = w_i(t) + r \cdot (d_j-y_j(t))x_{j,i}$
오류가 없어지거나 어떤 임계에 달하면 발자국이 멈춥니다.
1. 이때 특정한 단계까지 반복이 멈추지 않는 학습을 오프라인 학습(offline learning)라 합니다.

에니메이션을 통한 이해

ADALINE

아달린(Adaptive Linear Neuron, Adaptive Linear Element)는 단층의 인공 신경망입니다. 퍼셉트론에 근거하고 있으며 무게, 절편, 총합 함수를 사용합니다.

아달린과 퍼셉트론의 차이

퍼셉트론은 활성화 함수를 학습에 포함시킵니다. 이런 이유로 퍼셉트론은 불연속적인 성질을 가지게 됩니다.
아달린은 활성화 함수를 학습에 포함시키지 않습니다. 이런 이유로 아달린은 연속적인 성질을 가지게 되며; 퍼셉트론 보다 더 큰 선형성을 가집니다.
- 이와 더불어 활성호 함수로 계단함수보단 선형함수를 선택합는 경우가 대부분입니다.

스탠포드 대학교의 Bernard Widrow 교수와 그의 학생 Ted Hoff가 1960년에 개발하였습니다.

순전파를 사용하며 완전 연결된 신경망을 마달린(Many Adaline)이라고 부릅니다. 마딜린은 은닉층과 출력층에 대한 활성화 함수로 시그넘 함수(signum function)을 사용합니다. 또 각 층이 다른 훈련 알고리즘을 가집니다—이는 역전파를 통해 훈련하는 걸 불가능하게 합니다.

Mathematical Definition

아달린은 다양한 노드로 구성된 다층 신경망으로 여러 입력을 받아 하나의 출력을 만들어야 합니다.

y = \Sigma^{n}_{j=0}x_jw_j + \theta

$x$ 는 입력 벡터입니다.
- $x_0 = 1$ 입니다.
$w$ 는 가중치 벡터입니다.
- $w_0 = 0$ 입니다.
$n$ 은 입력의 갯수입니다.
$\theta$ 는 상수입니다.
$y$ 는 모델의 출력입니다.

Leaning Step

아달린의 학습법은 경사 하강법의 일종인 최소 제곱법(least mean squares)이 사용됩니다. 가중치가 갱신되기 위한 알고리즘과 그 변수는 다음과 같습니다.

w \leftarrow w + \eta(o-y)x

$\eta$ 는 학습률입니다.
$y$ 는 모델의 출력입니다.
$o$ 는 출력입니다.
$E = (o-y)^2$ 는 오류에 대한 제곱입니다.

PreviousFoundational Work of ML: Linear/Logistic Regression NextWhat is Deep Learning?: Artificial Neural Network to Deep Neural Network

Last updated 1 month ago

Early-stage of AI: Perceptron and ADALINE

Perceptron

발명가의 이름을 따서 McCulloch-Pitts neuron로도 불립니다.

현대 머신러닝의 맥락에서 퍼셉트론은 이진 분류기를 학습하는 알고리즘 중에서도 임계함수의 발명이 더 강조됩니다.

퍼셉트론의 역사

Mathematical Definition

현대에 와서 퍼셉트론은 계단함수(step function)를 포함하는 이진 분류기의 알고리즘으로 인식됩니다.

f(z) = y = f[w(t)\cdot x_j]

$r$ 은 학습률입니다. $0$ 과 $1$ 사이의 값을 가집니다. 클수록 가중치가 크게 변동합니다.
$D = \left\{(x_1, d_1), ...,(x_s,d_s)\right\}$ 은 훈련 데이터입니다.
- $x_j$ 는 $n$ 차원의 입력 벡터입니다.
- $d_j$ 는 입력에 대해 퍼셉트론이 내놓아야 할 출력입니다.
특징과 자료의 색인은 다음과 같이 표현합니다.
- $x_{j,i}$ 는 $j$ 번째 입력의 $i$ 번째 특징이다.
- $x_{j,0} = 1$
무게는 다음과 같이 표현될 수 있습니다.
- $w_i$ 는 무게에서 i번째 값이며 입력의 $i$ 번째 특징과 곱해집니다.
- $x_{j,0} = 1$ 이기 때문에 $w_0$ 은 상수 $b$ 라고 볼 수 있습니다.
- 시간에 따른 $w$ 를 나타내기 위해 다음과 같은 표기를 사용합니다.
  - $w_i(t)$ 은 $t$ 에서의 $i$ 번째 무게의 값을 말합니다.
$f$ 는 임계함수입니다.

Learning Step

가중치를 시작합니다. 이들은 0 또는 난수로 초기화될 수 있습니다.
$D$ 의 각 $j$ 에 대해 다음의 걸음을 수행합니다.
1. 출력을 계산합니다: $y_j(t) = f[w(t) \cdot x_j]$
2. 무게를 갱신합니다: $w_i(t+1) = w_i(t) + r \cdot (d_j-y_j(t))x_{j,i}$
오류가 없어지거나 어떤 임계에 달하면 발자국이 멈춥니다.
1. 이때 특정한 단계까지 반복이 멈추지 않는 학습을 오프라인 학습(offline learning)라 합니다.

에니메이션을 통한 이해

ADALINE

아달린(Adaptive Linear Neuron, Adaptive Linear Element)는 단층의 인공 신경망입니다. 퍼셉트론에 근거하고 있으며 무게, 절편, 총합 함수를 사용합니다.

아달린과 퍼셉트론의 차이

퍼셉트론은 활성화 함수를 학습에 포함시킵니다. 이런 이유로 퍼셉트론은 불연속적인 성질을 가지게 됩니다.
아달린은 활성화 함수를 학습에 포함시키지 않습니다. 이런 이유로 아달린은 연속적인 성질을 가지게 되며; 퍼셉트론 보다 더 큰 선형성을 가집니다.
- 이와 더불어 활성호 함수로 계단함수보단 선형함수를 선택합는 경우가 대부분입니다.

스탠포드 대학교의 Bernard Widrow 교수와 그의 학생 Ted Hoff가 1960년에 개발하였습니다.

Mathematical Definition

아달린은 다양한 노드로 구성된 다층 신경망으로 여러 입력을 받아 하나의 출력을 만들어야 합니다.

y = \Sigma^{n}_{j=0}x_jw_j + \theta

$x$ 는 입력 벡터입니다.
- $x_0 = 1$ 입니다.
$w$ 는 가중치 벡터입니다.
- $w_0 = 0$ 입니다.
$n$ 은 입력의 갯수입니다.
$\theta$ 는 상수입니다.
$y$ 는 모델의 출력입니다.

Leaning Step

w \leftarrow w + \eta(o-y)x

$\eta$ 는 학습률입니다.
$y$ 는 모델의 출력입니다.
$o$ 는 출력입니다.
$E = (o-y)^2$ 는 오류에 대한 제곱입니다.

PreviousFoundational Work of ML: Linear/Logistic Regression NextWhat is Deep Learning?: Artificial Neural Network to Deep Neural Network

Last updated 1 month ago