gradient 계산과 inductive bias 위주로

2.1 MLP

인공지능 초기에 등장한 모델로, 최초의 다층 레이어이다. FCNN(Fully Connected Neural Network) 또는 Dense Layer라고도 부른다.

2.1.1 Universial Approximation Theorem, Symbolic regression

2.1.2 Perceptron

아핀 변환

2.1.3 Activation Function, Loss Function

MLP는 다음과 같이 쓸 수 있다:

$$ \hat{y}=\sigma(Wx+b) $$

$$ f_{loss}={{1}\over{2}}(\hat{y}-y)^2\\{{df_{loss}}\over{d\hat{y}}}=(\hat{y}-y) $$

2.1.4 Gradient Descent

activation function에는 sigmoid, tanh, ReLU 등 다양한 함수가 있다. 하지만 최근에 등장한 대부분의 모델에서는 ReLU가 사용되는데, 그 이유는 다음과 같다:

기울기 소실(Vanishing Gradient) 문제 - sigmoid와 tanh의 경우 미분했을 때 1 이하의 값을 가진다. 이는 신경망이 깊어질수록 기울기가 점차 작아짐을 의미한다.
계산 비용 - ReLU는 추론 및 backpropagation 과정의 계산에 있어서 매우 효율적이다. 다른 함수들과 달리 입력 값 또는 0을 출력하고 미분형은 0 또는 1이라는 단순한 형태를 가지고 있다.
희소 활성화 - ReLU는 0 이상의 입력에 대해서만 출력을 가지기 때문에 모든 뉴런이 활성화되지 않는다.

2.1.5 계산 그래프, 자동 미분