gradient 계산과 inductive bias 위주로
인공지능 초기에 등장한 모델로, 최초의 다층 레이어이다. FCNN(Fully Connected Neural Network) 또는 Dense Layer라고도 부른다.
아핀 변환
MLP는 다음과 같이 쓸 수 있다:
$$ \hat{y}=\sigma(Wx+b) $$
$$ f_{loss}={{1}\over{2}}(\hat{y}-y)^2\\{{df_{loss}}\over{d\hat{y}}}=(\hat{y}-y) $$
activation function에는 sigmoid, tanh, ReLU 등 다양한 함수가 있다. 하지만 최근에 등장한 대부분의 모델에서는 ReLU가 사용되는데, 그 이유는 다음과 같다:
기울기 소실(Vanishing Gradient) 문제 - sigmoid와 tanh의 경우 미분했을 때 1 이하의 값을 가진다. 이는 신경망이 깊어질수록 기울기가 점차 작아짐을 의미한다.
계산 비용 - ReLU는 추론 및 backpropagation 과정의 계산에 있어서 매우 효율적이다. 다른 함수들과 달리 입력 값 또는 0을 출력하고 미분형은 0 또는 1이라는 단순한 형태를 가지고 있다.
희소 활성화 - ReLU는 0 이상의 입력에 대해서만 출력을 가지기 때문에 모든 뉴런이 활성화되지 않는다.
