Adam, AdamW, SGD & batch size를 global minima 위주로.
KL Divergence는 비대칭적이다.
$KL(p||q) \neq KL(q||p)$
(레퍼런스 찾기) Local Minima는 정말 학습에 큰 걸림돌일까?
AI에 대해 배우다 보면 정말 많은 최적화 기법들을 보게 된다. 그 중에 상당수는 local minima를 벗어나기 위해 고안된 방법들로 알려져 있다. 하지만, local minima는 그에 맞는 대응책을 항상 대비해둬야 할 정도로 흔히 발생하는 현상일까? local minima에 빠지기 위해서는 모델의 모든 가중치에 대한 오차 미분 값이 0에 가까워져야 한다. 모델에 따라 다르겠으나, 일반적으로 언어 모델에 사용되는 모델의 파라미터는 1b(10억) 단위이다. 그렇다면 10억 개의 파라미터에 대해 오차 미분이 0의 값을 가져야 하는데, 이러한 이유 때문에 local minima로 인한 문제는 그리 빈번히 발생하지 못한다. 심지어, 그 수가 굉장히 적기 때문에 사실상 global minima에서의 오차와 큰 차이를 갖지 않는다.