조경현 교수님의 부스트코스 딥러닝을 이용한 자연어처리 강의를 들으며 Questions 부분에 대해 다시 한 번 정리해보았다. 꽤 얻어갈 것들이 많은 챕터인 것 같다.
1. 모델 아키텍쳐의 결정 방법 이론은 존재하나요? 어떻게 결정해야 할까요?
theoroctical하게 봤을 때, 우리가 개런티를 알고 있는 경우가 별로 없다. 심지어 distribution이 명확히 주어졌다고 해도 어떤 아키텍쳐가 가장 Optimal 한지는 모른다. geometry를 보면서 하는 방법 등 approximate 할 방법이 조금은 있지만 실전에 활용한 만큼의 theory가 아직 없다. 만약 input이 NN 아키텍처로 output이 아키텍처의 성능이면 supurvised 위에 supervised learning을 할 수 있지 않나?
뉴럴 아키텍처 서치, 또는 메타 러닝 이라고도 한다.
2. 확률적 경사 하강법(Stochastic Gradient Descent)에서 확률적(Stochastic)은 무엇을 뜻하나요?
Deterministic과 Stochastic
Deterministic은 계산할 때마다 계속 같은 값이 나오는것
Stochastic은 노이즈나 Random Variable이 껴있어서 계산할때마다 값이 조금씩 달라지는 것
Deterministic
- 그냥 Gradient를 있는 그대로 계산한다고 하면 모든 training example 다 써서 forward propagation하고 backpropagation하면 Gradient가 나온다. 이는 일정하다.
Stochastic
- training example중에서 아주 조금씩 random하게 고른다음에 Gradient를 Approximate하는것이다.
어떤 training example을 고르냐가 다르기 때문에 값이 조금씩 바뀌는 것이다.
3. 베르누이 분포에서 시그모이드 함수와 소프트맥스 함수를 쓰는 것이 어떤 차이가 있나요?
categorical distribution은 class가 여러개 이고 binary는 class가 두개인데, 카테고리에서 c를 2로 세팅하면서 binary distribution을 할 수는 있는데 Optimization 관점에서는 동일하진 않다. function space에서는 동일하지만, parameter space에서는 동일하지 않다.