16/11/23 23:44:19.77 QVzTHJ21.net
>>113
SGDは確率的勾配降下法のこと。
Momentum(モーメンタム)、AdaGrad(アダグラッド)、Adam
はSGDに代わる手法のこと。
ハイパーパラメーターは学習のときに自分で設定する(チューニングする)値のこと。
あとXavierじゃなくてWeight decayだった。
Xavierは重みの初期値の一種ね。
Weight DecayやDropoutは過学習を抑制するための技術。
過学習はあるデータでうまく対応できるが、
他のデータではうまく対応できないこと。
わかりやすくいうと、
たとえば
りんごを人工知能で画像認識したいとする。
その場合「赤りんご」ばっかり学習していて、
「青りんご」が出されたときに認識出来ないというようなパターン。
この場合赤りんごばっかり学習し過ぎたから、
過学習が起こっている。
>>107
泥臭く頑張ります