現代数学の系譜 古典ガロア理論を読む35at MATH
現代数学の系譜 古典ガロア理論を読む35 - 暇つぶし2ch535:search)の評価値を勝率に変換する関数で変換したもの。 交差エントロピーで勾配を求める場合、上式のように差をとるだけだ。この式の導出については、第4回電王トーナメントのときの白美神のPR文書にある。 http://denou.jp/tournament2016/img/PR/Hakubishin.pdf elmo式の雑巾絞りはこの式を次のように改良した。 dsig = (eval_winrate -t) + 0.5 * (eval_winrate ? teacher_winrate); tはこの局面の手番側が最終的に勝っているなら1(勝率100%)、負けているなら0(勝率0%)とする。 もともと、ゲームの勝敗を用いて強化学習を行うというのは、他の分野ではdeep learning + 強化学習という形でdeep learningの入門記事にもあるような内容だし、将棋ソフトにおいてもなかったアイデアではない。 どちらかと言えば、いまの雑巾絞りのようにRootStrapにするほうが特殊なアイデアである。しかし、RootStrapとして勝敗を用いるというのはなかったのではないかと思う。(Seleneが似たようなことをしていた気はするが) そして、elmoはそれがとてもうまくいくと実証したことも大きい。 興味深いことにelmo式で作成した評価関数は、以前の評価関数とは性質が異なるようで、短い時間(1スレッド1手1秒)では以前の評価関数に負け越すこともある。しかし長い時間になればなるほど以前の評価関数に勝ち越すようになる。(差が開くようになる) elmo式雑巾絞りが新たな扉を開いたことは間違いなさそうだ。 (引用終り)




次ページ
続きを表示
1を表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch