おまいら最強の将棋プログラムしてみろよ part6at TECH
おまいら最強の将棋プログラムしてみろよ part6 - 暇つぶし2ch51:デフォルトの名無しさん
07/05/03 21:17:55
>>7

強化学習と機械学習の差を強調して書くなら、こんな感じ。

最適(と思われる)行動が教示されるのが機械学習で、Bonanzaはこれ。
将棋で言うと最善手が教示される(実際にはプロが指した手=最善手と見なしているが)。

過去の(≠直前の)行動に対して報酬が与えられるのが強化学習で、実現したソフトは(選手権参加ソフトが公開している情報を見る限りでは)まだ無い。
将棋で言うと勝ったから100点の報酬をあげる、とかそんな感じ。

まぁ、実際には他にも色々差があるわけですが。詳しい事は7氏の買った本に載ってます。

ちなみに私は構想中。来年の選手権はそれで出ます。


次ページ
続きを表示
1を表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch