【オセロ,将棋】ボードゲーム Part2【囲碁,War】

【オセロ,将棋】ボードゲーム Part2【囲碁,War】 at GAMEDEV

【オセロ,将棋】ボードゲーム Part2【囲碁,War】 - 暇つぶし2ch■コピペモード
□スレを通常表示
□オプションモード
□このｽﾚｯﾄﾞのURL
■項目テキスト

300:310
 18/03/15 22:46:56.01 CxmBs8oA.net
強化学習がおかしいというより、記譜のパターンが圧倒的に足りていなかった 
のかもと思い始めました。それによって、着手して分岐しても±０となっている 
みたいな。 
とりあえず、記譜の増殖手段を模索中。 
今は、ヌルウィンドウサーチを使用して、遡り探索を行っている関係で、間違った 
着手（石損となる手）を捨ててますが、ある程度までその手も読み切って、記譜に 
加えても良いのかなぁと思っています。 
とりあえず、βカット（もっと良い手があった）時の評価関数は明らかに読み間違い 
をしているので、そこ限定で記譜に加えていますが、ある程度以上の手数は全て 
付け足しても良いのかなぁと。

301:310
 18/03/17 02:14:23.31 Foa7nGV6.net
なんとなく想像しただけですが、何が悪かったのかわかり始めました。 
今の学習は「良い手」しか学習していないという事です。 
序盤はある程度ランダムな着手を入れて、結果がばらつくようにしていますが、 
途中から読みを入れて、良い手だけで着手し、その結果を遡りで訂正しています。 
遡りが有効なのは３０手くらいまでで、序盤のランダムは２０手程度までに抑えて 
あります。とすると、遡れる範囲では、悪手を打ったらどういう事になるのかという 
学習が抜けている。間違えた着手もちょっとだけ悪いだけでです。結果、最善手の 
評価値はそこそこ正確なのですが、極端な悪手も、評価値としてはちょっとだけ 
悪い数字でも問題が起きないという事になります。 
これはこれで順序付けさえ合っていればそれで良いのですが、ちょっと学習が 
進んで、微妙に係数が変わった時に、計算上０．１程度しか悪くない相当な悪手 
をうっかり選択しやすくなってしまうという事で、これがオーダリングで悪さをして、 
探索時間を長引かせてしまう可能性があります。 
恐らく評価関数のステージ分割で、表現力がかなりアップした事から、こういう 
学習漏れみたいな事が起きてくるのかなぁと。ほんと、評価関数はスカスカです。 
というわけで、昨夜書いたように、ある程度深さを捨てて分岐をすべて記譜に残す 
ようにしてみようかなぁと思っています。しばらく記譜作成しながら、この事を踏まえ 
た強化学習をちょっと考えてみたいと思っています。

次ページ