【オセロ,将棋】ボードゲーム Part2【囲碁,War】 at GAMEDEV【オセロ,将棋】ボードゲーム Part2【囲碁,War】 - 暇つぶし2ch■コピペモード□スレを通常表示□オプションモード□このスレッドのURL■項目テキスト300:310 18/03/15 22:46:56.01 CxmBs8oA.net 強化学習がおかしいというより、記譜のパターンが圧倒的に足りていなかった のかもと思い始めました。それによって、着手して分岐しても±0となっている みたいな。 とりあえず、記譜の増殖手段を模索中。 今は、ヌルウィンドウサーチを使用して、遡り探索を行っている関係で、間違った 着手(石損となる手)を捨ててますが、ある程度までその手も読み切って、記譜に 加えても良いのかなぁと思っています。 とりあえず、βカット(もっと良い手があった)時の評価関数は明らかに読み間違い をしているので、そこ限定で記譜に加えていますが、ある程度以上の手数は全て 付け足しても良いのかなぁと。 301:310 18/03/17 02:14:23.31 Foa7nGV6.net なんとなく想像しただけですが、何が悪かったのかわかり始めました。 今の学習は「良い手」しか学習していないという事です。 序盤はある程度ランダムな着手を入れて、結果がばらつくようにしていますが、 途中から読みを入れて、良い手だけで着手し、その結果を遡りで訂正しています。 遡りが有効なのは30手くらいまでで、序盤のランダムは20手程度までに抑えて あります。とすると、遡れる範囲では、悪手を打ったらどういう事になるのかという 学習が抜けている。間違えた着手もちょっとだけ悪いだけでです。結果、最善手の 評価値はそこそこ正確なのですが、極端な悪手も、評価値としてはちょっとだけ 悪い数字でも問題が起きないという事になります。 これはこれで順序付けさえ合っていればそれで良いのですが、ちょっと学習が 進んで、微妙に係数が変わった時に、計算上0.1程度しか悪くない相当な悪手 をうっかり選択しやすくなってしまうという事で、これがオーダリングで悪さをして、 探索時間を長引かせてしまう可能性があります。 恐らく評価関数のステージ分割で、表現力がかなりアップした事から、こういう 学習漏れみたいな事が起きてくるのかなぁと。ほんと、評価関数はスカスカです。 というわけで、昨夜書いたように、ある程度深さを捨てて分岐をすべて記譜に残す ようにしてみようかなぁと思っています。しばらく記譜作成しながら、この事を踏まえ た強化学習をちょっと考えてみたいと思っています。 次ページ最新レス表示レスジャンプ類似スレ一覧スレッドの検索話題のニュースおまかせリストオプションしおりを挟むスレッドに書込スレッドの一覧暇つぶし2ch