ゲーマーLV90 人工知能編at GAMEDEVゲーマーLV90 人工知能編 - 暇つぶし2ch■コピペモード□スレを通常表示□オプションモード□このスレッドのURL■項目テキスト8:ゲーマーLV90 18/05/03 17:52:34.25 aC7LfhT5.net 説明が失敗しそうな予感がする 状態+行動=報酬 状態 行動 効果 報酬 報酬量 状態13 行動13 効果13 報酬25 報酬量8 記憶 状態 行動 報酬量? 回数 上限 状態 認識 参照 行動 報酬 記憶 状態nの時に行動nをしたら報酬nが得られた 9:ゲーマーLV90 18/05/03 17:53:29.36 aC7LfhT5.net モード 学習データ作成モード 状態に対して学習データを参照して 回数が少ない行動を取る 回数が同じ場合は 行動変数小さい順 や 行動01から順に など 学習データ使用モード 状態に対して学習データを参照して 報酬が一番高く確率が高い行動を選択 確率が同じ場合新しいのを選択 や スコアがn点になるように行動 n点になったらその点数を維持 など 10:ゲーマーLV90 18/05/03 17:54:23.34 aC7LfhT5.net 記憶上限 報酬複数や報酬変化に対応 など 上限超えた記憶を消すのが重要 上限少ない方が適応が速い 状態 行動 結果 回数=% 上限 回数=報酬を得た回数 古いのから消えていく 例 報酬複数 状態01+行動01=報酬01 50 100 状態01+行動01=報酬02 30 100 状態01+行動01=報酬03 20 100 状態+行動=報酬 の表の作成と使用 表の作成=学習 表の使用=予測 状態ランダムテーブルシャッフル 09 08 07 04 05 06 03 02 01 10 13 12 11 など 13回状態変えたらシャッフル 一応確率式でも可能だけど確率式だと学習漏れする可能性がある 100÷13=約7.69% 01から13まで各状態7.69%とかだと学習漏れの可能性 学習率 学習率100%=表の完成? 確率的な場合 表が完成しない場合もある 記憶上限も関係? 次ページ最新レス表示レスジャンプ類似スレ一覧スレッドの検索話題のニュースおまかせリストオプションしおりを挟むスレッドに書込スレッドの一覧暇つぶし2ch