知能研究スレ2at FUTURE
知能研究スレ2 - 暇つぶし2ch173:>>172
18/08/27 09:48:40.33 Zq8VRJ9K.net BE:138871639-2BP(0)
URLリンク(img.5ch.net)
0 10 20 30
0 250 500 750 1000 1250 1500 1750 2000
エピソードごとの外来報酬
勾配の更新の数
(a)大きなバッチ付きマリオ
128環境のバッチ
バッチ1024環境
フレーム数(単位:百万)
(b)ジャグリング(Roboschool)
純粋な好奇心(無報酬、無限遠地平線)探査
ジャグリング(Roboschool)
フレーム数(単位:百万)
(c)2人用ポン
純粋な好奇心(無報酬、無限遠地平線)探査
2人のポン
図3:
(a)Left:MarioのRFメソッドと異なるバッチサイズの比較。
結果は外的報酬を使用しない。
(b)センター:ジャグリング(Roboschool)環境におけるボールのバウンス数。
(c)右:マルチプレイPong環境におけるエピソード長の平均。
The discontinuous jump on the graph corresponds to the agent reaching a limit of the environment -
グラフ上の不連続なジャンプは、エージェントが環境の限界に達することに対応します。
after a certain number of steps in the environment the Atari Pong emulator starts randomly cycling through background colors and becomes unresponsive to agent 's actions
環境内の特定のステップ数の後で、Atari Pongエミュレータは背景色をランダムに循環し始め、エージェントのアクションに応答しなくなります


次ページ
続きを表示
1を表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch