知能研究スレ2at FUTURE
知能研究スレ2 - 暇つぶし2ch200:>>199
18/08/27 10:17:54.98 Zq8VRJ9K.net BE:138871639-2BP(0)
URLリンク(img.5ch.net)
Reward Gravitar Freeway Venture PrivateEye MontezumaRevenge ? Gravitar Freewayベンチャーに報酬を与えるPrivateEye Montezuma Revenge
Ext Only 999.3±220.7 33.3±0.6 0±0 5020.3±395 1783±691.7
Ext + Int 1165.1±53.6 32.8±0.3 416±416 3036.5±952.1 2504.6±4.6
表2:
これらの結果は、内因性+外因性報酬と外因性報酬のみを訓練した薬剤について、3種の種子にわたって1億フレーム後の平均報酬(±std-error)を比較する。
外因性(係数1.0)および内因性報酬(係数0.01)は、ハイパーパラメータ調整なしで直接結合された。
私たちは、将来の仕事まで内在的な報酬と内在的な報酬を最適に組み合わせる方法について質問を残します。
これは、内因性報酬と外的要因を組み合わせることが論文の焦点では​​なく、これらの実験が完全性のために提供されていることを強調しています。
B.1
アタリ
探索の量をより正確に測定するために、図7(a)の好奇心に基づくエージェントと図7(b)のエピソードの長さの最良のリターンを提供します。
特に、ポンでは、エピソードの長さが長くなり、リターンの高原と相まって、代理人は報酬ではなくボールのバウンス数を最大にすることを示しています。
図8は、48個のAtariゲームでの逆動力学とランダム機能に基づく好奇心に基づくエージェントのパフォーマンスを示しています。
このペーパーの焦点では​​ありませんが、完全性のために、いくつかの希少な報酬Atariゲームに内的および外的報酬を組み合わせたいくつかの結果が含まれています。
外的報酬と組み合わせる場合、エピソード信号の終わりを使用します。
使用された報酬は、外的報酬に内的報酬の0.01倍を加えたものである。
結果を表2に示す。
内在的な報酬と外的報酬の組み合わせを調整する必要があるため、設定間に大きな違いはありません。
私たちはMontezuma's Revengeの本質的な+外因的な実行の1つが10の部屋を探索したことを観察しました。
3ウェブサイトURLリンク(pathak22.github.io)
13


次ページ
続きを表示
1を表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch