知能研究スレ2

知能研究スレ2at FUTURE

知能研究スレ2 - 暇つぶし2ch200:>>199
18/08/27 10:17:54.98 Zq8VRJ9K.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
Reward Gravitar Freeway Venture PrivateEye MontezumaRevenge ? Gravitar Freewayベンチャーに報酬を与えるPrivateEye Montezuma Revenge
Ext Only 999.3±220.7 33.3±0.6 0±0 5020.3±395 1783±691.7
Ext + Int 1165.1±53.6 32.8±0.3 416±416 3036.5±952.1 2504.6±4.6
表2：
これらの結果は、内因性+外因性報酬と外因性報酬のみを訓練した薬剤について、3種の種子にわたって1億フレーム後の平均報酬（±std-error）を比較する。
外因性（係数1.0）および内因性報酬（係数0.01）は、ハイパーパラメータ調整なしで直接結合された。
私たちは、将来の仕事まで内在的な報酬と内在的な報酬を最適に組み合わせる方法について質問を残します。
これは、内因性報酬と外的要因を組み合わせることが論文の焦点ではなく、これらの実験が完全性のために提供されていることを強調しています。
B.1
アタリ
探索の量をより正確に測定するために、図7（a）の好奇心に基づくエージェントと図7（b）のエピソードの長さの最良のリターンを提供します。
特に、ポンでは、エピソードの長さが長くなり、リターンの高原と相まって、代理人は報酬ではなくボールのバウンス数を最大にすることを示しています。
図8は、48個のAtariゲームでの逆動力学とランダム機能に基づく好奇心に基づくエージェントのパフォーマンスを示しています。
このペーパーの焦点ではありませんが、完全性のために、いくつかの希少な報酬Atariゲームに内的および外的報酬を組み合わせたいくつかの結果が含まれています。
外的報酬と組み合わせる場合、エピソード信号の終わりを使用します。
使用された報酬は、外的報酬に内的報酬の0.01倍を加えたものである。
結果を表2に示す。
内在的な報酬と外的報酬の組み合わせを調整する必要があるため、設定間に大きな違いはありません。
私たちはMontezuma's Revengeの本質的な+外因的な実行の1つが10の部屋を探索したことを観察しました。
3ウェブサイトURLﾘﾝｸ(pathak22.github.io)
13

次ページ

続きを表示

1を表示