知能研究スレ2

知能研究スレ2at FUTURE

知能研究スレ2 - 暇つぶし2ch170:>>169
18/08/27 09:44:09.35 Zq8VRJ9K.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
Page 6
A）アタリゲームズ
これらの質問に答えるために、我々はよく知られているAtariゲームのコレクションから始め、異なるフィーチャラーニング方法で一連の実験を行いました。
純粋に好奇心を要するエージェントがどれだけうまくいくかを測定する1つの方法は、それが達成できる外的報酬、すなわちゲームをプレイするエージェントがどれほど良いかを測定することです。
我々は、図2の8つの一般的なAtariゲームと、付録の図8のすべてのAtariスイート48の平均外的報酬の評価曲線を示します。
外的報酬は評価のためにのみ使用され、訓練には使用されないことに注意することが重要です。
しかし、これは純粋な探索のプロキシであり、ゲーム報酬は任意であり、エージェントが好奇心からどのように探究するかと全く一致しない可能性があるためです。
カーブから最初に気がつくのは、ほとんどが上がっていることです。
これは、純粋な好奇心に基づいたエージェントが、トレーニング中に外的報酬を使用しなくても外部報酬を得ることを学ぶことができることを示しています。
外的報酬もエピソード信号の終わりもないエージェントは、ある場合には外的報酬での学習に匹敵する得点を得ることを学ぶことができることは注目に値する。
たとえば、「ブレイクアウト」では、パドルをボールに当てて消えるレンガにボールを当てるとゲームスコアが上昇し、打撃を受けたときにポイントが与えられます。
ブリックがボールによって連続して打たれればするほど、レンガのパターンが複雑になり、エージェントはより掘り下げて探索することができます。したがって、ポイントをバイプロダクトとして収集します。
さらに、エージェントの寿命がなくなると、レンガは以前に何度もエージェントに見られた均一な構造に再びリセットされ、したがって非常に予測可能であるため、エージェントは死によってリセットされるのを避けることによって好奇心をそそるために生きている。

次ページ

続きを表示

1を表示