知能研究スレ2

知能研究スレ2at FUTURE

知能研究スレ2 - 暇つぶし2ch164:>>163
18/08/27 09:38:35.96 Zq8VRJ9K.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
Page 4
次に、埋め込みネットワークφとして平均値への写像を用いることができる。
These features will be a low-dimensional approximately sufficient summary of the observation,
これらの特徴は、観察の低次元の概ね十分な要約であり、
but they may still contain some irrelevant details such as noise, and the features will change over time as the VAE trains.
ノイズなどの無関係な詳細が含まれている可能性があります。その機能は、VAEがトレーニングするにつれて変化します。
逆動力学的特徴（IDF）遷移（st、st + 1、at）が与えられると、逆動力学の仕事は、前と次の状態stとst + 1が与えられた時の行動を予測することです。
特徴は、最初にstとst + 1を埋め込むために共通のニューラルネットワークφを用いて学習される。
直感は、学んだ機能は、エージェントの即時制御下にある環境の側面に対応する必要があるということです。
この特徴学習法は実装が容易であり、原理的にはある種のノイズに対して不変でなければならない（議論については[27]を参照）。
潜在的な欠点は、学んだ機能が十分でないこと、つまりエージェントが直ちに影響を及ぼさない環境の重要な側面を表すものではないことです。
これらの特性の概要を表1に示す。
学習された特徴は、学習が進むにつれて分布が変化するため、安定していないことに注意してください。
安定性を達成する1つの方法は、VAEまたはIDFネットワークを事前にトレーニングすることです。
ただし、ゲームの内部状態にアクセスできない場合は、ゲームシーンの代表データを取得して機能をトレーニングすることはできません。
1つの方法は、ランダムにデータを収集することですが、エージェントが開始した場所に偏ってしまい、さらに一般化しません。
すべての機能には望ましい特性のトレードオフが含まれているため、それぞれの環境がどのように効果的かという経験的な疑問になります。

次ページ

続きを表示

1を表示