知能研究スレ2at FUTURE
知能研究スレ2 - 暇つぶし2ch165:>>164
18/08/27 09:39:30.15 Zq8VRJ9K.net BE:138871639-2BP(0)
URLリンク(img.5ch.net)
2.2
純粋に好奇心によって動かされるエージェントを訓練する際の実際的な考察
特徴空間を決定することは、実用的なシステムを実装する際のパズルの最初の部分に過ぎない。
ここでは、学習アルゴリズムで行った重要な選択について詳しく説明します。
私たちの目標は、学習をより安定したものにするため、非定常性を減らすことでした。
以下に概説する以下の考慮事項により、ハイパーパラメータの変更を最小限に抑えながら、さまざまなフィーチャ学習方法や環境で確実に動作するように探査を行うことができます。
• 姫PO。
一般に、我々は、PPOアルゴリズム[38]が、ハイパーパラメータチューニングをほとんど必要としない頑強な学習アルゴリズムであることを見出したので、我々は実験に固執する。
• 正規化に報いる。
報酬関数は非定常であるので、価値関数が迅速に学習できるように報酬のスケールを正規化することは有用である。
これは、報酬を、割引報酬の合計の標準偏差の実行中の見積もりで除算することによって行いました。
•アドバンテージの正規化。
PPOで訓練している間に、平均値0と標準偏差1を持つバッチの利点[46]を標準化します。
• 観測の正規化。
私たちは目標環境上でランダムエージェントを10000ステップ実行し、観測の平均と標準偏差を計算し、それらを使用してトレーニング時の観測値を正規化します。
これは、初期化時のフィーチャのばらつきが小さく、環境によってばらつきが少ないことを確認するのに便利です。
•より多くの俳優。
使用される並列アクター(バッチサイズに影響する)の数を増やすことによって、メソッドの安定性が大幅に向上します。
私たちは通常、エージェントを訓練する間にデータ収集に同じ環境の128並列実行を使用します。
•機能を正規化する。
内在的報酬と外的報酬を組み合わせる際に、内在報酬の規模が国家空間全体で一貫していることを保証することが有用であることがわかった。
我々は、特徴埋め込みネットワークにおいてバッチ正規化[13]を用いることによってこれを達成した。


次ページ
続きを表示
1を表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch