19/02/26 20:43:24.25 DUz4HSDe0.net
>>871
すみません、そのページを読んでみたのですが、まだ理解できません。
a に添字 b を下付きしたものを a_b と表すとして、
state-value function v_π(s) = E_π [G_t | S_t = s] を私は次のように式変形しました。
v_π(s) = E_π[R_(t+1) + γG_(t+1) | S_t = s]
v_π(s) = E_π[R_(t+1) | S_t = s] + E_π[γG_(t+1) | S_t = s]
私が分からないのは第2項の期待値の計算です。
E_π[γG_(t+1) | S_t = s] = Σ_a π(a|s) Σ_s'r p(sr', r|s, a) (γG_(t+1))
このように展開できると思うのですが違いますか?