19/02/23 13:49:07.74 px1wMGql0.net
強化学習の state-value の式について質問です。
スレチでしたらご指摘ください。
「Reinforcement Learning: An Introduction」のPDFを読んでいます。
URLリンク(incompleteideas.net)
59ページ目にstate-valueが自己再帰の形で表せる事を示した式がありますが、
この式の2行目から3行目に式変形できる理由が分かりません。
角括弧の中の Rt+1 が r になるのは分かるのですが、
なぜ Gt+1 が Eπ[G+1 | St+1 = s'] になるのでしょうか。
この辺りのことを説明したwebページや書籍の紹介だけでも構いません。