10/07/20 16:08:00
ハーイじゃあ全然関係ないけど
>>528訳しマース
ビール3本目だから怪しいけどw
まず前半
本稿で提示される、総合の方法は、概念としては、
状態を報酬に基づいて統合して状態を選ぶと言う意味で、
MDPの総合に使われるものと近い。
(リワードって日本語なんだろうね、英語だと明らかなんだけど)
確率的動的計画法は、価値関数の推定に基づいて、動的に状態を統合する
(Boutilier, Dearden, & Goldszmidt 2000)
Dietterich and Flann は、状態空間に置ける長方形の領域を、
目標に基づく報酬関数から、逆に求められる価値に基づいて統合している (Dietterich & Flann 1995)。
我々の手法とこれらの手法の相違は、
我々の手法は、部分的に観察可能な問題のみを対象としてデザインされ、
有限時間問題の時間軸のみに適用可能なことである。