16/07/24 21:03:44.12 vG4gIeKF.net
memset(ちらっ)
>>360 ゲームネタ
巡回セールスマン問題をパックマンとみなして強化学習する(じふあにめ)
Using Deep Learning to Optimize the "Traveling Salesman" Problem
URLリンク(www.reddit.com)
すてーとおぶざあーと(ゆーちゅーぶ)
Deep Mind Playing Montezuma's Revenge with Intrinsic Motivation [video]
URLリンク(news.ycombinator.com)
二つ目にいたっては読むことははなからあきらめているし
一つ目も文字判定しただけなんだけど次のブログを思い出した: Mean field games
URLリンク(terrytao.wordpress.com)
ブログ内に勾配流からフォッカープランクの導出は書いてある
蛇足だけど最後にシュレディンガー方程式を付け足すことができる
勾配流 -> ランジュバン -> フォッカープランク -> シュレディンガー
勾配流にガウシアンで乱歩の要素を入れるとランジュバン方程式になり
ランジュバン方程式を通常の偏微分に書き直すとフォッカープランク方程式になり
フォッカープランク方程式をゲージ変換すると(ユークリディアン)シュレディンガー方程式になる
強化学習は扱う問題が複雑なので敬遠してきたけど
Q-学習に限らず強化学習は孤立した技術ではないんだろうなと思いました(かしこ)