19/01/22 16:33:10.04 uY0GtCm3.net
深層強化学習とその最新モデル『R2D2』
URLリンク(ai-scholar.tech)
さて、今回紹介する『R2D2』というこの論文で提案された最新の深層強化学習手法ですが、どのくらいすごいかと言うと(個人的には人間の将来に悲観的になるのを通り越して絶望まで感じるレベルですが)、
Atari 57タイトルそれぞれのスコアを人間の一般的なプレイと比較して、なんと平均 3525.4% 、中央値にして 1304.9% のスコアを出しました(図のR2D2 72h)。
しかもこれは事前知識など全くない状態から、つまり「ドア」「鍵」「はしご」「穴」など、人間なら知っていて当たり前のモノやそれの意味を全く知らないまるで生まれたての赤ん坊のような状態からたったの3日で人間を圧倒しているのでとても凄いことです。
強化学習は実にいろいろな場面で使えるのです。
ここで大事なことが2つあります。
『R2D2』がAtariのそれぞれのゲームに特化させることなく高い性能を発揮していることからわかるように、強化学習手法はその汎化性の高さに定評があります。
つまり、一旦コンビニの商品の発注量の制御に使えるAIを作ってしまえば、他の商品、他の店舗でも同様に高い性能を発揮すると期待できます。
次に、深層強化学習手法が毎年・毎月進化しており、Atariのスコアも次々にヒトのレベルを超えていたという事実について考えてみます。
このことから、コンピュータによる自動化が可能な場合には、それを使わないとほぼ確実に人間は負けてしまうということが言えるでしょう。
今は強化学習はごく限られた人にしか自在に扱うことはできていませんが、次第に普及してきた時、AIを使っていないとあっさり競合に引けを取ってしまう時代が容易に想像されます。