成田悠輔氏　ウェブ番組からの引退を報告「また２２世紀にお会いしましょう」 [ひかり★]

成田悠輔氏　ウェブ番組からの引退を報告「また２２世紀にお会いしましょう」 [ひかり★]at MNEWSPLUS

成田悠輔氏　ウェブ番組からの引退を報告「また２２世紀にお会いしましょう」 [ひかり★] - 暇つぶし2ch787:名無しさん＠恐縮です
23/02/09 21:16:19.22 E+qiqIDS0.net
>>60
人工知能分野における世界最高峰の国際会議AAAI
経済学者なのに人口知能の共同研究に参加
Policy-Adaptive Estimator Selection for Off-Policy Evaluation
Takuma Udagawa1, Haruka Kiyohara2*, Yusuke Narita3, Yuta Saito4, Kei Tateno1
オフポリシー評価(OPE)は，オフラインのログデータのみを用いて反実仮想的なポリシーの性能を正確に評価することを目的としている．これまで多くの推定量が開発されてきたが，評価方針，アクション数，ノイズレベルなどのOPEタスクによって推定量の精度が大きく異なるため，他を圧倒する単一の推定量は存在しない．このように，データドリブンな推定量選択問題は重要性を増しており，OPEの精度に大きな影響を与える可能性がある．しかし，一般に推定量のグランドトゥルース推定精度が得られないため，ログデータのみを用いて最も精度の高い推定量を同定することは非常に困難である．本論文では，この困難なOPEのための推定量選択問題を初めて研究する．特に，利用可能なログデータを適切にサブサンプリングし，推定量選択タスクに有用な疑似ポリシーを構築することにより，与えられたOPEタスクに適応した推定量選択を可能にする．合成データと実世界の企業データの両方を用いた包括的な実験により、提案した手順が非適応なヒューリスティックと比較して推定量選択を大幅に改善することが実証された。
www.DeepL.com/Translator（無料版）で翻訳しました。

次ページ

続きを表示

1を表示