(情報科学)技術的特異点と科学技術等 2 (ナノテク)

(情報科学)技術的特異点と科学技術等 2 (ナノテク)at FUTURE

(情報科学)技術的特異点と科学技術等 2 (ナノテク) - 暇つぶし2ch53:yamaguti~貸
17/05/14 12:54:11.56 hxbfNeaT.net
1493891216/255-256#機械学習のための仮説検定
naftali harris
複雑な推論 ry 完全に一般化できる非常に簡単で単純な方法 ry 対応のあるt検定を使って比較
独立同分布 ry n 対の (x,y) ry 。“機械学習” は、 (x,y) の例が与えられた時、 x を使って y を推定 ry 最終的 ry 関数 f(x) を生成
典型的には損失関 ry 、この損失関数とは、推定がどれほど良好 ry
。（ここでは、期待値は新しい (X,Y) に取って代わられ、 f に適合させるために使われた点 (x,y) は固定されていると見なされます。
ただし、 (x,y) データを予測する、あるいは n 個の点 x では損失だけを見て y だけを予測するなど、他にも妥当 ry ）。
では、 m 対の (x,y) のテストセット ry
。 f と g の2つのモデルを比較したい場合、m対の (x,y) のそれぞれについて ry
。これで m 個の独立同分布のランダム変数を得ることができ、t検定を使ってその平均がゼロに等しいか ry
。つまり ry 優れた関数であるという帰無仮説及びそうではないという対立仮説を（ ry ）検定

しかし、このアプローチは万能ではありません。1つは、データの使用法に無駄 ry
。どういうことかというと、 f または g に適合させるために使われた後は、訓練データの n 個の点が捨てられ、 m 個の検定点のみ ry
。これが最尤/尤度比検定（例：線形またはロジスティック回帰）のアプローチの場合、同じ訓練データの n 個の点をモデルの適合と推定の両方に使 ry
。基本 ry 、一般的な機械学習モデルでは不可能な、追加機能を追加する際の「自由度」を容易に把握できるからです。
ry 改善 ry 、単一の訓練/検定分割の代わりにK-分割交差検証 ry うまくはいきません。 ry
。先ほど ry 固定値と見なしていましたが、交差検証のセットアップでは各点がそのフォールドにおいてランダム ry 不可能 ry
。ただし ry 大きな問題はありませ ry 80％（ ry ）においてどの程度適合するかという仮説に変えるだけです。
一番の問題 ry 独立同分布でなく ry 、点の独立性はもはや保持されず ry
対策 ry 、K-分割交差検証ではなくLOOCV（一個抜き交差検証） ry
、異なる点の損失差は全て交換でき ry 中心極限定理を見つけて検討モデルを正しい条件下に置けば

次ページ

続きを表示

1を表示