予測分散と正則化 - ChunPom’s diary

世の中には多くの分散がある。標本分散、不偏分散、母分散、共分散...。数学的な定義の違い、文脈による呼称の違いなど、統計学の用語はとかく混乱を招きやすい。なまじ身近な数学のため多くの人が多少の知識を持ってしまっているからこそ、逆に言葉の氾濫が助長されている感もある。そこで今回の記事では、「予測分散」を取り上げることにし、機械学習の一つのキーファクターである汎化性との関係を説明することにする。

・予測分散とは？

統計の一つのスコープとして、回帰によるモデルで入出力の関係を定量化＆予測することがある。この関係は、蓄積された入出力のデータ群から学習される。ここで学習とは、「モデルのパラメータ $\theta$ をデータからフィッティングすること」と言い換えることができる。予測分散とは、学習されたパラメータ $\hat{\theta}$ が、真のパラメータ値 $\theta^{*}$ にからどれほどバラついているかを示す指標である。従って、分散は分散でも、回帰などの予測モデルにおけるパラメータに対する分散を予測分散と呼ぶ。

・予測分散の定式化

以下の線形モデルを考えよう(注：一般的に線形モデルとは一次関数のみに限定されない)。

$\bf{y}\rm{=}X\bf{\beta}\rm{+}\bf{\epsilon}$

ここで $\beta$ は係数ベクトル、 $\epsilon~N(0,\sigma^2)$ はガウシアンノイズを表すベクトルである。 $n$ 組のデータ $(\bf{x}_{\rm{i}},\bf{y}_{\rm{i}})$ があるとして係数をフィッティングするには、ノイズの二乗和を最小にすれば良い。すなわち、

$\sum_{i}^{n} |\epsilon_i|^2={|\bf{y}\rm{-}X \bf{\beta}|}^{2}$

に対する最小値問題(=最小二乗法)となる。右辺を $\beta^T$ で偏微分すれば、 $X^T(\bf{y}\rm{-}X \bf{\beta})=0$ を得る。 $X^TX$ が正則であると仮定すると、 $\bf{\hat{\beta}}\rm{=}(X^TX)^{-1}X^T\bf{y}$ を得る。

これの期待値は、 $E(\bf{\hat{\beta}})=(X^TX)^{-1}X^T\rm{E}(\bf{y})$ であるが、ノイズの期待値はゼロなので、結局

$E(\bf{\hat{\beta}})=(X^TX)^{-1}X^TX\beta=\beta$ となり、一致性(真のパラメータに期待値が一致すること)が示せた。

従って予測分散は、共分散行列と同様の定義により

$V(\bf{\hat{\beta}})=\rm{E}( (\bf{\hat{\beta}}-\beta)(\bf{\hat{\beta}}-\beta)^T)$

により定義できる。以下、式の変形をしていくと、

$V(\bf{\hat{\beta}})=\rm{E}( (X^TX)^{-1}X^T(\bf{y}-\rm{E}(\bf{y}))(X^TX)^{-1}X^T(\bf{y}-\rm{E}(\bf{y}))^T)=(X^TX)^{-1}X^T\rm{E}(\bf{\epsilon}\bf{\epsilon}^T)((X^TX)^{-1}X^T)^T=\sigma^2(X^TX)^{-1}$

を得る。ここで、ガウス分布の性質により、 $E(\bf{\epsilon}\bf{\epsilon}^T)$ が対角行列になることを用いた。

上記は計画行列の積が正則である場合を考えた。しかし、例えば同じ入力値セットがデータに含まれる場合など、一般には非正則である。この場合は、正則化を施し、 $X^TX \to{X^TX+\lambda I}$ のように単位行列を加える。この場合、パラメータは $(X^TX+\lambda I)^{-1}X^T\bf{y}$ となり、予測分散は $\sigma^2(X^TX+\lambda I)^{-1}$ となる。