双対標本共分散について

データのばらつきを簡単に評価するには，標本共分散行列 $S$ を計算するとよいことはみなさんご存じだろう。すなわち、 $d \times n$ のデータ行列 $X=(\bf{x}_\rm{1},\bf{x}_\rm{2},...,\bf{x}_\rm{n})$ に対して、

　　　 $S=\frac{1}{n-1}(X-\overline{X})(X-\overline{X})^T$ ・・・(1)

で定義される。上線は標本平均を表す。この行列は $d \times d$ であり、データの次元の大きさを持つ行列となる。例えば主成分分析では、 $S$ の大きい固有値に対する固有ベクトル(=ばらつきの大きい軸)のみを抽出し、もとのデータ空間を低次元空間に射影する。

　さて、そもそも従来の統計は、「データの次元は低いが、サンプル数は大量にある」というケースを扱うものであった。この条件の下で信頼区間を計算し、尤もらしい推定を行う。一方で最近では、「データの次元は大きいが、サンプル数は小規模」な高次元小標本の問題を対象にすることが多く、従来の統計学の考えでは対応できない場合が生じつつある。

　例えば、最初に説明した共分散行列を考えてみよう。 $S$ は $d \times d$ であり、高次元になればなるほど対角化が困難になる。すなわち、サンプル数より次元が大きい場合は、共分散の計算は $d$ に律速されてしまうのである。