ChunPom’s diary

数学、物理、機械学習に関する話題。あと院試、資格、大学入試まで。

双対標本共分散について

データのばらつきを簡単に評価するには,標本共分散行列 { \displaystyle S}を計算するとよいことはみなさんご存じだろう。すなわち、 { \displaystyle d \times n}のデータ行列 { \displaystyle X=(\bf{x}_\rm{1},\bf{x}_\rm{2},...,\bf{x}_\rm{n})}に対して、  

    { \displaystyle S=\frac{1}{n-1}(X-\overline{X})(X-\overline{X})^T}・・・(1)

で定義される。上線は標本平均を表す。この行列は { \displaystyle d \times d}であり、データの次元の大きさを持つ行列となる。例えば主成分分析では、 { \displaystyle S}の大きい固有値に対する固有ベクトル(=ばらつきの大きい軸)のみを抽出し、もとのデータ空間を低次元空間に射影する。

 さて、そもそも従来の統計は、「データの次元は低いが、サンプル数は大量にある」というケースを扱うものであった。この条件の下で信頼区間を計算し、尤もらしい推定を行う。一方で最近では、「データの次元は大きいが、サンプル数は小規模」な高次元小標本の問題を対象にすることが多く、従来の統計学の考えでは対応できない場合が生じつつある。

 例えば、最初に説明した共分散行列を考えてみよう。 { \displaystyle S} { \displaystyle d \times d}であり、高次元になればなるほど対角化が困難になる。すなわち、サンプル数より次元が大きい場合は、共分散の計算は { \displaystyle d}律速されてしまうのである。

 したがって、高次元小標本では { \displaystyle S}の行列の積の順番を交換してできる双対標本共分散行列 { \displaystyle S'}を考えるとよい。すなわち、 

    { \displaystyle S'=\frac{1}{n-1}(X-\overline{X})^T(X-\overline{X})}・・・(2)

とすれば、共分散行列は { \displaystyle n\times n}であり、次元によらない大きさの行列となって計算は容易となる。ただし、本当に見たいのは標本共分散行列 { \displaystyle S}の持つ固有値である。 { \displaystyle S'} { \displaystyle S}に関する情報をどこまで抽出できるのであろうか?

 先に結果から言うと、実は { \displaystyle S}固有値のうち、大きい順の { \displaystyle \lambda_1,\lambda_2,...,\lambda_n}は、 { \displaystyle S'}固有値に一致する。これは、「 { \displaystyle AB} { \displaystyle BA}の固有多項式の満たすある関係」による。

詳しくはhttp://yoshiiz.blog129.fc2.com/blog-entry-801.html参照。

 いずれにせよ、式(2)の行列を用いれば、高次元な共分散行列の固有値を求めることができることが分かった。このように高次元小標本の問題では、データの次元数による次元の呪いを回避し、より少数なサンプル数で律速された解析法を構築することが一丁目一番地となる。