双対標本共分散について
データのばらつきを簡単に評価するには,標本共分散行列を計算するとよいことはみなさんご存じだろう。すなわち、のデータ行列に対して、
・・・(1)
で定義される。上線は標本平均を表す。この行列はであり、データの次元の大きさを持つ行列となる。例えば主成分分析では、の大きい固有値に対する固有ベクトル(=ばらつきの大きい軸)のみを抽出し、もとのデータ空間を低次元空間に射影する。
さて、そもそも従来の統計は、「データの次元は低いが、サンプル数は大量にある」というケースを扱うものであった。この条件の下で信頼区間を計算し、尤もらしい推定を行う。一方で最近では、「データの次元は大きいが、サンプル数は小規模」な高次元小標本の問題を対象にすることが多く、従来の統計学の考えでは対応できない場合が生じつつある。
例えば、最初に説明した共分散行列を考えてみよう。はであり、高次元になればなるほど対角化が困難になる。すなわち、サンプル数より次元が大きい場合は、共分散の計算はに律速されてしまうのである。
したがって、高次元小標本ではの行列の積の順番を交換してできる双対標本共分散行列を考えるとよい。すなわち、
・・・(2)
とすれば、共分散行列はであり、次元によらない大きさの行列となって計算は容易となる。ただし、本当に見たいのは標本共分散行列の持つ固有値である。でに関する情報をどこまで抽出できるのであろうか?
先に結果から言うと、実はの固有値のうち、大きい順のは、の固有値に一致する。これは、「との固有多項式の満たすある関係」による。
いずれにせよ、式(2)の行列を用いれば、高次元な共分散行列の固有値を求めることができることが分かった。このように高次元小標本の問題では、データの次元数による次元の呪いを回避し、より少数なサンプル数で律速された解析法を構築することが一丁目一番地となる。