ChunPom’s diary

数学、物理、機械学習に関する話題。あと院試、資格、大学入試まで。

統計推定量の性質

パラメータ {\displaystyle \theta} に対する複数の推定量があるときに、どの推定 {\displaystyle \hat{\theta}} が”良い”のだろうか。

その基準として、ここでは、不偏性、一致性、有効性を説明する。

 

それぞれ一言で説明すると、

普遍性:推定量の期待値が、真の値に等しいこと

一致性:推定量が、標本数が大きくなると真の値に収束すること

有効性:普遍性があって、かつ分散が下限値(フィッシャー情報量の逆数)であること

以下、それぞれについて詳しく見ていこう。

 

普遍性

定義は、推定量 {\displaystyle \hat{\theta}} に対し、

{\displaystyle E[\hat{\theta}]-\theta=0}

が成り立つこと。すなわち、バイアスが0で期待値が真の値に等しくなることである。

しかし、これだけでは良い推定とは言えない。

例えば、期待値が0となる {\displaystyle \varepsilon} を足した {\displaystyle \hat{\theta}+\varepsilon} でさえも、不偏推定量になってしまう。

そこで、以下の一致性が大事になる。

 

一致性

定義は、標本数が {\displaystyle n} での推定量{\displaystyle \hat{\theta}_n} としたとき、

{\displaystyle \forall{\epsilon}\gt0\ \mbox{ s.t. }\ \lim_{n \to \infty} P(|\hat{\theta}_n-\theta|\gt\epsilon)=0.}

 つまり、標本数が大きくなると、真の値に(確率)収束すること。これにより、上記の {\displaystyle \hat{\theta}+\varepsilon} は一致性の観点から”良くない”推定量とすることができる。

ただし、一致性を満たした推定量でも、普遍性を満たさないことがある(例えば、標本分散など)。

ちなみに、一致性があるか否かの判定には、チェビシェフの不等式が用いられる。

 

有効性

 定義は、推定量 {\displaystyle \hat{\theta}} の尤度関数を {\displaystyle f(x;\theta)} とするとき、 

 {\displaystyle V[\hat{\theta}]\geq J^{-1}_n(\theta)}

 の等号が成り立つことである。この不等式はクラメール-ラオの不等式と呼ばれる。

ただし、フィッシャー情報量 {\displaystyle J_n(\theta)} は、

 {\displaystyle J_n(\theta)=E\left[\left(\frac{\partial }{\partial \theta}\mbox{ log }f(x;\theta)\right)^2\right]}

 で定義する。

つまり、普遍性や一致性は、推定量(あるいは期待値)が真の値に”近い”ことを評価する指標であったのに対し、有効性は、推定量の"ばらつき"を評価する指標である。

 

大体の推定では、普遍性と一致性を確保した上で、なるべく分散の少ない推定量を探すことになる。分散が運良くクラメール-ラオの下限になれば完璧、そうでなくとも最小な分散をもつ推定量を見つけることができれば御の字と言える。