何も解らない。。

データサイエンス関連

十分統計量

【十分統計量】

k個の統計量 T = (T_{1}, ..., T_{k})がパラメータθに関するk次元の十分統計量であるとは、Tを与えたときの X = (X_{1}, ..., X_{n})の条件つき分布が \thetaに依存しないことである。


初見だと?ってなりませんか、私はなりました。
ということで、この機会に弊家本棚の積読筆頭候補の『現代数理統計学』を参考にまとめてみました。

要は、 \thetaで特徴付けられる分布があるんだけど、十分統計量Tなるものの情報を得るとその条件つき分布は \thetaに依存しなくなる、ということのようです。

まだピンと来ないので具体例を見ていきたいと思いますが、その前に『分解定理』を紹介して見通しを良くしましょう。

【分解定理】

Xを離散確率変数または連続確率変数とし p_{\theta}をXの確率変数または密度関数とする。 T(X) = (T_{1}(X), ..., T_{k}(X))が十分統計量であるための必要十分条件 p_{\theta}(x)が 、


 p_{\theta}(x) = g_{\theta}(T(x))h(x)


の形に分解できることである。
ここで h(x) \thetaを含まないxのみの関数である。


密度関数を \thetaを含むxの統計量Tの関数と含まないxの関数に分けて、前者の統計量が \thetaの十分統計量になっている、と。

この定理の嬉しいところは、Tが十分統計量かどうかを調べるために条件付き分布( P_{\theta}(X = x | T = t))を求める必要がない、という点にあります。特に連続変数の場合は条件付き分布の導出に(自明でない)変数変換が必要となり、難儀するとのこと。

この定理は連続変数版の証明は測度論が必要とのことなので、離散版だけ証明を追いましょう。

【証明】

(必要性)
 p_{\theta}(x) = g_{\theta}(T(x))h(x)の分解が出来ているとする。


 p_{\theta}(T = t) = \sum_{T(x)=t} p_{\theta}(x) = \sum_{T(x)=t} g_{\theta}(T(x))h(x) = g_{\theta}(t) \sum_{T(x)=t}h(x)


なので、


 p_{\theta}(X = x | T = t) = \frac{g_{\theta}(t)h(x)}{g_{\theta}(t)\sum_{T(x)=t} h(x)} = \frac{h(x)}{\sum_{T(x)=t} h(x)}


となり、 \thetaに依存しないことから、Tが十分統計量となる。


(十分性)
Tが十分統計量とすると、


 p_{\theta}(T = t) = g_{\theta}(t),  p_{\theta}(X = x | T = t) = h(x) \thetaに依存しない)と置いて、


 p_{\theta}(X = x) = p_{\theta}(T = t) * p(X = x | T = t) = g_{\theta}(T(x))h(x)


となる。


さて、話を戻してポアソン分布( X_{1}, ..., X_{n} \sim Po(\lambda))について具体例を見ていきましょう。

 p_{\lambda}(x) = \prod_{i = 1}^n \frac{\lambda^x_{i}}{x_{i}!} e^{-\lambda} = \lambda^{\sum_{i = 1}^n}e^{-n\lambda}(\prod_{i = 1}^n x_{i}!)^{-1}


パラメータ \lambdaの入った部分とそれ以外に分けて、 g_{\lambda} = \lambda^{\sum_{i = 1}^n}e^{-n\lambda},  h(x) = (\prod_{i = 1}^n x_{i}!)^{-1}と置けば、分離定理より \sum_{1}^n X_{i}は十分統計量だと分かりました。

こうして具体例を見ると大分クリアになりますね。

せっかくだから6章全部まとめようと思ったんですが、前章までの知識が必要だったりしてすぐ纏まんなそうなので、今回はこの辺で、そりでわ。