何も解らない。。

データサイエンス関連

条件付き期待値

【条件付き期待値】

 E[Y|X] = E[Y|X = x] = \int yf_{Y|X=x}(y) dy

今回はとてもシンプルですね。(というか定義を載せただけ) ただこの概念、初学だと結構混乱すると思うんですよね。。

特に条件付き期待値の期待値を考えたり、条件付き分散を考えたり、、「なんとなく」で理解していると結構躓く概念だと思うので、式の意味を考えたり、条件付き期待値にまつわる有名な公式を証明したりしながら、苦手意識のある方の症状緩和を目標にやっていこうと思います。

まず、条件付き”確率(密度関数)”を改めて見てみましょう。

 f_{Y|X}(y) = \frac{f(x, y)}{f_{X}(x)}

ここで大事なのが、 f_{Y|X}(y) yの関数だということです。

というのもこれから見ていく条件付き確率の公式もそうですが、 Y|X Y Xもどちらも動かして考えるので、今動かして考えているのはどちらなのか、しっかり意識して式を追わないと迷子になりやすい*1概念だと思っています。

上の条件付き確率では、 yの関数であることから動かすのは Yの方、 X = xで固定した(条件づけられた) Yの分布を考えているということになります。

条件付き期待値の話に戻ります。条件付き期待値 E[Y|X]は先ほど確認したとおり、  Yが主役(?)です。そう考えると、 \int yf_{Y|X=x}(y) dyで定義されるのも違和感はないんじゃないでしょうか。

では、準備運動はここまでとして、次のやや込み入った話題に移りましょう。

【期待値の繰り返しの公式(全確率の公式)】

 E[E[Y|X]] = E[Y]

これ、混乱しませんか。。でも大丈夫です。先ほどの話をもとにどの変数を動かしているのか明示的に式に書くことで、頭を整理しましょう。

 E_{X}[E_{Y}[Y|X]] = E_{Y}[Y]

これでハッキリしました。一応式を追っておくと、中身の条件付き期待値が Xで固定して Yの期待値を取ってます。で、その結果に対して今度は Xを動かして期待値を取ってます。ここいらで証明をしておきましょう。

【証明】

\begin{equation} \begin{split} E_{X}[E_{Y}[Y|X]] = \int E_{Y}[Y|X]f_{X}(x)dx \cr = \int (\int y\frac{f(x, y)}{f_{X}(x)}dy) f_{X}(x) dx \cr = \int \int yf(x, y) dx dy \cr = E_{Y}[Y] \end{split} \end{equation}

結構シンプルに証明できました。ではこの流れで条件付き分散を使った公式も見ていきましょう。 まず条件付き分散の定義です。

【条件付き分散】

 Var_{Y}[Y|X] = E_{Y}[ (Y - E_{Y}[Y|X ] )^2|X]

今までの要領で式を眺めれば良いので、これは特に説明は不要でしょう。では、公式を見ていきます。

 Var_{Y}[Y] = E_{X}[Var_{Y}[Y|X]] + Var_{X}[E_{Y}[Y|X]]

Yの分散は、Yの条件付き分散の期待値 + Yの条件付き期待値の分散と分解できる、 ということになります。本当でしょうか、証明を追ってみましょう。

【証明】

\begin{equation} \begin{split} Var_{Y}[Y] = E_{Y}[(Y-E_{Y}[Y])^2] \cr = E_{X} [ E_{Y}[(Y-E_{Y}[Y|X]+E_{Y}[Y|X]-E_{Y}[Y])^2 ] | X ] \cr = E_{X} [ E_{Y}[(Y-E_{Y}[Y|X])^2 | X ]] + E_{X} [ E_{Y}[(E_{Y}[Y|X]-E_{Y}[Y])^2 ] | X ]] \cr + 2E_{X} [ E_{Y} [(Y-E_{Y}[Y|X])(E_{Y}[Y|X]-E_{Y}[Y]) | X ]] \cr = E_{X} [ Var_{Y}[Y|X] ] + Var_{X} [ E_{Y}[ Y|X ]] \end{split} \end{equation}

2行目でちゃっかり期待値の繰り返しの公式を使っているのがポイントですね。

最後の式変形は少し補足が必要かもしれません。

まず、 2E_{X}の項が消えているのは、

\begin{equation} \begin{split} 2E_{X} [ E_{Y} [(Y-E_{Y}[Y|X])(E_{Y}[Y|X]-E_{Y}[Y]) | X ]] \cr = 2E_{X} [(E_{Y}[Y|X]-E_{Y}[Y]) E_{Y} [Y-E_{Y}[Y|X] | X ]] \cr = 0 \cr \cr \because E_{Y} [Y-E_{Y}[Y|X] | X ] = 0 \end{split} \end{equation}

ここの処理は今回の記事の集大成のような感じですね。 Eの影響する範囲はどこか、(この Eは、 E_{x} , E_{y}のどちらなのか)意識して計算すればややこしいですが追えますね。

残った部分は定義に従って変形しているだけですが、2項目は、

 E_{X}[E_{Y}[Y|X]] = E_{Y}[Y]

となることに注意して分散の形に変形します。

はい、これで当初目標としていた分散の公式まで証明できました。かなり冗長に書いたので逆に見にくいところもありますが、実際に式を追うときは、条件付き期待値の値などを適宜記号などで置き換えるともう少し簡潔にまとまると思います。

この公式、今回はちゃんと証明しましたが、やや煩雑なので一回導出したら覚えちゃってもいいかもしれません。*2

 Yの分散は、 Y|X EV VEの和と等しい。意外と覚えやすいと思います。もちろん E Vの添字( X Yか)はどっちがどっちかは、もう迷わないようになりましたよね?

では今回はこの辺で、そりでわ。

*1:と少なくとも私は感じました。。

*2:暇なら年に一回くらい証明しましょう。