条件付き期待値 - 何も解らない。。

【条件付き期待値】

$E[Y|X] = E[Y|X = x] = \int yf_{Y|X=x}(y) dy$

今回はとてもシンプルですね。（というか定義を載せただけ）ただこの概念、初学だと結構混乱すると思うんですよね。。

特に条件付き期待値の期待値を考えたり、条件付き分散を考えたり、、「なんとなく」で理解していると結構躓く概念だと思うので、式の意味を考えたり、条件付き期待値にまつわる有名な公式を証明したりしながら、苦手意識のある方の症状緩和を目標にやっていこうと思います。

まず、条件付き”確率（密度関数）”を改めて見てみましょう。

$f_{Y|X}(y) = \frac{f(x, y)}{f_{X}(x)}$

ここで大事なのが、 $f_{Y|X}(y)$ が $y$ の関数だということです。

というのもこれから見ていく条件付き確率の公式もそうですが、 $Y|X$ の $Y$ も $X$ もどちらも動かして考えるので、今動かして考えているのはどちらなのか、しっかり意識して式を追わないと迷子になりやすい*1概念だと思っています。

上の条件付き確率では、 $y$ の関数であることから動かすのは $Y$ の方、 $X = x$ で固定した（条件づけられた） $Y$ の分布を考えているということになります。

条件付き期待値の話に戻ります。条件付き期待値 $E[Y|X]$ は先ほど確認したとおり、 $Y$ が主役（？）です。そう考えると、 $\int yf_{Y|X=x}(y) dy$ で定義されるのも違和感はないんじゃないでしょうか。

では、準備運動はここまでとして、次のやや込み入った話題に移りましょう。

【期待値の繰り返しの公式（全確率の公式）】

$E[E[Y|X]] = E[Y]$

これ、混乱しませんか。。でも大丈夫です。先ほどの話をもとにどの変数を動かしているのか明示的に式に書くことで、頭を整理しましょう。

$E_{X}[E_{Y}[Y|X]] = E_{Y}[Y]$

これでハッキリしました。一応式を追っておくと、中身の条件付き期待値が $X$ で固定して $Y$ の期待値を取ってます。で、その結果に対して今度は $X$ を動かして期待値を取ってます。ここいらで証明をしておきましょう。

【証明】

\begin{equation} \begin{split} E_{X}[E_{Y}[Y|X]] = \int E_{Y}[Y|X]f_{X}(x)dx \cr = \int (\int y\frac{f(x, y)}{f_{X}(x)}dy) f_{X}(x) dx \cr = \int \int yf(x, y) dx dy \cr = E_{Y}[Y] \end{split} \end{equation}

結構シンプルに証明できました。ではこの流れで条件付き分散を使った公式も見ていきましょう。まず条件付き分散の定義です。

【条件付き分散】

$Var_{Y}[Y|X] = E_{Y}[ (Y - E_{Y}[Y|X ] )^2|X]$

今までの要領で式を眺めれば良いので、これは特に説明は不要でしょう。では、公式を見ていきます。

$Var_{Y}[Y] = E_{X}[Var_{Y}[Y|X]] + Var_{X}[E_{Y}[Y|X]]$

Yの分散は、Yの条件付き分散の期待値 + Yの条件付き期待値の分散と分解できる、ということになります。本当でしょうか、証明を追ってみましょう。

【証明】

\begin{equation} \begin{split} Var_{Y}[Y] = E_{Y}[(Y-E_{Y}[Y])^2] \cr = E_{X} [ E_{Y}[(Y-E_{Y}[Y|X]+E_{Y}[Y|X]-E_{Y}[Y])^2 ] | X ] \cr = E_{X} [ E_{Y}[(Y-E_{Y}[Y|X])^2 | X ]] + E_{X} [ E_{Y}[(E_{Y}[Y|X]-E_{Y}[Y])^2 ] | X ]] \cr + 2E_{X} [ E_{Y} [(Y-E_{Y}[Y|X])(E_{Y}[Y|X]-E_{Y}[Y]) | X ]] \cr = E_{X} [ Var_{Y}[Y|X] ] + Var_{X} [ E_{Y}[ Y|X ]] \end{split} \end{equation}

2行目でちゃっかり期待値の繰り返しの公式を使っているのがポイントですね。

最後の式変形は少し補足が必要かもしれません。

まず、 $2E_{X}$ の項が消えているのは、

\begin{equation} \begin{split} 2E_{X} [ E_{Y} [(Y-E_{Y}[Y|X])(E_{Y}[Y|X]-E_{Y}[Y]) | X ]] \cr = 2E_{X} [(E_{Y}[Y|X]-E_{Y}[Y]) E_{Y} [Y-E_{Y}[Y|X] | X ]] \cr = 0 \cr \cr \because E_{Y} [Y-E_{Y}[Y|X] | X ] = 0 \end{split} \end{equation}

ここの処理は今回の記事の集大成のような感じですね。 $E$ の影響する範囲はどこか、（この $E$ は、 $E_{x} , E_{y}$ のどちらなのか）意識して計算すればややこしいですが追えますね。