すなわち、以下を示す。
\begin{eqnarray} Q(\boldsymbol{z}_i) &=& P( \boldsymbol{z}_i \mid \boldsymbol{x}_i, \boldsymbol{\theta}) \end{eqnarray}
E-Stepの説明(潜在変数が連続変数の場合)
E-Stepでは、\boldsymbol{\theta}固定の下、尤度関数の下界の分布を最大化する。以下で尤度関数を変形し、下界を求める手順を示す。\begin{eqnarray} \displaystyle \sum_{ i = 1 }^{ N } \ln P( \boldsymbol{x}_i \mid \boldsymbol{\theta}) &=& \displaystyle \sum_{ i = 1 }^{ N } \ln \displaystyle \int P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta}) d\boldsymbol{z}_i\\ &=& \displaystyle \sum_{ i = 1 }^{ N } \ln \displaystyle \int Q(\boldsymbol{z}_i)\frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)} d\boldsymbol{z}_i\\ &\geq& \displaystyle \sum_{ i = 1 }^{ N }\displaystyle \int Q(\boldsymbol{z}_i) \ln \frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)}d\boldsymbol{z}_i \end{eqnarray}
(2)式から(3)式への変形は、\boldsymbol{z}_iの任意の確率分布Q(\boldsymbol{z}_i) でかけて割っただけである。この時、Q(\boldsymbol{z}_i) は何ら仮定をおいていないことに注意されたい。
(3)式から(4)式への変形は、Jensen's Inequalityを利用した。
この時、\boldsymbol{\theta}固定の下、下界(4)式の最大化を考える場合、変分法を用いれば良い。下界(4)式をQ(\boldsymbol{z}_i) の汎関数(関数の形を変化させると値が変化する関数。わかりやすい説明は「物理のかぎしっぽ(変分法1)」を参照されたい。)と捉え、変分法によって極値を求める。
特に、Q = Q(\boldsymbol{z}_i) とした時、\boldsymbol{z}_i, Qによって決まる、以下のようなシンプルな汎関数を考える。
\begin{eqnarray} \displaystyle \int f( \boldsymbol{z}_i, Q) d\boldsymbol{z}_i \end{eqnarray}
このシンプルな汎関数を求めるための、オイラー・ラグランジュ方程式は、以下で表せる。(その他の汎関数のオイラー・ラグランジュ方程式については、「物理のかぎしっぽ(変分法2)」を参照されたい。)
\begin{eqnarray} \frac{ \partial f }{ \partial Q } \end{eqnarray}
よって、下界(4)式の積分部分に注目し、\int Q(\boldsymbol{z}_i) d\boldsymbol{z}_i =1の制約を加えた汎関数は以下となる。
\begin{eqnarray} \displaystyle \int Q(\boldsymbol{z}_i) \ln \frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)}d\boldsymbol{z}_i - \lambda (1- \int Q(\boldsymbol{z}_i) d\boldsymbol{z}_i ) \end{eqnarray}
これをQで変分すると以下を得る。
\begin{eqnarray} \ln \frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)}+Q(\boldsymbol{z}_i) \cdot \frac{Q(\boldsymbol{z}_i)}{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})} \cdot \left[- \frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)^2} \right] + \lambda = 0 \end{eqnarray}
\begin{eqnarray} \ln \frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)} = -\lambda + 1 \end{eqnarray}
\begin{eqnarray} Q(\boldsymbol{z}_i) = e^{\lambda - 1}P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta}) \end{eqnarray}
\int Q(\boldsymbol{z}_i) d\boldsymbol{z}_i =1より、以下を得る。
\begin{eqnarray} Q(\boldsymbol{z}_i) &=& \frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{\int P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta}) d\boldsymbol{z}_i}\\ &=& \frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{P( \boldsymbol{x}_i \mid \boldsymbol{\theta}) }\\ &=& P( \boldsymbol{z}_i \mid \boldsymbol{x}_i, \boldsymbol{\theta}) \end{eqnarray}
これは、離散分布を仮定し、EMアルゴリズムのE-STEPを説明した「今更聞けないEMアルゴリズムの解説」の(8)式と合致する。
0 件のコメント:
コメントを投稿