LDAの各変数の意味と幾何的解釈について

はじめに

LDAの仕組みについて，時間をあけるとすぐに記憶が飛んでしまうためメモ．
ここでは以下についてまとめます*1

LDAのグラフィカルモデルにおける各変数の意味とは？
LDAは幾何的に何をやってるのか？

LDAのグラフィカルモデル

まず，各文書についてBag of Words(BoW)表現に変換する*2．
そして，次の仮定をおく．

文書は複数のトピック*3から構成され，その構成比を離散分布としてもつ
トピックは語彙の出現確率分布で表現される
単語ごとに潜在トピックが存在する*4

これをグラフィカルモデルに落としこむと下図になる*5．

Smoothed LDAのグラフィカルモデル

すると，グラフィカルモデルにおける各変数の意味は次のようになる．*6

$M$ ：文書数
$K$ ：文書集合全体におけるトピック数
$V$ ：文書集合全体における語彙数*7
$n_d$ ：文書dにおける単語数*8
$w_{d,i}\in\left\{1,..,V\right\}$ ：文書 $d$ における $i$ 番目の単語の語彙インデックス*9
$z_{d,i} \in \left\{1,..,K\right\}$ ：文書 $d$ における $i$ 番目の単語の潜在トピック
$\vec{\theta_d} = \left( \theta_{d,1},..,\theta_{d,K} \right)$ ：文書 $d$ におけるトピックの出現確率ベクトル． $\sum_{k=1}^{K}\theta_{d,k}=1$
$\vec{\alpha} = \left( \alpha_1,..,\alpha_K \right)$ ：トピックの出現頻度の偏りを表すパラメータ*10
$\vec{\phi_k} = \left( \phi_{k,1},..,\phi_{k,V} \right)$ ：トピック $k$ における語彙の出現確率ベクトル． $\sum_{v=1}^{V}\phi_{k,v}=1$
$\vec{\beta} = \left( \beta_1,..,\beta_V \right)$ ：語彙の出現頻度の偏りを表すパラメータ*11

LDAの生成過程

$\vec{\theta_d} \sim {\rm Dir}(\vec{\alpha})\ \ \ \ \ \ \ (d=1,..,M)$
$\vec{\phi_k} \sim {\rm Dir}(\vec{\beta})\ \ \ \ \ \ \ (k=1,..,K)$
$z_{d,i} \sim {\rm Multi}(\vec{\theta_{d}})\ \ \ \ \ \ \ (i=1,..,n_d)$
$w_{d,i} \sim {\rm Multi}(\vec{\theta_{z_{d,i}}})\ \ \ \ \ \ \ (i=1,..,n_d)$

ただし， ${\rm Dir}$ はディリクレ分布， ${\rm Multi}$ は多項分布を表す．*12
また， $\vec{\alpha}$ と $\vec{\beta}$ はパラメータとして与える．

補足：パラメータ $\vec{\alpha}$ と $\vec{\beta}$ の意味

多項分布による生成過程 $x_i \sim {\rm Multi}(x_i|\vec{\pi}),(i=1,..,n)$ を考えて，
$\vec{\pi}$ の事前分布としてディリクレ分布 $p(\vec{\pi}|\vec{\alpha})={\rm Dir}(\vec{\pi}|\vec{\alpha})$ ，ただし $\vec{\alpha}=(\alpha_1,..,\alpha_K)$ を考える．

すると， $\vec{\pi}$ の事後分布は， $p(\vec{\pi}|\vec{x},\vec{\alpha})={\rm Dir}(\vec{\pi}|\vec{\alpha}+\vec{n})$ となる．
ただし， $\vec{n}=(n_1,..,n_K),n_k$ は $n$ 回試行の中で $k$ が出現した回数．
すなわち，事前分布における $\vec{\alpha}$ は，事後分布では $\vec{n}$ に加算される．
したがって， $\vec{\alpha}$ はデータを観測する前の $k$ ごとの仮想的頻度を表す．