定義など少し混乱気味になって、調べてみたので書いてみました。
定義
パラメトリックな確率分布の族 \(\{p(\theta); \theta\in\Theta\}\) を考える。確率変数 \(X\) の従う分布が \(p(x|\theta)\) のとき(もしくはそのように仮定するとき)、ベイズの定理より事後分布は
\begin{align*}
p(\theta|x)\propto p(x|\theta)p(\theta)
\end{align*}
となるが、このとき事前分布 \(p(\theta)\) と事後分布 \(p(\theta|x)\) が同じ分布族に属するときに \(p(\theta)\) は \(p(x|\theta)\) の共役事前分布であるという。同じ分布族に属するので、事前パラメータ \(\theta_0\) とデータ \(x\) が決定されると事後パラメータ \(\tilde\theta\) は \(\theta_0, x\) の関数として\(\tilde\theta(\theta_0, x)\) と書ける。
複数のデータ
一般に、iidなデータが複数ある場合、尤度に事前分布をかけることで
\begin{align*}
p(\theta|x_1,\cdots,x_n)&\propto p(x_1,\cdots,x_n|\theta)\cdot p(\theta)\\
&=p(\theta)\prod_{i=1}^np(x_i|\theta)
\end{align*}
データを1つずつ追加していくとパラメータが逐次変化していくイメージでしょうか。以下のような感じ。
つまり、一個のデータの場合の事後パラメータがわかれば、あとは機械的に \(n\) 個のデータの場合に拡張できる。
\(n\)個のデータを食わせたことによって得られる \(\theta_n\) は明らかにデータを食わせる順番に依存してはいけない。こう考えると、共役事前分布が存在する確率分布のクラスはかなり限定されそう(このへんはよくわからないけど例えば指数関数族とか?)
モチベーション
なぜこういったものを考えるのか。
- 事後分布の解析的な導出を行うために必要。
- ギブスサンプラーで効率的にMCMCするために必要。
すぐに思いつくのはこのくらいですが、他にもあるでしょうか???
共役事前分布の例
最後にいくつかの有名な例を挙げておきます。
データの分布 | パラメータ \(\theta\;\;\) |
共役事前分布 | 事前パラメータ | 事後パラメータ 1データ |
事後パラメータ nデータ |
---|---|---|---|---|---|
ポアソン分布 | \(\lambda\) | ガンマ分布 | \(\alpha, \beta\) | \(\alpha+x, \beta+1\) | \(\alpha+\sum_{i=1}^nx_i,\beta+n\) |
多項分布 | \(\{p_i\}\) | ディリクレ分布 | \(\{\alpha_i\}\) | \(\alpha_i+1\) (iが選ばれた時; それ以外はそのまま) |
\(\{\alpha_i+n_i\}\) ただし、\(n_i\) は iが選ばれた回数 |
指数分布 | \(\lambda\) | ガンマ分布 | \(\alpha,\beta\) | \(\alpha+1, \beta+x\) | \(\alpha+n, \beta+\sum_{i=1}^nx_i\) |
正規分布についても書こうと思いましたが、式が長かったので断念。